Descargitas

来自中国的最新突发新闻。

开发人工智能以增强互联网可访问性:研究人员

为了让残疾人更容易访问互联网,俄亥俄州立大学的研究人员已经开始开发一种人工智能代理,它可以使用简单的语言命令在任何网站上完成复杂的任务。

自首次发布到公共领域以来的三十年里,万维网已成为一个极其复杂的动态系统。 然而,由于互联网的功能现已成为社会福祉不可或缺的一部分,其复杂性也使得浏览互联网变得更加困难。

如今,有数十亿个网站可帮助访问信息或与他人交流,许多在线任务可能需要十多个步骤才能完成。 为了这 哟洙, 该研究的合著者和助理教授 计算机科学与工程 在俄亥俄州立大学,他们表示,他们的工作利用实时网站的信息来创建网络代理(在线人工智能助手),这是朝着让数字世界变得不再那么混乱的方向迈出的一步。
悠苏

“对于一些人,特别是残疾人来说,上网并不容易,”苏说。 “我们在日常生活和工作中越来越依赖计算世界,但进入这个世界存在很多障碍,这在一定程度上加剧了不平等。”

研究 它于 12 月推出,于 第 37 届神经信息处理系统会议 (NeurIPS)这是人工智能和机器学习研究的领先会议。

Su 说,通过利用大型语言模型的力量,代理的行为与人类浏览网页时的行为类似。 俄亥俄州立大学团队证明,他们的模型仅利用其处理和预测语言的能力就能够理解各种网站的布局和功能。

研究人员通过创建 心灵2网络, 公共网络代理的第一个数据集。 尽管以前构建网络代理的努力主要集中在游戏模拟网站上,但 Mind2Web 完全接受了现实生活网站的复杂性和动态性,并强调代理泛化到他们以前从未见过的全新网站的能力。 苏说,他们的成功很大程度上归功于他们的代理能够处理不断变化的在线学习曲线。 该团队从 137 个不同的现实世界地点上传了 2000 多个开放式任务,然后用这些任务来训练代理。

其中一些任务包括预订往返和往返国际航班、关注名人 Twitter 账户、浏览 Netflix 上 1992 年至 2017 年的喜剧流媒体,甚至安排在 DMV 进行汽车知识测试。 许多任务非常复杂 – 例如,预订模型中使用的国际航班之一可能需要 14 个操作。 苏说,这种简单的多功能性允许在许多网站上进行多样化的报道,并为未来模型独立探索和学习开辟了新的前景。

“只有像 ChatGPT 这样的大型语言模型最近得到了发展,这样的事情才成为可能,”Su 说。 自从聊天机器人公开以来 2022 年 11 月, 它已被数百万用户用来自动创建内容 诗歌和笑话烹饪建议医学诊断。

然而,由于单个网站可能包含数千个原始 HTML 元素,因此将如此大量的信息提供给一个大型语言模型将非常昂贵。 为了解决这一差距,该研究还引入了一个名为 MindAct 的框架,这是一个双管齐下的代理,使用小型和大型语言模型来执行这些任务。 该团队发现,使用这种策略,MindAct 的性能明显优于其他流行的建模策略,并且能够在相当程度上理解各种概念。

该研究表明,通过进一步微调,该模型有可能与大型开源和闭源语言模型一起使用,例如 果馅饼-T5 或者 GPT-4。 然而,苏表示,他们的工作凸显了创建有弹性的人工智能时日益重要的道德问题。 Su 表示,虽然它肯定可以成为人类浏览网络的推动者,但该模型也可以用于增强 ChatGPT 等系统,并将整个互联网变成一个前所未有的强大工具。

“一方面,我们有巨大的潜力来提高效率,让我们能够专注于工作中最具创造性的部分,”他说。 “但另一方面,也存在巨大的潜在危害。” 例如,能够将在线步骤转化为现实世界的独立代理人可以通过采取潜在危险的行为(例如滥用财务信息或传播错误信息)来影响社会。

“我们必须非常谨慎地对待这些因素,并共同努力减轻它们,”苏说。 但他指出,随着人工智能研究的不断发展,未来几年社区可能会看到公共网络代理的商业用途和性能显着增长,特别是因为该技术已经在公众眼中获得了广泛的欢迎。

“在我的职业生涯中,我的目标始终是努力弥合人类用户与计算世界之间的差距,”苏说。 “然而,这个工具的真正价值在于它可以节省人们的时间,让不可能成为可能。”

该研究得到了美国国家科学基金会、美国陆军研究实验室和俄亥俄州超级计算机中心的支持。 其他合著者包括来自俄亥俄州立大学的丁翔、谷宇、程博源、陈世杰、塞缪尔·史蒂文斯、王博士和孙焕。

/一般发布。 来自原始组织/作者的这些材料本质上可能是按时间顺序排列的,并且为了清晰度、风格和长度而进行了编辑。 Mirage.News 不代表公司立场或政党,本文表达的所有意见、立场和结论仅代表作者的观点。在此查看全文。

READ  YouTube 强制流行的 Groovy Discord 音乐机器人下线