Descargitas

来自中国的最新突发新闻。

新的 ChatGPT 生成人工智能模型有什么以及它是如何工作的?

OpenAI 通过推出一种新模型,在竞争激烈的生成式人工智能领域加大了赌注,希望能够吸引更多用户使用其平台并击退所有竞争对手。

GPT-4o 是为 ChatGPT 提供支持的底层大语言模型技术的更新版本。 上周有传言称它将作为搜索引擎推出以挑战谷歌,但路透社报道称 OpenAI 推迟了这一计划。

OpenAI 首席执行官 Sam Altman 否认有任何发布,只是在 X 上发帖表示,该公司正在“努力开发一些我们认为人们会喜欢的新东西”。

名称中的“o”代表“o​​mni”,这家总部位于加州的公司正在将 GPT-4o 推广为适合所有人的东西,这是有道理的,因为“omni”意味着“所有”或“一切”——OpenAI 是否想加入我们生活中随处可见?

什么是 GPT-4o?

简而言之:根据 OpenAI 的说法,GPT-4o 是“可以通过声音、视觉和文本进行实时推理的新的主要范式。”

简短回答:它是 OpenAI 中最快的 AI 模型。

OpenAI 在周一的博客文章中表示,“omni”这个名字指的是“迈向更自然的人机交互的一步”。

它本身也是多模式的,这意味着它可以接受文本、音频和图像的任意组合作为输入,并生成文本、音频和图像的任意组合输出。

GPT-4o 有多快?

OpenAI 声称,GPT-4o 可以在短至 232 毫秒的时间内响应语音输入,平均为 320 毫秒,根据多项研究,这与人类在对话中的响应时间相似。

因此,GPT-4o 需要使用更少的语言标记,这是人工智能计算文本长度的基本单位,可以包括标点符号和空格。 令牌的数量因一种语言而异。

OpenAI 强调的使用 GPT-4o 标记较少的语言包括阿拉伯语(53 至 26)、古吉拉特语(145 至 33)、印地语(90 至 31)、韩语(45 至 27)和中文(34 至 27)。 24)。 。

为了便于理解,我们可以与 Robert Miller 1968 年的一项研究进行一些比较—— 人机对话交易中的响应时间—— 其中详细介绍了大型机响应能力的三个衡量标准。

研究显示,100 毫秒的响应时间被认为是瞬时的,而一秒或更短的响应时间被认为足够快,让用户感觉他们正在自由地与信息交互。 超过10秒的响应时间将导致用户完全失去注意力。

GPT-4o 如何工作?

最简单的答案是 OpenAI 简化了将输入转换为输出的过程。

在之前的 OpenAI AI 模型中,使用语音模式与 ChatGPT 对话的平均延迟为 2.8 秒(GPT-3.5)和 5.4 秒(GPT-4)。 语音模式使用三个独立的模型:一个简单模型将音频转换为文本,GPT-3.5 或 GPT-4 接收文本并将其输出,第三个简单版本将该文本转换回音频。

OpenAI 表示:“这个过程意味着主要智能来源 GPT-4 丢失了大量信息——它无法直接观察音调、多个说话者或背景噪音,也无法输出笑声、歌唱或情感表达。” 。

但借助 GPT-4o,OpenAI 能够将所有这些功能整合到一个模型中,具有跨文本、视觉和语音的综合功能,从而大大减少了处理信息所花费的时间。

“所有输入和输出都由同一个神经网络处理,”OpenAI 说。 神经网络是一种人工智能技术,可以教会计算机如何像人脑一样处理数据。

然而,OpenAI 表示,它“仍然只是触及了 GPT-4o 的功能和局限性的表面”,因为它是第一个集成所有这些方法的模型。

GPT-4o 能做什么 做?

谈到局限性,OpenAI 承认 GPT-4o 模型中存在“很多”局限性,包括错误栏中出现的响应不一致的情况。 它甚至展示了 GPT-4o 在嘲笑方面的聪明程度。

此外,OpenAI 表示将继续通过训练后改进模型行为,这对于解决安全问题至关重要,而安全问题是现代人工智能的一个主要症结所在。

该公司表示,它创建了新的安全系统来充当音频输出的屏障,并与社会心理学、偏见、公平和错误信息领域的 70 多名专家一起测试该模型,以识别可能渗透的任何风险。

“我们将继续降低发现的新风险。我们认识到 GPT-4o 的声学方法会带来各种新风险,”OpenAI 表示。

GPT-4o 的价格是多少?

OpenAI 首席技术官米拉·莫拉蒂 (Mira Moratti) 在揭晓该产品的演示中表示,好消息是,它对所有用户免费,付费用户最多可享受免费用户五倍的容量限制。

但是,如果您不是 OpenAI 的付费用户,则 100 万个输入和输出代币将分别花费 5 美元和 15 美元。

允许免费使用 GPT-4o 应该会对 OpenAI 有利,这也将补充该公司的其他付费产品。

8月,OpenAI推出了ChatGPT Enterprise包月套餐,价格根据用户需求而有所不同。 这是继基本免费服务和每月 20 美元的 Plus 计划之后的第三层。

一月份,该公司推出了 ChatGPT 在线商店,让用户可以访问由 OpenAI 合作伙伴及其社区开发的超过 300 万个自定义版本的 GPT。

随着生成式人工智能领域竞争的加剧,OpenAI 希望吸引更多用户,而且还有很多东西在等待着他们。

OpenAI 目前如何与其最大的竞争对手竞争?

OpenAI 提供新的、免费的、快速的大语言模型的举动表明它在生成人工智能领域的竞争有多繁忙。

谷歌可以说是该领域最大的竞争对手,它拥有 Gemini,这是第一个在多任务语言理解方面超越人类专家的人工智能模型,多任务语言理解是测试人工智能知识和解决问题能力的广泛使用的方法之一。

Gemini 可以通过每月 19.99 美元的 Google One AI Premium 套餐进行访问,其中包括 2TB 存储空间、在 Google 商店购买 10% 的返现,以及 Gmail、Google Docs、Google Slides 和 Google Meet 等更多功能。

今年 2 月,它推出了 Gemma,旨在帮助开发人员和研究人员“负责任地构建人工智能”,并且更多地用于基本聊天机器人或摘要功能等适度任务。

与此同时,Anthropic 在 3 月份推出了 Cloud 3,这是对人工智能先驱 OpenAI 的直接挑战。

该公司在谷歌和亚马逊的支持下,拥有三个层级:Haiku、Sonnet 和 Opus,每个层级都提供不断增强的功能来满足用户需求。

Haiku 的输入成本为每百万代币 (MTok) 0.25 美元,输出成本为 1.25 美元,而 Sonnet 的成本为 3 美元和 15 美元。 Opus 是最贵的,分别为 15 美元和 75 美元。

相比之下,OpenAI 的 GPT-4 Turbo 输入价格为 10 美元,输出价格为 30 美元,上下文窗口也较小,为 128,000 MTok。

微软是 OpenAI 的最大支持者,Copilot pro 服务每月收费 20 美元,保证更快的性能和服务提供的“一切”。 如果您不愿意付费,可以使用免费的副驾驶级别,但其功能显然有限。

然后是 xAI 的 Grok,来自 OpenAI 的朋友变成敌人的埃隆·马斯克 (Elon Musk)。

Grok 的当前版本 Grok-1.5 仅适用于 X 的 Premium+ 级别的订阅者,起价为每月 16 美元,或每年 168 美元。

地区实体也瞄准了领先者:周一,阿布扎比技术创新研究所推出了其大型语言模型 Falcon 2 的第二个版本,以与 Meta、Google 和 OpenAI 开发的模型竞争。

同样在周一,总部位于阿布扎比的人工智能和云公司 G42 旗下的 Core42 推出了在阿联酋开发的阿拉伯语-英语双语聊天机器人 Jais Chat。 它可以在 Apple 的 iPhone 上免费下载和使用。

更新时间:2024 年 5 月 15 日上午 10:34