人工智能开发人员长期以来一直试图渗透 PDA 的核心,提供智能、易于交互且始终可用的服务。本周早些时候在 Made by Google 会议上宣布的 Gemini Live 是 Google 的一项新尝试,因此我给了这个 AI 24 小时的试用期,看看它离真正有用的程度有多近。
虽然我不习惯直接与人工智能助手聊天,但除了让他们在做饭时设置计时器之外,我想看看与像 Gemini 这样的助手进行公开对话有什么好处。经过这一天的测试,我至少对以这种方式与人工智能交谈的价值充满信心,即使我对它目前给出的一些答案不太有信心。
尽管我对 Gemini Live 的实验远未正式测试他的能力,但我向他提出的广泛问题让我们很好地了解了他擅长什么和不擅长什么。因此,我对自己的评估充满信心,即 Gemini Live 将成为 Gemini 软件包的一个很好的补充,并且也许有足够的理由让一些免费用户转换为每月 20 美元的 Gemini Advanced 付费用户。即使该计划尚未实现所有目标。
周四下午——准备
Gemini Live 作为 Gemini Advanced 订阅的一部分提供,但在我撰写本文时它已推出,但尚未对所有用户开放。幸运的是,我有一台 Google Pixel 9 Pro XL 来试用。如果您想了解有关这款手机的更多信息,可以查看我们对 Google Pixel 9 Pro 和 Pro XL 的实际评测,其中我们将在这里专门关注 Gemini Live。
另一个问题是,您当前需要将 Gemini 的语言设置为美国英语才能使用它。幸运的是,即使在这样做之后,我仍然能够从提供的十个英国声音中选择一个名为“Capella”的英国声音与 Gemini 聊天。他们听起来都很正常,只是热情程度和语气不同。即使当你开始提问时,你也很少会遇到错误或措辞尴尬的句子。
周四晚上——回家
设置好一切后,我与 Gemini Chat 的第一次重要互动是向他询问回家的方向。当我告诉 Gemini Live 我选择的交通方式并确认我想要前往的站点时,Gemini Live 最初并没有告诉我它发现了什么。经过漫长的等待,我请他实际告诉我他发现了什么并描述路线。
我可能会沿着同一条路回家。然而,旅途并不顺利。双子座错误地识别了一条火车线路和一个车站,忽略了它所做的一项技术改变需要在两个车站之间运行,然后似乎凭空发明了火车。这很奇怪,因为双子座声称已经检查了伦敦交通局的网站以获取其信息。
这是核心人工智能模型的问题,而不是 Gemini Live 的问题,但听起来像权威的声音(带有英国口音)表明该路线可能会导致不太熟悉伦敦公共交通的人到达丢失的。看来这种事情你最好还是坚持使用谷歌地图。
周五上午——新闻发布会
第二天,当我准备去上班时,我请吉米尼向我通报当天的突发新闻。通过简单的手势,他向我讲述了很多有关《早安英国》和《今晨》节目主持人更换的信息,并简要提及了最近在莱斯特广场发生的持刀伤人事件。但当我请他向我介绍最新技术时,事情变得更加奇怪。
Google Gemini 最初告诉我,微软发布了 Surface Duo 3,这款设备尚未得到证实,事实上几个月来一直有传言称其将被取消。 PS5 Slim 是真实的,但它是去年秋天推出的,我们可以假设它指的是上个月的 Crowdstrike 中断及其最近的评论
然后我要求 Gemini Live 关注 iPhone 传闻,但最初他的回答都是关于当前可用的 iPhone 15 系列。经过进一步的催促,他描述了一些有关 iPhone 16 摄像头的传言,但没有提供太多细节。
周五上午 – 酿造指南
工作了几个小时后,到了喝咖啡休息的时间,所以我尝试让 Gemini Live 指导我制作 V60 咖啡。
我希望能得到 AI 的一步步指导,但问题是你需要不断提示或打断 Gemini Live,迫使它按照步骤给出答案。然而,他能够停止谈话并提供似乎令人信服的答案,尽管笔录显示他最初没有听到我的提示。
Gemini Live 应用程序是一个信息大杂烩。他给出了一些适合爱好者的建议,例如在煮水之前过滤水。尽管很简单,但总体配方却是一个可以饮用的杯子。但 Gemini Live 应用程序还为我提供了建议的咖啡重量,单位是汤匙咖啡豆,而不是克或盎司,这不是冲泡咖啡时的典型测量方法。但由于额外的指导,我能够得到以克为单位的数量。
周五午餐——格斗谈话
午餐后,我与 Gemini Live 快速聊了聊《街头霸王 6》,这是我目前经常玩的游戏。该网站正确地提到了今年 SF6 的 Evo 2024 冠军以及他的对手,但同样没有提供大量的初始细节。
我将话题转向了教练技巧(我倾向于过度依赖某些动作),在那里我收到了一些关于如何重新思考我的比赛方法的建议。当你的对手向你扔火球时,说起来容易做起来难,但无论如何这都是合理的建议。
我还尝试获取一些关于在哪里可以找到面对面聚会的提示,但这不太有效。我尝试查看官方网站了解详细信息,但发现除了 Capcom 官方锦标赛之外没有任何内容。然后她找到了附近的一个 Facebook 群组,但她无法在稍后的文本中给我访问该群组的链接。
周五下午——写作技巧
作为 Gemini 的最后一项作业,我决定谈论 MATA,不,我们不是在谈论 Llama 3。我请他帮助我为这篇特定文章撰写介绍。
在遇到 Gemini 在我之前的回答中忽略给我很多细节后,我对 Gemini 如此愿意建议具体公式感到惊讶。当我要求他提供更多信息或改变角度时,他以有意义的方式做出了回应。正如谷歌在其 Made by Google 演示中自豪地指出的那样,Gemini Live 能够处理中断并即时调整其答案。
这是我在 Gemini Live 上感受到的最好的感觉,大声重复一个想法感觉完全自然,即使你在手机上用发光的波浪说话。最后我从头开始写了这篇文章的引言。但如果你向上滚动将其与他给我的建议进行比较,也许你会看到他最终建议的回声。
Google Gemini Live:最终想法
从这篇文章中您可能会认为我不欣赏 Gemini Live,但这并不完全正确。我最糟糕的批评是针对它运行的 Gemini Advanced 模型,因为它似乎误解了它在许多测试场景中寻找的内容。有趣的是,最近的双子座与双子座高级对决表明,坚持基本的双子座计划可能会更好。
与此同时,Gemini Live 应用程序本身也令人印象深刻。能够与聊天机器人进行持续的对话,只要你愿意澄清并在对话偏离轨道时打断它,这似乎是比通过文本或图像更好的交互方式。你可以向常规数字助理询问后续问题,但它仍然不如 Gemini Live 所证明的那么顺利。这种简单性使其变得实用,帮助您回答问题并提供说明,不仅可以解放双手,而且可以解放眼睛,让您在与聊天机器人交谈时可以专注于其他事情。
但与即将推出的 ChatGPT Voice 相比如何的大问题仍然存在,特别是因为 Gemini Live 在提供响应之前依赖于将语音解释为文本,而 ChatGPT Voice 可以直接处理语音。但即使有常见的人工智能警告,谷歌在追求 PDA 梦想方面似乎走在正确的道路上。
汤姆指南的更多内容
“驕傲的網絡狂熱者。微妙迷人的推特怪胎。讀者。互聯網先驅。音樂愛好者。”
More Stories
《东京恶习》制片人详述日本走向全球制作中心之路
康拉德·科尔曼仅使用可再生能源再次改变了世界
新款 MacBook Pro 为苹果一周的重大新闻画上了句号