Google发布Gemini 2.0 AI助手Astra升级 记忆力变强对话更自然

撰文: 数位时代
出版:更新:

2024年终行情出炉!金融业近3个月连霸12年、上班族平均1.3个月⋯科技业只排第3?

Google的招牌AI模型Gemini,经历了近一年的1.5版本发展,终于在12月11日深夜宣布推出最新的Gemini 2.0 Flash实验版,为新一代Gemini 2.0系列打头阵。

Google执行长桑德尔.皮蔡(Sundar Pichai)在部落格文章中称它为“我们所有尖端技术的缩影”。

Gemini 2.0 Flash虽然是轻量版,表现却超出上一代的最高版本1.5 Pro,产出速度还更快,性能大幅升级,Google也同步分享了智慧助手Project Astra和新的网页助手Project Mariner的应用,在多模态能力、反应速度、对外搜集资料能力上,都展现新一代Gemini的力量。

Google推出全新模型Gemini 2.0 Flash,同时展示助手能力升级版的应用。 (unsplash)

Gemini 2.0 Flash有多强?

Gemini 2.0 Flash是由非常受开发者欢迎的1.5 Flash模型的升级版产品,延续了Flash反应速度极快的特性,根据Google的测试,2.0 Flash身为“轻量版”,关键标准测试的表现,除了长文字处理外,其他所有相簿都赢过上一代的“专业版”1.5 Pro。例如,2.0 Flash写程式的能力得到92.9的高分,1.5 Pro在这个项目中只得到85.4分,速度还快了一倍。

Google Gemini 2.0 Flash和1.5版本相比,在多方面能力都拿到更高的分数。 (Google)

开放时间:

Google已于上月先向部分开发者分享了Gemini 2.0的早期实验版本,即日起开发者可透过Google AI Studio和Vertex AI平台正式选用Gemini 2.0 Flash的实验模型, 明年一月将全面开放使用,并推出更多不同大小的模型版本。

Google发布Gemini 2.0,AI助手Astra大升级:

+9

智慧助手升级:Project Astra

随著新版本模型的登场,AI助手也跟著升级。Google在今年5月登场的I/O大会中首次公开Google未来的人工智慧助手—— Project Astra,具备“多模态”能力,能解读文字、语音、动态画面,因此能够在看到动态画面时快速思考和反应,甚至拥有记忆力。

而加入Gemini 2.0后,Project Astra有了四大能力升级。

升级一:多语言对话能力

Astra语言能力升级,现在可支援多语言及混合语言对话,并更能理解口音及少见词汇。例如,在说话时使用中应大量混杂的“晶晶体”,或者和法国人好友同时对Astra下指令,都能快速理解并完成任务。

升级二:使用更多工具辅助

Astra现在可以上网使用Google搜寻、Lens与地图,解锁更多应用场景,例如拍摄路上的装置艺术,Astra可以知道位置之外,还可以透过互联网上的说明资讯,告诉你装置艺术的涵义。

升级三:记忆力变强了

Astra在初登场时最让人印象深刻的是记忆力,当时Demo的人员询问Astra“记不记得我的眼镜放在哪里?”Astra马上分析这几分钟内经过的所有画面,找到眼镜所在的影格并分析画面中的资讯,最后得出结论;“放在一颗苹果旁边。”

这次Google把Astra的记忆力保留时间拉长到10分钟,并能想起更多过去的对话内容作为补充资讯,以更个性化地服务使用者,比如可以请Astra帮忙记住一组密码,离开去泡杯咖啡聊聊天,回来后再请Astra帮忙说出密码内容。

升级四:降低延迟自然对话

根据Google的说明,新版本Astra的语言理解速度已经接近真人对话,因此当你Astra问问题时,不会让人感觉“卡卡”,互动更自然。

网页搜寻帮手:Project Mariner

而这一次Google也揭露全新计划内容,称为Project Mariner,可以视为Google打造未来全新网页使用体验的决心, Project Mariner就像一个助手,或者扩充功能,帮你浏览各种网页搜集到需要的资讯,它可以理解并分析浏览器画面中的资讯,包括像素、文字、程式码、图片及表单等元素。

比如Google展示了一项应用,打开一个Google试算表文件,表格里面有好几家公司的名字, 可以在一旁的Project Mariner视窗中打下“帮我找到这些公司的招牌产品和他们的联络方式”,Mariner就会开始自己开始搜寻、寻找资讯,而且这些过程都展示给你看,让你看见Mariner在滑动这些公司的官网、理解图片的过程,接著在几秒钟后整理好资讯、告诉你答案。

因为可以看到搜集答案的过程,而不是直接提供结果,把人的监管加入流程中,虽然速度比起直接生成答案更慢,却也提高了一部分的可信度。

在WebVoyager基准测试中,可以评估AI在真实世界网页里工作的表现,Project Mariner达到了83.5分的成绩,根据Google的说法,这是业界领先的成果,“虽然Project Mariner目前的执行速度稍慢且偶尔不够准确,但随著技术进步,这些问题将迅速改善。”Google Labs产品管理总经理洁克琳.康杰曼(Jaclyn Konzelmann)指出。

游戏领域“外挂”:Gemini for Games

Gemini 2.0的另一项新应用是在游戏方面,像是一个师傅,帮助玩家在游戏的虚拟世界中快速针对规则、角色等内容产生理解,甚至可以边玩边询问“我忘记现在是要完成甚么任务才能通关,你可以告诉我吗?”

而Gemini就会告诉玩家“你必须搜集到200颗宝石,建议你选择XX角色更快达成任务。”代表可以根据萤幕上的行动进行游戏推理,并透过即时对话提供下一步建议。

未来玩游戏时,也许可以让Gemini助手提供策略上的建议。 (unsplash@sean-do)

总结:Google持续尝试在谨慎中创新

随著微软、OpenAI等公司提出AI代理(AI Agent)新概念和应用,能够在用户授权下主动执行任务的代理式AI,成为明年最重要的竞争方向,代表AI从一个口令一个动作,进入下一个阶段。

Google这次在Astra和Mariner都展现类似的野心,不过很明显在产品设计上更加小心翼翼,甚至依旧保留了人类监管或控制的选项,似乎还没打算让AI脱离掌控主动工作。

对此,Google DeepMind 产品管理总经理图席.道许(Tulsee Doshi)在受访时坦言,Google确实有感受到业界对于放松AI行动限制的发展方向,不过这代表著更多的问题可能会随之发生,因此Google还是抱持的谨慎地态度面对,先从部分授权开始,同时找来一群信任的测试人员,进行试用并提供回馈,确保AI提供的服务不会出问题。

Google似乎将延续“负责任AI”的口号,在冲刺的AI领域中自踩刹车,先求稳再求好的模式,会在明年的AI代理战中脱颖而出还是落后,值得观察。

延伸阅读:Google AI聊天机器人向使用者发出死亡威胁 官方回应你满意吗?(点击连结看全文)

+15

延伸阅读:

Google发布量子芯片Willow!5分钟搞定“10的25次方年”计算:将解锁AI、核融合难题

2024年终行情出炉!金融业近3个月连霸12年、上班族平均1.3个月⋯科技业只排第3?

【本文获“数位时代”授权转载。】