AI助手Astra拥超强理解力　Veo让文字指令生成影片　AI革命要来了

撰文：数位时代

出版：2024-05-26 10:00更新：2024-05-30 12:03

Google I/O开发者大会登场，AI增强“多模态”能力，搜寻引擎、AI助手Astra都能用影片来下指令，Gemini家族也加入新成员Flash。

Google年度开发者大会I/O于台湾时间5月15日凌晨登场，今年火力全开更新AI功能，会后统计这场活动中一共提到122次“AI”。

Gemini以“多模态”形式进入搜寻引擎、助手等功能中，今年开始Google将能够用“影片”进行搜寻，同时推出AI Overview功能，靠AI协助把搜寻内容摘要整理；智慧助手Astra能够边录影边辨认画面中的物体、动作等资讯，即时回应相关问题；大型语言模型则推出全新的Gemini 1.5 Flash和影像生成模型Veo。

Google Deepmind领导人德米斯．哈萨比斯（Demis Hassabis首次出席Google I/O。（Google）

AI革命一：搜寻引擎！除了能搜寻影片、还能理解更复杂指令！

首先是巩固Google龙头地位的搜寻引擎，这次迎来根本性的更新，加入Gemini的新能力后，不只能辨识影音内容，还可以理解更长更复杂的指令。

Google能用“影片搜寻”了！

Google搜寻过去很长一段时间都以文字、图片为主要搜寻方式，如今终于进阶，开放“影片搜寻”，可以即时拍摄影片，用语音或文字简单补充询问，搜寻引擎会自动分析画面中的内容并提供相应的回复。

现场展示功能，当播放黑胶唱片时遇到技术困难，金属唱针不规则晃动，可以用影片录下画面，并语音简单询问“为什么会这样？”Google就会自动搜寻，并且透过Google Overview的功能提供AI搜寻摘要。

AI Overview：理解更长更复杂的指令

AI Overview是Google去年发表的技术，会在搜寻引擎顶端摘要、整理搜寻到的内容，这一次透过Gemini模型新的“多步骤推理能力”，AI Overview能处理复杂的问题。不管问题有多大串、包含多少细节和该注意的地方，都不用再分次查询。

例如用户想找一间新的瑜珈或皮拉提斯教室，可以直接搜寻：“ 帮我找在波士顿最棒的瑜珈或皮拉提斯教室，并告诉我它们的新会员优惠资讯、还有从灯塔山走过去的时间。 ”内容包含多项需求，但AI Overview功能依旧可以完成任务。

AI革命二：Astra助手！即时分析影片内容，思考反应

今年首度登上I/O舞台的Google Deemind负责人杰米斯·哈萨比斯（Demis Hassabis）上台展示Google“未来的人工智慧助手”——名为“Astra”的助手，号称能像人类一样理解这个动态且复杂的世界。

Astra同样解锁“多模态”的能力，加入影片的即时分析技术，能够在看到动态画面时快速思考和反应，甚至可以拥有记忆力，这项功能一发表，让现场响起如雷掌声。

+11

在展示的功能中，使用者拿著手机边拍画面边到处走动，先走到窗边询问Astra“你觉得我现在人在哪个社区”，接著拍到电脑画面，用笔刷圈选萤幕中的程式码问Astra“你觉得哪里有问题要改善？”甚至在影片结束前，可以问Astra“记不记得我的眼镜放在哪里？”Astra也能分析这几分钟经过的所有画面，找到眼镜所在的影格并分析画面中的资讯，最后得出结论；“放在一颗苹果旁边。”

AI革命三：Google相簿搜寻！AI帮你找照片、记录生活

Google也在Google相簿推出Ask Photos with Gemini功能，可以透过影像分析将照片中的物体分类，并贴上关键字标签，例如用户可以快速找出带有自己车子车牌的照片，甚至可以记录“女儿学习游泳的过程”，并将这些相关的照片整理，当询问Gemini：“我女儿是何时学会仰式的？”可以快速找出相关图片并提供日期作为答复。

Google I/O公布Google相簿搜寻功能。（google）

AI革命四：Android！Gemini横跨对话、影音等所有体验

Android预计将成为Google AI功能体验最佳的载具，Gemini在手机里会随时准备好提供多元协助，根据大会中展示的应用，可以在聊天的对话中随时生成迷因图，或者询问体育影片中的规则，若收到80多页的PDF档案也可以透过Gemini Advanced App“现学现卖”，即时回答问题。

大量参数处理的能力，让Gemini可以在几秒钟内读通整本经济学，并提供摘要或回答问题。（数位时代提供）

AI革命五：Gemini更新！新模型Flash，更轻量、一次处理百万token

大型语言模型的技术，是这次所有新功能的重要基础。Gemini作为Google最核心的AI大型语言模型，这次更新直攻“多模态”和“大量处理”两大核心能力，进化到能一口气处理百万token的文字、图片、影音。

Gemini 1.5 Flash

这次Gemini家族全新成员Gemini 1.5 Flash，大小介于Gemini 1.5 Pro和Gemini 1.5 Nano之间，不过能用更轻量、更高的效率，和Gemini 1.5 Pro达到同等级的能力，例如一个对话指令的视窗可以处理百万Token，代表一次可以分析长达1500页的文件，或超过30,000行的程式码。这个轻量版的模型是通过“知识蒸馏（Distillation）”的方式来实现，更适合需要速度、低成本的开发者，

Google Gemini 1.5 Flash单次处理参数（Google）

Gemini 1.5 Pro 更新

今年2月才公开的Gemini 1.5 Pro也预告将升级，今年稍晚会把能一次处理的token量翻倍到200万个，代表能够同时处理2小时的影片、22小时的音档、超过60,000行的程式码或超过140万字的文字内容。

AI革命六：影像模型Veo！文字指令生成影片

至于影像生成，Google端出Veo跟OpenAI推出的Sora打对台，可以输入自然语言文字指令，生成超过一分钟的1080p高画质影片，并且能理解电影拍摄和视觉技术相关的术语，在创作过程中可以融入缩时拍摄等手法。

至于OpenAI推出的Sora，能够生成包含多名角色、特定动作类型以及大量细节的复杂场景，而且AI不仅了解用户在提示词所说的各种物体，还知道这些物体是如何存在于现实世界，进而营造出让人惊艳的逼真感受。

OpenAI赶在Google I/O前一天，发表GPT-4o

另外，在Google I/O登场前一天，OpenAI发表全新模型GPT-4o，在拥有GPT-4等级智慧的同时，具备更为强大的语音、视讯处理能力，并能给予用户逼近与真人互动的感受。

GPT-4o能够在聊天过程中即时口译，让说著不同语言的两人顺畅地进行交谈。或者请求GPT-4o讲一个睡前故事时，可以用更饱满、有语气的声音生动地说故事；又或者能用接近人类的口吻，教导人们解开简单的数学问题。

根据OpenAI说法，GPT-4o能够“读懂”用户的表情与语气，知道什么时候该如何做出回应，并能在不同的语气间快速切换，一下是冷冰冰的机械声，一下又能活泼地唱起歌来。

2天内2大AI大咖接连发表最新技术，这场AI革命将持续影响人们生活。

延伸阅读：手机中的AI功能只是噱头吗？大量数据采集　其实早已和你密不可分

+19

AI Pin曾传是iPhone刺客　没料个多月便要倒下　网民：不比手机强微软、Google、Meta加码AI　就只有它股价大跌？留意2个魔鬼细节 AI诈骗新手法　陌生来电打来千万别回答　声纹复制后果随时很严重史无前例！全球首届AI选美大赛正式展开　连评审团也与AI关系密切音乐创作革命　SunoAIV3重磅升级一夜爆红　音乐歌词人声样样俱全 AI公司将虚拟人推到新高度　用AI快速生成歌手唱歌拍MV一气呵成

AI助手Astra拥超强理解力 Veo让文字指令生成影片 AI革命要来了