AI助手Astra拥超强理解力 Veo让文字指令生成影片 AI革命要来了
Google I/O开发者大会登场,AI增强“多模态”能力,搜寻引擎、AI助手Astra都能用影片来下指令,Gemini家族也加入新成员Flash。
Google年度开发者大会I/O于台湾时间5月15日凌晨登场,今年火力全开更新AI功能,会后统计这场活动中一共提到122次“AI”。
Gemini以“多模态”形式进入搜寻引擎、助手等功能中,今年开始Google将能够用“影片”进行搜寻,同时推出AI Overview功能,靠AI协助把搜寻内容摘要整理;智慧助手Astra能够边录影边辨认画面中的物体、动作等资讯,即时回应相关问题;大型语言模型则推出全新的Gemini 1.5 Flash和影像生成模型Veo。
AI革命一:搜寻引擎!除了能搜寻影片、还能理解更复杂指令!
首先是巩固Google龙头地位的搜寻引擎,这次迎来根本性的更新,加入Gemini的新能力后,不只能辨识影音内容,还可以理解更长更复杂的指令。
Google能用“影片搜寻”了!
Google搜寻过去很长一段时间都以文字、图片为主要搜寻方式,如今终于进阶,开放“影片搜寻”,可以即时拍摄影片,用语音或文字简单补充询问,搜寻引擎会自动分析画面中的内容并提供相应的回复。
现场展示功能,当播放黑胶唱片时遇到技术困难,金属唱针不规则晃动,可以用影片录下画面,并语音简单询问“为什么会这样?”Google就会自动搜寻,并且透过Google Overview的功能提供AI搜寻摘要。
AI Overview:理解更长更复杂的指令
AI Overview是Google去年发表的技术,会在搜寻引擎顶端摘要、整理搜寻到的内容,这一次透过Gemini模型新的“多步骤推理能力”,AI Overview能处理复杂的问题。不管问题有多大串、包含多少细节和该注意的地方,都不用再分次查询。
例如用户想找一间新的瑜珈或皮拉提斯教室,可以直接搜寻:“ 帮我找在波士顿最棒的瑜珈或皮拉提斯教室,并告诉我它们的新会员优惠资讯、还有从灯塔山走过去的时间。 ”内容包含多项需求,但AI Overview功能依旧可以完成任务。
AI革命二:Astra助手!即时分析影片内容,思考反应
今年首度登上I/O舞台的Google Deemind负责人杰米斯·哈萨比斯(Demis Hassabis)上台展示Google“未来的人工智慧助手”——名为“Astra”的助手,号称能像人类一样理解这个动态且复杂的世界。
Astra同样解锁“多模态”的能力,加入影片的即时分析技术,能够在看到动态画面时快速思考和反应,甚至可以拥有记忆力,这项功能一发表,让现场响起如雷掌声。
在展示的功能中,使用者拿著手机边拍画面边到处走动,先走到窗边询问Astra“你觉得我现在人在哪个社区”,接著拍到电脑画面,用笔刷圈选萤幕中的程式码问Astra“你觉得哪里有问题要改善?”甚至在影片结束前,可以问Astra“记不记得我的眼镜放在哪里?”Astra也能分析这几分钟经过的所有画面,找到眼镜所在的影格并分析画面中的资讯,最后得出结论;“放在一颗苹果旁边。”
AI革命三:Google相簿搜寻!AI帮你找照片、记录生活
Google也在Google相簿推出Ask Photos with Gemini功能,可以透过影像分析将照片中的物体分类,并贴上关键字标签,例如用户可以快速找出带有自己车子车牌的照片,甚至可以记录“女儿学习游泳的过程”,并将这些相关的照片整理,当询问Gemini:“我女儿是何时学会仰式的?”可以快速找出相关图片并提供日期作为答复。
AI革命四:Android!Gemini横跨对话、影音等所有体验
Android预计将成为Google AI功能体验最佳的载具,Gemini在手机里会随时准备好提供多元协助,根据大会中展示的应用,可以在聊天的对话中随时生成迷因图,或者询问体育影片中的规则,若收到80多页的PDF档案也可以透过Gemini Advanced App“现学现卖”,即时回答问题。
AI革命五:Gemini更新!新模型Flash,更轻量、一次处理百万token
大型语言模型的技术,是这次所有新功能的重要基础。Gemini作为Google最核心的AI大型语言模型,这次更新直攻“多模态”和“大量处理”两大核心能力,进化到能一口气处理百万token的文字、图片、影音。
Gemini 1.5 Flash
这次Gemini家族全新成员Gemini 1.5 Flash,大小介于Gemini 1.5 Pro和Gemini 1.5 Nano之间,不过能用更轻量、更高的效率,和Gemini 1.5 Pro达到同等级的能力,例如一个对话指令的视窗可以处理百万Token,代表一次可以分析长达1500页的文件,或超过30,000行的程式码。这个轻量版的模型是通过“知识蒸馏(Distillation)”的方式来实现,更适合需要速度、低成本的开发者,
Gemini 1.5 Pro 更新
今年2月才公开的Gemini 1.5 Pro也预告将升级,今年稍晚会把能一次处理的token量翻倍到200万个,代表能够同时处理2小时的影片、22小时的音档、超过60,000行的程式码或超过140万字的文字内容。
AI革命六:影像模型Veo!文字指令生成影片
至于影像生成,Google端出Veo跟OpenAI推出的Sora打对台,可以输入自然语言文字指令,生成超过一分钟的1080p高画质影片,并且能理解电影拍摄和视觉技术相关的术语,在创作过程中可以融入缩时拍摄等手法。
至于OpenAI推出的Sora,能够生成包含多名角色、特定动作类型以及大量细节的复杂场景,而且AI不仅了解用户在提示词所说的各种物体,还知道这些物体是如何存在于现实世界,进而营造出让人惊艳的逼真感受。
OpenAI赶在Google I/O前一天,发表GPT-4o
另外,在Google I/O登场前一天,OpenAI发表全新模型GPT-4o,在拥有GPT-4等级智慧的同时,具备更为强大的语音、视讯处理能力,并能给予用户逼近与真人互动的感受。
GPT-4o能够在聊天过程中即时口译,让说著不同语言的两人顺畅地进行交谈。或者请求GPT-4o讲一个睡前故事时,可以用更饱满、有语气的声音生动地说故事;又或者能用接近人类的口吻,教导人们解开简单的数学问题。
根据OpenAI说法,GPT-4o能够“读懂”用户的表情与语气,知道什么时候该如何做出回应,并能在不同的语气间快速切换,一下是冷冰冰的机械声,一下又能活泼地唱起歌来。
2天内2大AI大咖接连发表最新技术,这场AI革命将持续影响人们生活。
延伸阅读:手机中的AI功能只是噱头吗?大量数据采集 其实早已和你密不可分
延伸阅读:
OpenAI新模型GPT-4o问世!对话能力强到会“插嘴”,还能读懂人类语气
贝佐斯成股东!亚马逊参与私募,掏5.3亿元认购世芯-KY 22万股
【本文获“数位时代”授权转载。】