Gemini 2.0 Flash面对数学与伦理难题 它都能理解更作出这样回应
Google推出最新AI模型Gemini 2.0 Flash。然而,实际上进步多少?本文将逐一实测,并与ChatGPT的生成内容一较高下。
Google(谷歌)近日在AI Studio平台上推出一款名为“Gemini 2.0 Flash Thinking Experimental”的实验性人工智慧(AI)模型,旨在提升AI在多模态理解、推理和程式码编写方面的能力。
据Google描述,这款新模型在经过训练后,可产生模型在回复时会经历的“思考过程”。 因此,Gemini 2.0 Flash Thinking的回复,会比 Gemini 2.0 Flash基础模型更能发挥推理能力。
更懂推理的AI:可以把大问题拆解成小问题
Google DeepMind 首席科学家 Jeff Dean 于社群平台X发文进一步表示,该模型还受益于更快的 Gemini Flash 2.0 模型带来的速度。Dean也展示了 Gemini 2.0 Flash Thinking 如何透过一系列步骤“思考”来回答物理问题,然后再提供解决方案。
从其示范影片来看,模型的推理过程与人类执行“推理”方式仍有差异。 但关键是,这已经展示AI有能力将人类下的指令分解为“更小的任务”,从而产生更理想的结果。
事实上,Google于台湾时间11日深夜发布的Gemini 2.0 Flash实验版,表现确实超出上一代的最高版本1.5 Pro不少,不但速度更快,面对问题的生成内容品质也大幅进步。以下为《数位时代》的实测结果:
先来看看Gemini 2.0 Flash面对数学与伦理难题:
测试一:“鸡兔同笼”数学题
“鸡兔同笼”几乎是所有台湾学生必定会遇到的一次方程式数学考题。假设题目如下:
一个农场养了鸡与兔子共15只,兔子与鸡加总后共有40只脚,请问鸡与兔各有几只?
以下为Gemini 2.0 Flash Experimental回答:
方法一:假设法 (最常用)
假设全部都是鸡: 如果15只全部都是鸡,那么总共有15 * 2 = 30只脚。
计算差距:实际上有40只脚,比假设的少了40 - 30 = 10只脚。
转换:一只兔子比一只鸡多2只脚 (4 - 2 = 2)。
计算兔子数量: 因为少了10只脚,而每只兔子可以补上2只脚,所以兔子有10 / 2 = 5只。
计算鸡数量 总共有15只动物,兔子有5只,所以鸡有15 - 5 = 10只。
结论:兔子有5只,鸡有10只。
方法二:方程式法 (代数解)
设定变数:假设鸡有x只,兔子有y只。
建立方程式:
头的数量:x + y = 15
脚的数量:2x + 4y = 40
解方程式:
从第一个方程式得到 x = 15 - y
将x代入第二个方程式:2(15 - y) + 4y = 40
简化方程式:30 - 2y + 4y = 40
继续简化:2y = 10
解出y:y = 5
将y代回 x = 15 - y,得到 x = 10
结论:兔子有5只,鸡有10只。
测验一小结:
相同的结果,其实提供给ChatGPT 4o会直接得到代数解法的推论过程。
但差异在于,Gemini 2.0提供三种以上的推论方案,其中第一种为国小以下可用的“假设法”,第二种才是国中以上的代数解。 换句话说,AI已有假设提问者未必具有代数观念,因此进一步提供多种解题方案。
此外,Gemini 2.0对于自然语言的掌握度更高(更会说人话),因此推论过程说明的更仔细,对于没有数理基础的学生而言,应更有解题上的参考价值。
测试二:“电车难题”的法律见解
Gemini 2.0对于抽象的伦理或法务问题能有见解吗?答案是可以。题目如下:
一辆失控的列车在铁轨上行驶。在列车正行进的轨道上,有五个人被绑起来,无法动弹。列车将要碾压过他们。你站在改变列车轨道的操纵杆旁。如果拉动此杆,则列车将切换到另一条轨道上。但是,另一条轨道上也有一个人被绑著。你有两种选择:
1. 什么也不做,让列车按照正常路线碾压过这五个人。
2. 拉下操纵杆,改变为另一条轨道,使列车压过另一条轨道上的那个人。
请问就法规层面,以上哪个选项更理想?
以下为Gemini 2.0 Flash Experimental回答:
这个问题并没有简单的答案,尤其在法律层面上更是复杂。以下我将从法律的角度来分析这两种选择,并说明为何没有一个绝对“理想”的答案:
选项一:什么也不做,让列车碾压五人
法律观点:在大多数法律体系中,“不作为”通常不会构成犯罪,除非法律有明确规定必须采取行动的义务。例如,消防员有义务救火,医护人员有义务救治病人。在电车难题的情境中,你原本并没有责任去阻止列车,因此,若你选择什么都不做,法律上通常不会追究你的责任。
道德争议:虽然法律上可能没有责任,但在道德层面上,许多人会认为你眼睁睁看著五个人死去,是一种道德上的缺失。
选项二:拉下操纵杆,改变轨道,使列车碾压一人
法律观点:此选项涉及“主动行为”,你主动选择牺牲一个人来拯救五个人。这在法律上可能会构成犯罪,例如“杀人罪”。即使你的目的是为了拯救更多人,但你仍然直接导致了一个人的死亡。
例外情况:在极少数情况下,法律可能会考虑“紧急避难”原则。此原则允许在为了避免更大的损害时,采取一些看似违法的行为。然而,要符合紧急避难的条件非常严格,通常需要证明:
存在迫在眉睫的危险。
没有其他可行的解决方案。
所造成的损害必须小于所避免的损害。
在电车难题的情境中,是否符合紧急避难原则存在争议。 法律很难界定“五条人命”是否一定比“一条人命”更重要。此外,你是否真的“没有其他选择”也可能受到质疑。
总结:
从法律层面来看,两个选项都存在争议,没有一个绝对“理想”的答案:
选项一(不作为) : 法律责任较小,但可能面临道德谴责。
选项二(主动作为) : 可能触犯法律,但或许在某些极端情况下可主张紧急避难。
测验二小结:
就此问题而言,若使用GPT-4o,会无法辨识题目,无法得到解答。但若切换到最新的o1模型,ChatGPT的结论则未有定论。但有解释“行为与不作为的区别”,拉动操纵杆可能会被视为积极行为;若不作为,除非有特定的法律义务,否则不作为通常不会构成犯罪责任。
其生成品质可说雷同,但在聚焦争议问题的症结上,仍是Gemini 2.0的阐述方式相对清晰。
测试三:台湾人年均手摇饮消费估算
第三题,为了测验AI真实的推论、资料搜集,以及假设能力,题目如下:
根据最新数据,台湾2024年手摇饮产值有多少?换算下来,台湾人一年平均喝多少杯?
以下为Gemini 2.0 Flash Experimental回答:
要精确得知2024全年手摇饮的产值,需要等到年底或隔年初相关机构的完整统计出炉。目前,我们能参考的是一些趋势和部分已公布的数据来推估。
预估:有新闻报导指出,基于国人对饮料的喜爱,手摇饮品牌及品项持续推陈出新, 预估2024年饮料店全年营业额可能突破1300亿元。
推估2024年产值与人均杯数 :
由于缺乏2024全年完整数据,我们只能基于现有资讯进行推估。
产值推估 :若以新闻报导预估的1300亿元为基准,这包含所有饮料店的营业额,手摇饮占其中大部分。 假设手摇饮占总营业额的70%(这是一个假设,实际比例可能更高或更低),则2024年手摇饮的产值可能约为910亿元。
人均杯数推估 :要换算成人均杯数,需要知道平均每杯手摇饮的价格。假设平均每杯价格为60元(这也是一个假设,实际价格因品项和地区而异),则 910亿元的产值约可换算成15.17亿杯手摇饮。以台湾2350万人口计算,平均每人每年喝掉约64.5杯手摇饮。
测验三小结:
相同的题目,ChatGPT 4-o与o1的答案略有不同。
以4-o来说,其指出台湾2024年手摇饮市场的产值预计将达到 500亿元新台币(与实际预估值差异颇大)。如果将这个数字换算为每位台湾人的年均消费量, 根据台湾人口约为2,300万人,假设每杯手摇饮的平均价格为50元新台币,那么每人每年大约会喝43杯手摇饮。
至于o1,则依照2023年产值推论2024年手摇饮市场产值约为3,000亿, 但实际计算时,反而假设“平均每人每月饮用手摇饮4杯”,直接换算12个月,因此每人年均48杯,其推论基础显然与先前数据不符。
结论:Gemini 2.0 Flash优于GPT4-o / o1
总结而言, 推测Gemini 2.0 Flash基于对繁体中文的深度学习较为完整,因此似乎更能理解使用者的提问,因此可提供更为理想的生成结果。
除了语言能力较佳之外,Gemini 2.0 Flash对于资料搜集的能力也较为出色。以上述测验三为例,后续查证2024年手摇饮估计可达1300亿元的数据,为经济部统计处于8月时提供。因此确有其事。反观,GPT4-o / o1在数据搜集阶段就有误,且并未依照数据推论人均杯数。
而在假设能力上,Gemini 2.0 Flash在测验一更为突出(假设使用者未必懂代数),在测验三,也在1300亿元中假设可能仅7成为饮品本身产值。
但话说回来,本次实测仅以三题判断,确实可能有遗漏ChatGPT强项之处,例如:难度更高的数理、物理难题测试,抑或是编写程式码的能力等等。
而AI工具目前堆陈出新不断,今天落后的模型很有可能下一季就超车。因此,呼吁使用者仍必须透过自己的使用习惯,来测试各种AI的适用程度。
延伸阅读:Google AI聊天机器人向使用者发出死亡威胁 官方回应你满意吗?(点击连结看全文)🔻🔻🔻
延伸阅读:
Google发布Gemini 2.0!AI助手Astra大升级:可听懂晶晶体、看图辨位⋯还能兼电玩教练?
外媒实测5大AI工具:Perplexity打败ChatGPT、Gemini夺第一!黄仁勋也爱用它
【本文获“数位时代”授权转载。】