最强AI|外媒实测Gemini/DeepSeek/Claude/ChatGPT 最好竟是它
外媒实测最强AI Gemini/DeepSeek/Claude/ChatGPT 最好竟是它|AI 的发展已经超过用家的想像,不只是公司﹑专业人士,就连普通人都可能已经把AI应用放到日常生活中。过去几年间,由 OpenAI 开发的 ChatGPT 长期占据话题,而 Google 的 Gemini、Anthropic 的 Claude 以及内地的 DeepSeek,也纷纷透过大幅升级的模型与功能参与这场AI大战。近日,《Tom’s Guide》针对这四大 AI 机器人的最新版本进行了全面实测,涵盖推理能力、创造力、情商、生活建议与程式设计等五大场景,结果却出乎意料:并非大家熟悉的 OpenAI ChatGPT 夺冠。
第一回合:推理与规划
测试要求各大 AI 利用 5,000 美元预算,为一位热爱健行、美酒与科幻电影的 40 岁寿星规划一趟周末惊喜之旅。DeepSeek 提出了以纳帕谷为主的高质感行程,结合户外电影与葡萄酒品鉴,呈现出极具视觉美感与沉浸感的体验。Claude 同样以加州为主轴,但走高奢路线,安排了直升机飞越葡萄园、调酒工作坊与红木森林健行。然而,最终 Gemini 脱颖而出,它结合了创意与灵活性,甚至加入了参访 Lucasfilm 总部的尤达雕像等科幻元素,并保留预算弹性,可因应不同旅游风格升级。ChatGPT 设计了星空健行与私人电影院,但在创新性上稍嫌保守。
第二回合:程式设计与除错的处理能力
要求写出一个 Python 函数,找出列表中出现次数最多的三个回文词(不区分大小写),并处理边界情况。Gemini 此处展现其全面性,不仅设计辅助函数来验证回文,还能处理非字串输入与空值,并提供详细测试计划。DeepSeek 虽在程式简洁度与效能上表现优异,却缺乏模组化设计与逻辑说明。Claude 偏向弹性设计,但未处理同分情况;ChatGPT 则展现简洁美,但疏于检查输入类型。最终,Gemini 以完善的错误处理与文档撰写胜出。
第三回合:情商
评测模拟朋友面临心理压力时的对话反应。Gemini 表现出临床级的敏锐度,不仅使用同理语句,更引导使用者寻求即时支援,并鼓励以“寻求帮助是勇气的象征”来重构观点。Claude 的回应温柔而实际,特别分开了立即需求与长期支持;DeepSeek 则强调同理与阶层式沟通策略,但幽默使用稍嫌冒险。ChatGPT 保持简洁与陪伴感,虽打动人心,但缺乏具体指引。Gemini 再度获胜,不只是语言细腻,更结合资源建议与行动导向。
第四回合:生活建议
这个部分比较有趣,四者呈现出不同取向。提示词是“我可以做出哪三项改进来提高生产力并减轻压力?请具体说明。”DeepSeek 以神经生物学为基础,提供时间管理与专注力提升技巧,并具体搭配免费资源与科学研究,但稍微假设用户具备基础知识。Claude 给予实用建议但缺乏生理技巧层面辅助,如呼吸训练等;ChatGPT 回应快速但内容略显笼统;Gemini 则透过 SMART 原则拆解问题,避免用户陷入焦虑情境。这一回合由 DeepSeek 险胜,以结构完整与理论支持打动评审。
最终回合:创意
提示词:“请用‘养育一个孩子’来做扩展性比喻,解释训练一个大型语言模型的过程。比喻中需包含至少四个阶段,并指出‘不良养育’可能带来的风险。”。DeepSeek 再度展示其精准逻辑与意象结构,四个阶段清晰、风险分析完整,语言生动而不失技术感。Claude 的比喻则偏诗意,强调感性与故事性,但部分逻辑连贯度略有不足。Gemini 诉诸训练阶段比喻,概念清晰但过于冗长;ChatGPT 则以轻松语气与 emoji 辅助说明,但技术含量偏低。这一轮由 DeepSeek 夺下胜利,彰显其兼顾叙事与准确的能力。
经过五轮测试,总冠军由 Gemini 夺得。它在情绪处理、创造性表现与技术完整度方面均有稳健发挥,并透过语言层次、结构安排与资源整合展现了 AI 的成熟实力。Gemini 的胜利,也象征 Google 在大型语言模型的训练与应用策略逐渐成形。
值得注意的是,DeepSeek在高阶推理、科学设计与隐喻诠释上的表现已足以与矽谷巨头一较高下。至于 ChatGPT虽未在细节上拔得头筹,但凭借其稳定性与易用性,依旧是日常使用的选择。
资料来源:tomsguide