最强AI｜外媒实测Gemini／DeepSeek／Claude／ChatGPT 最好竟是它

撰文：陈锦洪

出版：2025-06-15 07:00更新：2025-06-15 07:00

外媒实测最强AI Gemini／DeepSeek／Claude／ChatGPT 最好竟是它｜AI 的发展已经超过用家的想像，不只是公司﹑专业人士，就连普通人都可能已经把AI应用放到日常生活中。过去几年间，由 OpenAI 开发的 ChatGPT 长期占据话题，而 Google 的 Gemini、Anthropic 的 Claude 以及内地的 DeepSeek，也纷纷透过大幅升级的模型与功能参与这场AI大战。近日，《Tom’s Guide》针对这四大 AI 机器人的最新版本进行了全面实测，涵盖推理能力、创造力、情商、生活建议与程式设计等五大场景，结果却出乎意料：并非大家熟悉的 OpenAI ChatGPT 夺冠。

第一回合：推理与规划

测试要求各大 AI 利用 5,000 美元预算，为一位热爱健行、美酒与科幻电影的 40 岁寿星规划一趟周末惊喜之旅。DeepSeek 提出了以纳帕谷为主的高质感行程，结合户外电影与葡萄酒品鉴，呈现出极具视觉美感与沉浸感的体验。Claude 同样以加州为主轴，但走高奢路线，安排了直升机飞越葡萄园、调酒工作坊与红木森林健行。然而，最终 Gemini 脱颖而出，它结合了创意与灵活性，甚至加入了参访 Lucasfilm 总部的尤达雕像等科幻元素，并保留预算弹性，可因应不同旅游风格升级。ChatGPT 设计了星空健行与私人电影院，但在创新性上稍嫌保守。

第二回合：程式设计与除错的处理能力

要求写出一个 Python 函数，找出列表中出现次数最多的三个回文词（不区分大小写），并处理边界情况。Gemini 此处展现其全面性，不仅设计辅助函数来验证回文，还能处理非字串输入与空值，并提供详细测试计划。DeepSeek 虽在程式简洁度与效能上表现优异，却缺乏模组化设计与逻辑说明。Claude 偏向弹性设计，但未处理同分情况；ChatGPT 则展现简洁美，但疏于检查输入类型。最终，Gemini 以完善的错误处理与文档撰写胜出。

第三回合：情商

评测模拟朋友面临心理压力时的对话反应。Gemini 表现出临床级的敏锐度，不仅使用同理语句，更引导使用者寻求即时支援，并鼓励以“寻求帮助是勇气的象征”来重构观点。Claude 的回应温柔而实际，特别分开了立即需求与长期支持；DeepSeek 则强调同理与阶层式沟通策略，但幽默使用稍嫌冒险。ChatGPT 保持简洁与陪伴感，虽打动人心，但缺乏具体指引。Gemini 再度获胜，不只是语言细腻，更结合资源建议与行动导向。

第四回合：生活建议

这个部分比较有趣，四者呈现出不同取向。提示词是“我可以做出哪三项改进来提高生产力并减轻压力？请具体说明。”DeepSeek 以神经生物学为基础，提供时间管理与专注力提升技巧，并具体搭配免费资源与科学研究，但稍微假设用户具备基础知识。Claude 给予实用建议但缺乏生理技巧层面辅助，如呼吸训练等；ChatGPT 回应快速但内容略显笼统；Gemini 则透过 SMART 原则拆解问题，避免用户陷入焦虑情境。这一回合由 DeepSeek 险胜，以结构完整与理论支持打动评审。

最终回合：创意

提示词：“请用‘养育一个孩子’来做扩展性比喻，解释训练一个大型语言模型的过程。比喻中需包含至少四个阶段，并指出‘不良养育’可能带来的风险。”。DeepSeek 再度展示其精准逻辑与意象结构，四个阶段清晰、风险分析完整，语言生动而不失技术感。Claude 的比喻则偏诗意，强调感性与故事性，但部分逻辑连贯度略有不足。Gemini 诉诸训练阶段比喻，概念清晰但过于冗长；ChatGPT 则以轻松语气与 emoji 辅助说明，但技术含量偏低。这一轮由 DeepSeek 夺下胜利，彰显其兼顾叙事与准确的能力。

经过五轮测试，总冠军由 Gemini 夺得。它在情绪处理、创造性表现与技术完整度方面均有稳健发挥，并透过语言层次、结构安排与资源整合展现了 AI 的成熟实力。Gemini 的胜利，也象征 Google 在大型语言模型的训练与应用策略逐渐成形。

值得注意的是，DeepSeek在高阶推理、科学设计与隐喻诠释上的表现已足以与矽谷巨头一较高下。至于 ChatGPT虽未在细节上拔得头筹，但凭借其稳定性与易用性，依旧是日常使用的选择。

资料来源：tomsguide

铜锣湾拖板短路起火　传出爆炸声｜拖板安全使用贴士　小心潮湿天全球手机厂商第一季报　iPhone减产40%　1国产品牌反超苹果在即？