DeepSeek升级R1模型逼近OpenAI o3　解题能力提升至87.5%准确率

撰文：许祺安

出版：2025-05-30 12:00更新：2025-05-30 12:00

中国AI新创企业深度求索（DeepSeek）5月29日发布升级公告，宣布旗下旗舰模型DeepSeek-R1已完成小版本更新，升级版本为DeepSeek-R1-0528。官方表示，此版本在数学、编程与通用逻辑等多项基准测评中表现优异，已达中国本土模型领先水准，整体能力更接近OpenAI o3与Gemini-2.5-Pro等国际顶尖模型。

根据公告，新版本基于去年12月推出的DeepSeek V3 Base模型，经过大规模算力强化后训练，有效提升了思维深度与推理能力。在AIME2025测评中，新版模型准确率从旧版的70%提升至87.5%。官方指出，这项进步源于新版模型在解题过程中展现出更深层的逻辑处理能力，例如平均每题使用token数由旧版的12K增至23K。

DeepSeek表示，R1-0528版本的“思维链”特性，对于学术界推理模型研究与产业界开发轻量级模型均具有指标意义。

DeepSeek的性能比肩ChatGPT，且其采用全新的训练模式，将推理模型的成本压缩到很低，还大胆地采用开源模式，令更多用户能够轻松尝试和部署AI模型。（视觉中国）

针对长期困扰语言模型应用的“幻觉”问题，DeepSeek亦进行优化。新版R1在改写润色、摘要生成与阅读理解等任务中的幻觉率较旧版下降约45%至50%，能提供更准确可靠的回答。

除逻辑与精准度提升外，DeepSeek-R1-0528在文本生成表现亦有强化。根据官方说法，新版模型在议论文、小说与散文等长文体输出方面表现更为出色，能撰写出篇幅更长、结构更完整、风格更贴近人类偏好的文本。

DeepSeek亦坦言，尽管R1-0528在多项测评中已达OpenAI o1-high水平，但与o3-High与Anthropic Claude 4 Sonnet等最新国际模型仍存在差距，后续仍将持续优化。

DeepSeek也能造飞机？内地航空首席专家：已引进AI研发新型战机 DeepSeek横空出世引爆AI人才需求　“六小龙”成员全球高薪招贤缅甸地震｜DeepSeek首次用于国际救援　7小时开发中缅英互译系统

DeepSeek

AI人工智能

DeepSeek升级R1模型逼近OpenAI o3 解题能力提升至87.5%准确率

DeepSeek升级R1模型逼近OpenAI o3　解题能力提升至87.5%准确率