DeepSeek升级R1模型逼近OpenAI o3 解题能力提升至87.5%准确率

撰文: 许祺安
出版:更新:

中国AI新创企业深度求索(DeepSeek)5月29日发布升级公告,宣布旗下旗舰模型DeepSeek-R1已完成小版本更新,升级版本为DeepSeek-R1-0528。官方表示,此版本在数学、编程与通用逻辑等多项基准测评中表现优异,已达中国本土模型领先水准,整体能力更接近OpenAI o3与Gemini-2.5-Pro等国际顶尖模型。

根据公告,新版本基于去年12月推出的DeepSeek V3 Base模型,经过大规模算力强化后训练,有效提升了思维深度与推理能力。在AIME2025测评中,新版模型准确率从旧版的70%提升至87.5%。官方指出,这项进步源于新版模型在解题过程中展现出更深层的逻辑处理能力,例如平均每题使用token数由旧版的12K增至23K。

DeepSeek表示,R1-0528版本的“思维链”特性,对于学术界推理模型研究与产业界开发轻量级模型均具有指标意义。

DeepSeek的性能比肩ChatGPT,且其采用全新的训练模式,将推理模型的成本压缩到很低,还大胆地采用开源模式,令更多用户能够轻松尝试和部署AI模型。(视觉中国)

针对长期困扰语言模型应用的“幻觉”问题,DeepSeek亦进行优化。新版R1在改写润色、摘要生成与阅读理解等任务中的幻觉率较旧版下降约45%至50%,能提供更准确可靠的回答。

除逻辑与精准度提升外,DeepSeek-R1-0528在文本生成表现亦有强化。根据官方说法,新版模型在议论文、小说与散文等长文体输出方面表现更为出色,能撰写出篇幅更长、结构更完整、风格更贴近人类偏好的文本。

DeepSeek亦坦言,尽管R1-0528在多项测评中已达OpenAI o1-high水平,但与o3-High与Anthropic Claude 4 Sonnet等最新国际模型仍存在差距,后续仍将持续优化。