中国AI大模型强势崛起 DeepSeek成史丹福、MIT研究首选
中国国产大模型公司深度求索(DeepSeek)近日在短短一个月内接连推出V3和R1两款大模型,迅速引发全球瞩目。陆媒《澎湃新闻》报道,DeepSeek-R1在数学、代码、自然语言推理等多项任务的性能已达到OpenAI GPT-4o模型的水平,且以低成本、高性能和开放性赢得了广泛赞誉,甚至成为史丹福大学和麻州理工学院研究人员的首选模型。
超高性价比挑战OpenAI
DeepSeek-R1在1月20日正式发布后,迅速在国际大模型排名榜Chatbot Arena上攀升至全类别大模型第三位,与OpenAI的ChatGPT-4o并列。同时,在风格控制类模型(StyleCtrl)分类中,R1与OpenAI o1模型并列第一。更令人震惊的是,DeepSeek-R1的训练成本仅为557.6万美元,使用2048块针对中国市场的辉达H800 GPU集群运行55天完成,而这一数据仅是OpenAI GPT-4o训练成本的不到十分之一。
报道指出,DeepSeek还将R1的训练技术完全公开,并蒸馏出6个小模型向社区开源,允许开发者利用这些模型进行衍生训练。同时,DeepSeek-R1以“物美价廉”的特性受到海外开发者社区热捧,其API定价对每百万输入token收取0.55美元,输出token收取2.19美元,相较于OpenAI o1模型每百万token分别15美元和60美元的定价,便宜了超过96%。
海外学界与矽谷反响热烈
据矽谷知名投资机构A16z的合伙人Anjney Midha表示,DeepSeek-R1“几乎在一夜之间成为美国顶尖大学研究人员的首选模型”,包括史丹福与麻州理工学院在内的机构都已开始采用。此外,法国企业家阿诺德.贝特朗(Arnaud Bertrand)在社交媒体上指出,DeepSeek的成就表明中国在技术和创新方面已赶上甚至超越美国,尽管美国试图透过限制措施来阻止这一进展。
一名Meta员工则在匿名论坛Teamblind上发帖称,DeepSeek-R1的出现让Meta内部“火烧屁股”。该员工提到,DeepSeek-R1的训练成本不到550万美元,而Meta生成式AI部门的每位领导的薪资却超过这一数字。
专家点评:中国AI加速赶超
“AI教父”杰佛瑞.辛顿(Geoffrey Hinton)在1月21日的一次专访中表示,美国试图通过限制英伟达芯片等措施来减缓中国AI发展,但这可能适得其反,只会促使中国加速发展自己的技术。“他们可能会落后几年,但最终会赶上”,辛顿说。
DeepSeek-R1的成功不仅在国际学术界和产业界引起轰动,还再度引发了中美AI竞争的讨论。随著中国AI技术的崛起,全球科技格局可能迎来重大变革。