DeepSeek如何击倒特朗普的“星际之门”和拜登的芯片管制?
1月27日,中国人工智能(AI)企业深度求索(DeepSeek)低训练成本、高表现水平的“R1”模型终于震惊到华尔街。
其低训练成本让市场质疑AI产业对于GPU运算能力近乎无止境的追求是不是真的无止境。几乎独占AI芯片市场的英伟达(Nvidia,又译辉达)股价27日急挫近17%。
DeepSeek模型在各种基准测试紧贴甚至超越OpenAI最新模型的表现,也让人质疑训练成本高昂的美国AI企业能否面对中国竞争--OpenAI主要支持者微软(Microsoft)的股价同日也下跌了超过2%。
训练方式的创新
DeepSeek震惊世界的表现,其实早在去年12月就出现。12月26日,DeepSeek发布其V3大型语言模型(LLM),有6710亿个参数,比Meta(Facebook母公司)2024年7月发布的另外一个开源大型语言模型Llama 3.1多2660亿个。在llm-stats.com的MMLU(按:评估LLM的一个基准)排行榜上,DeepSeek V3表现也比Llama 3.1为佳。然而,V3的训练成本却远比Llama 3.1为低。
根据DeepSeek的计算,V3的训练只花费不足560万美元,用了2048个Nvidia为符合拜登(Joe Biden)对华芯片出口限制而设计的H800 GPU,花了278万个GPU时数,处理了14.8万亿个token(单位)。
相较之下,Llama 3.1用了可高达1.6万个H100 GPU(按:H800未弱化前的原版),花了3080万个GPU时数,处理了15.6万亿个token--即使我们大方假设DeepSeek和Meta的GPU时数成本完全一样(按:Meta成本该比DeepSeek高),V3的训练成本也比Llama 3.1低超过10倍以上。
效能相约、训练成本差距至少十几倍,DeepSeek V3的收费也倍数级低于Llama 3.1,未来在2月还会大幅降价。
在特朗普(Donald Trump)宣誓就职的那一天(1月20日),DeepSeek进一步公布了其R1推理模型,追随OpenAI o1模型的步伐。
与以往的大型语言模型不同,对于一个问题,推理模型不会直接给出它认为最有可能为真的答案,而是试图将一个问解拆解成几个推理的程序去推出一个答案。例如如果要解答谁是美国总统这个问题,人类和AI也能直接给出他们认为最有可能为真的答案,并不会造成太大问题;但如果要解答的问题是谁是在寿命最长的美国总统,中间就需要一系列推理论程去给出一个正确的答案(先找出所有美国总统的名单,再看看他们死亡时候的年纪,再作排序……诸如此类)。
一个最具代表性的问题就是“Strawberry有多少个r”(见下图):OpenAI的大型语言模型ChatGPT错误地给出了“两个”的答案,而且错误一直以不同方式出现,引起了人们对于发展一种“会思考、会推理”的模型的兴趣。连o1模型的开始计划起初也以“Strawberry”为代号。
DeepSeek虽然没有公布R1的详细训练成本,但它在R1的技术文章中立列举了其训练特色。减省训练成本是其一大重点。例如,相对于其他推理模型的训练,DeepSeek首先尝试放弃使用“已标签数据”(labelled data)而进行纯粹的强化学习(reinforcement learning),大大减少了数据标签的成本。
(按:数据标签很多时候需要人力介入,例如把“tiger”的中文翻译标为“老虎”,又或者把一张老虎的相片标为“老虎”等。而“强化学习”则是一种模型最大化奖励来学习的方式,例如如果向一个中英释译模型输入“Tiger”而模式产生出“老虎”为解答,模型就会得到奖励来强化这个倾向,相反,如果它产生出任何不是“老虎”的解答,就会得到惩罚来弱化这个倾向。)
以这种方式建立出来的R1-Zero模型在一系列推理基准测试(按:当中包括给高中学生的高级数学测试AIME 2024等)之中已经能够追过OpenAi的o1模型,显示出就算没有高成本的“已标签数据”去进行强化学习训练,DeepSeek已经有办法使模型获得高度的推理能力。
在这个基础之上,DeepSeek以少量的已标签数据(按:数量远远低于其他模型训练所用的)去微调基本的V3大型语言模型,随后以R1-Zero的纯粹强化学习去进行训练,到接近稳定状态之后,再以拒绝抽样(rejection sampling)和进一步的微调进行训练,然后回到纯粹强化学习的步骤,周而复始,不断改进,最后生成出R1模型。
其结果是,DeepSeek R1在各种推论基准的评分上与OpenAi的o1模型大体上打成平手,但其成本却远远低于o1,大约为其20分之1。在llm-stats.com的各种基准排名中,DeepSeek R1和V3都名列前茅,与OpenAI最新模型相约。
AI的“史普尼克时刻”
对特朗普政府影响甚巨的创科投资者Marc Andreessen早在1月24日就已经在社交媒体上大赞DeepSeek R1是他所见过最让人印象深刻的突破之一。他也点明,与OpenAI、Google不同,DeepSeek采行Meta的开源路线,不以企业高墙包围其技术,是“对世界的一份深刻的礼物”。
到27日,Andreessen还称R1是人工智能的“史普尼克时刻”(Sputnik Moment),就如苏联1957年突然成功发射人造卫星史普尼克1号对世界(特别是美国)造成的震撼一般。
特朗普1月21日才刚同OpenAI行政总裁奥尔特曼(Sam Altman)、软银行政总裁孙正义以及甲骨文行政总裁埃里森(Larry Ellison)一同宣布投资5000亿美元(按:全为私人资本)建设AI基建的“星际之门”(Stargate)计划,目前已有在得州的10个数据中心在兴建当中。“星际之门”的包装,让人想起上世纪80年代列根(Ronald Reagan)发起的“星战计划”,同苏联展开太空军备竞赛--这一次,“星际之门”则是要同中国展开在AI领域的科技竞赛。
如今全身投入特朗普阵营的Meta行政总裁朱克伯格(Mark Zuckerberg)也在1月24日宣布2025年将投资600至650亿美元到AI项目上,本年内将会把Meta的GPU数量提高到130万片。
DeepSeek的低训练成本和高表现水平,似乎一下子就揭穿了这些巨额投资背后的空虚:高量的算力投入并不是AI未来发展的唯一道路。
“星际之门”可能在还未有任何项目落成之前就已经要彻底改变方向。
更为讽刺的是,DeepSeek对于降低训练成本的执着,很可能是美国的政策迫出来的。拜登上台以来不断加大对于芯片对华出口的限制,以图利用美国企业在AI芯片的领导地位从硬件上压制中国的AI行业发展。
在下台之前几天,拜登更公布了“人工智能散播框架”(Framework for Artificial Intelligence Diffusion),提出将全球国家或地区分成三组,一是包括美国在内的“AI 19”,不会受到AI芯片的出口管制,二是包括中国、伊朗、俄罗斯、朝鲜在内的受禁制国家,它们几乎不会被准许获得先进的AI芯片,三是包括印度、新加坡、波兰等全球大多数国家在内的国家,他们只能靠“AI 19”国家的企业在严格限制之下取得一定数量的AI芯片运算能力。
这可算是赤裸裸地以地缘政治考虑限制全球AI发展的做法,其目标就是要让美国维持AI唯一主导国的地位,任何其他国家要发展AI也要美国同意。
DeepSeek的AI模型却从两个方面打破了拜登AI战略的基础假设。首先,在美国的算力限制之下,像DeepSeek这样的中国企业有极大的诱因去运用最少的芯片算力去达至最大的效能,在训练上减省成本变成了其生死存亡关键,因而就有了这一轮的震撼世界的创新。相较之下,美国企业不受任何限制,而且投资者大举投身AI,让他们只知道“做大”,却忽略了“做强”的方式不一定是“做大”。
其次,拜登AI战略维持美国主导地位的根本逻辑,就是AI发展的樽颈在于算力,只要能控制全球AI芯片算力的供应,就能控制全球AI发展的走向。DeepSeek的低训练成本,却完全打破了这套逻辑。
“人工智能散播框架”有120日咨询期,其落实与否就要特朗普当局的决定。
OpenAI行政总裁奥尔特曼(Sam Altman)承认DeepSeek R1的成本优势:
对于DeepSeek的突破,特朗普27日大赞这低成本做法是“正面发展”,指出这已经对美国业界敲响“警钟”,表明美国企业应该集中全力“以竞争取胜”(competing to win)。
如果特朗普够聪明的话,他实在应该像他所说一样将重点放在“竞争”,而非“压制”对手,放宽拜登AI政策对于芯片出口的管制,造就一个全球公平竞争的环境。
虽然特朗普的“星际之门”宣布还不到一周就让人有感过时,而拜登的对华芯片管制也似乎造成了反效果,但我们还是不应该高估了DeepSeek模型的AI芯片业界影响。DeepSeek R1的训练成本确实远低于对手,但这种低成平却有助AI更为普及,整体增加对算力的需要,同时推理模型本身整体而言也有更高的算力要求,Nvidia的股价大跌所反映出来的可能是情绪而不是事实。