AI黑马DeepSeek低成本高效能震撼市场 OpenAI潜在对手还有这些
中国DeepSeek在农历新年期间推出了 AI 模型 DeepSeek-V3 和 DeepSeek-R1,引起了广泛关注,并且在AI产业中掀起波澜!
在经过数日的市场震荡与各方分析后,DeepSeek掀起的影响,可以归纳为“低成本与高效能”,有能力以更低的价格提供AI服务,进而推动AI技术普及,更进一步加速市场竞争,对其他AI公司构成了竞争压力,促使加速技术研发。
中国AI企业急起直追
DeepSeek的成功可能并非个案。近期,其他中国科技公司也纷纷发表最新AI模型,声称可与 DeepSeek 和 OpenAI 的模型相提并论。
美方的悲观论者,例如卡内基国际和平基金会的中国AI专家 Matt Sheehan 就表示,美国政府若以为击垮 DeepSeek 就能高枕无忧是大错特错。他认为,中国在AI领域的发展速度正不断加快,美国应密切关注。
以下为近期推出AI模型的中国企业:
阿里巴巴云 (Alibaba Cloud)
农历新年期间,阿里巴巴云发布了 Qwen 2.5-Max 模型,号称在多项基准测试中超越 DeepSeek V3 和 Meta Llama 3.1。
根据“阿里云”指出,Qwen2.5-Max 模型是阿里云通义团队对 MoE 模型的最新成果,预训练资料超过 20 兆 tokens。在测试大学程度知识的 MMLU-Pro、评估程式设计能力的 LiveCodeBench、综合能力评估的 LiveBench,以及近似人类偏好的 Arena-Hard 等多个权威评测中,该模型均展现出与 DeepSeek V3、GPT-4 和 Claude-3.5-Sonnet 比肩,甚至领先的性能。
通义团队将 Qwen2.5-Max 与DeepSeek V3、Llama-3.1-405B,以及Qwen2.5-72B进行对比,声称在所有11项基准测试中,Qwen2.5-Max 全部超越了对比模型。
智谱 (Zhipu)
这家位于北京的新创公司以AI发展迅速著称,其AutoGLM应用程式可帮助使用者透过复杂的语音指令操作手机,但近期被美国政府列入贸易黑名单。
智谱才于去年12月完成新一轮30亿人民币融资,智谱AI称,新的投资方包括多家创投及国资,君联资本等老股东继续跟投,本轮融资将用于智谱GLM大模型系列的研发。在年前的1月23日,智谱发文宣布旗下智谱GLM-PC开放体验,宣称“自主操作电脑的多模态 Agent再升级”
依据《IT之家》报导,GLM-PC是基于智谱多模态大模型的CogAgent,能像人类一样“观察”和“操作”电脑,协助用户完成各类任务。GLM-PC v1.0 于 2024 年 11 月 29 日发布并开放内测,目前最新推出“深度思考”模式、增加专用于做逻辑推理和代码生成的功能、并提供了对Windows系统的支持。
延伸阅读:生成式AI除ChatGPT外 全球第二是中国AI“豆包” 靠1方法占市场(点击连结看全文)
月之暗面 (Moonshot AI)
与 DeepSeek 同日发布 LLM 模型,声称在数学和推理能力上可挑战 OpenAI o1。该公司的 Kimi k1.5 模型以能处理大量中文字符而受到关注。
以Kimi k1.5 模型为例,其官方声称,模型在强化学习中把情境窗口扩展到128k,就好比给模型开了一个超长的“记忆窗口”,让它能够处理更长的数据序列,从而更好地理解和生成连贯的文本。
官方指出,模型采用部分轨迹回放技术(Partial Rollouts),就像是在浏览一个超长的影片,先快速全部看一遍,然后针对感兴趣的部分详细观看,以提高训练效率。
而在模型的行为优化方面,则采用了线上镜面降算法(Online Mirror Descent),这种算法通过不断调整模型的参数,使得模型在面对不同问题时能够更灵活地找到好的解决方案。同时,模型在训练时会优先选择更有学习价值的问题进行训练。
字节跳动 (ByteDance)
TikTok 母公司字节跳动推出豆包 (Doubao) 1.5-pro模型,声称在特定测试中优于OpenAI o1,且价格更具竞争力。
根据最新公布的跑分结果,Doubao 1.5 Pro 在 14 项基准测试中表现突出,特别是在推理能力和程式设计等领域,Doubao 1.5 Pro 在“BBH”推理测试中取得 91.6 的高分,而在“McEval”程式码测试中也获得了 70.2 分,这些分数分别超越了 OpenAI 的 GPT-4(分别为 89.2 和 58.7)及 Google 的 Gemini(分别为 92.6 和 67.0)。
该模型采用稀疏 MoE 架构,使得模型在保持高性能的同时,降低了算力需求,且采用自主数据生产体系,避免了数据蒸馏,确保了数据的独立性和可靠性。
腾讯 (Tencent)
以游戏和微信闻名的腾讯,在 AI 领域也有进展。其“混元”模型(Hunyuan) 在生成影片方面的表现据称可与 Meta (元) Llama 3.1 相媲美,且所需的运算能力更低。
在去年11月腾讯混元宣布最新的 MoE(混合专家;Mixture of Experts)大语言模型“混元 Large”以及混元 3D 生成大模型“Hunyuan3D-1.0”正式开源后,模型可在 HuggingFace、Github 等技术社群直接下载,免费且可商用。
官方声称,“Hunyuan3D-1.0”解决了现有的3D生成模型在生成速度,以及泛化能力上不足的问题,可帮助3D创作者和艺术家自动化生产3D资产,可重建各类尺度物体,大到建筑,小到工具花草。
应用上,3D生成相关技术已开始应用于UGC 3D创作、商品素材合成、游戏3D资产生成等腾讯业务中。
延伸阅读:Google AI聊天机器人向使用者发出死亡威胁 官方回应你满意吗?(点击连结看全文)
延伸阅读:
DeepSeek懒人包|MLA架构强在哪?什么是知识蒸馏?6大QA解密DeepSeek效应
【观点】当DeepSeek狂袭全球,台湾AI战略计划究竟是什么?
【本文获“数位时代”授权转载。】