下一个Sora？国内首发纯自研影片大模型Vidu　可生成16秒高清影片

撰文：许祺安

出版：2024-04-30 17:00更新：2024-04-30 17:00

4月27日，在备受瞩目的2024中关村论坛年会未来人工智能先锋论坛上，清华大学联合生数科技正式发布了中国首个长时长、高一致性、高动态性影片大模型——Vidu。这一重大成果的发布，标志著中国在影片大模型领域取得了重要进展，为全球人工智能发展注入了新的活力。

Vidu影片大模型是生数科技团队在贝叶斯机器学习和多模态大模型领域的长期积累和多项原创性成果的结晶。其核心技术U-ViT架构由团队于2022年9月提出，早于国际领先的Sora采用的DiT架构，是全球首个Diffusion与Transformer融合的架构。

陆媒《财闻网》报道，在短短两个月的时间里，团队基于对U-ViT架构的深入理解以及长期积累的工程与数据经验，进一步突破了长影片表示与处理的关键技术，成功研发出Vidu影片大模型。

2024年4月27日，清华大学联合北京生数科技有限公司首次中国自行研发的文字描述生成影片的人工智能模型“Vidu”，能理解中国元素并生成影片。（新浪财经）

Vidu影片大模型的性能全面对标国际顶尖水准，并在加速反复运算提升中。它能够类比真实的物理世界，拥有丰富的想像力，具备多镜头生成、时空一致性高等特点。在影片效果方面，Vidu实现了显著提升，能够生成细节复杂、符合真实物理规律的场景，如合理的光影效果、细腻的人物表情等。同时，它还能生成真实世界不存在的虚构画面，创造出具有深度和复杂性的超现实主义内容。

值得一提的是，Vidu影片大模型在时长方面取得了重大突破。目前，国内大多数影片大模型生成的影片时长大多在4秒左右，而Vidu能够一次性生成长达16秒的高清影片内容，解析度高达1080P。这一突破不仅展示了Vidu在影片生成技术上的先进性，也为其在各个领域的应用提供了更广阔的空间。

此外，Vidu影片大模型还具备理解中国元素的能力。在生成的影片中，能够出现熊猫、龙等特有的中国元素，充分展现了其对中国文化的深入理解和运用。这一特点使得Vidu在文化传承、旅游推广等领域具有独特优势。

生数科技与清华大学发布影音大模型Vidu。（科技日报）

《北京日报》报道，在论坛现场，清华大学人工智能研究院副院长、生数科技首席科学家朱军展示了多段由Vidu生成的影片。观众们纷纷表示，这些影片不仅画质清晰、流畅，而且内容丰富、有趣，充分展示了Vidu影片大模型的强大实力和广阔前景。

朱军表示，Vidu的命名不仅谐音“Video”，也蕴含“We do”的寓意。模型的突破是一个多维度、跨领域的综合性过程，需要技术与产业应用的深度融合。他希望与产业链上下游企业、研究机构加强合作，共同推动影片大模型的发展，为人工智能领域注入更多创新活力。

国产影片大模型能否成为下一个Sora？

在人工智能技术的浪潮中，影片大模型领域正迎来前所未有的发展机遇。近日，清华大学联合生数科技发布了国内首个达到Sora级别的影片大模型——Vidu，这一重要突破引发了业界的广泛关注。那么，Vidu是否具备成为下一个Sora的潜力呢？

《财闻网》分析，在影片生成能力方面的表现，Vidu能够一键生成长达16秒、解析度高达1080P的高清影片内容，满足了长影片内容的生成需求。官方宣传数据中展示的“画室中的一艘船驶向镜头”等场景，海浪、船的效果非常逼真，体现了Vidu强大的生成能力。这种能力使得Vidu在影片创作领域具备了巨大的应用潜力。

Vidu在复杂场景和角色生成能力方面也表现出色。它能够生成包含多个角色、特定运动类型以及主题精确、背景细节复杂的场景。生动的角色表情和复杂的运镜使得生成的影片具有高度的逼真性和叙事效果。这种能力使得Vidu在动画制作、电影预告片制作等领域具有广泛的应用前景。

此外，Vidu还具备深入的语言理解能力。它能够准确解释用户的提示并生成能表达丰富情感的角色。这使得模型能够更好地理解使用者的文本指令，并在生成的影片内容中忠实地反映这些指令。这种能力为Vidu在内容创作领域提供了更多的可能性。

在技术架构方面，Vidu采用了全球首个Diffusion与Transformer融合的U-ViT架构，这也是其实现高性能的关键所在。U-ViT架构的融合使得Vidu在影片生成过程中能够更好地捕捉和理解影片中的运动和细节，从而生成更加真实和自然的影片内容。

然而，要成为下一个Sora，Vidu还需要在多个方面持续突破和创新。Vidu在影片时长方面仍有提升空间。目前，Vidu生成的影片时长为16秒，而Sora能够生成长达一分钟的影片。随著技术的不断进步，各界期待Vidu能够在影片时长上实现更大的突破。

Vidu还需要在应用场景和商业模式上进行拓展。目前，Vidu主要应用于影片创作和动画制作等领域，未来可以进一步拓展到广告、教育、娱乐等多个领域。同时，Vidu还需要探索与产业链上下游企业的合作模式，共同推动影片大模型的发展和应用。

还需要关注Vidu在安全性和伦理方面的表现。随著人工智能技术的广泛应用，如何确保生成内容的真实性和合法性成为了一个重要的问题。Vidu需要在技术层面加强对生成内容的审核和监管，避免出现误导性或违法违规的内容。

综上所述，Vidu影片大模型在影片生成能力、复杂场景和角色生成能力等方面表现出色，具备成为下一个Sora的潜力。然而，要成为行业领导者，Vidu还需要在影片时长、应用场景和商业模式等方面持续突破和创新，并加强安全性和伦理方面的监管。

浸大推MotionGPT如港版Sora　以文字生成动作画面助拍戏沟通减NG OpenAI SORA文字生成影片震撼全球下个影响全球会是什么｜苏仲成 Sora惹惊艶证AI热潮方兴未艾　金山软件可乘AIGC发展浪潮｜伍礼贤

下一个Sora？国内首发纯自研影片大模型Vidu 可生成16秒高清影片

国产影片大模型能否成为下一个Sora？

下一个Sora？国内首发纯自研影片大模型Vidu　可生成16秒高清影片