DeepSeek发布Janus-Pro影像生成模型 70亿引数打造击败DALL-E 3

撰文: 中关村在线
出版:更新:

今天凌晨,中国一款备受欢迎的大型语言模型“DeepSeek”发布了其最新产品“Janus-Pro”。该模型主要面向影像生成领域,成为业界关注的焦点。

在最新的GenEval和DPG-Bench基准测试中,由70亿引数构成的“Janus-Pro-7B”大放异彩,成功击败了OpenAI旗下的DALL-E 3以及其他热门模型如Stable Diffusion、Emu3-Gen等。值得一提的是,“Janus-Pro”采用MIT开源协议,这意味着其将在商业场景中得到广泛应用。

Janus-Pro采用MIT开源协议(deepseek)
+6

据了解,“Janus-Pro”是“JanusFlow”大模型的高阶版本,并于2024年11月13日正式发布。相较于之前的模型版本,“Janus-Pro”经过最佳化训练策略并扩大了训练资料范围,同时模型引数数量也有所提升。

延伸阅读:微软提供免费AI图片产生器 GPT-4随便用 更能生成16:9长方形图(点选连结看全文)

+2

这一系列改动为“Janus-Pro”的发展注入了强大动力,在多模态理解和文本到影像指令跟踪功能方面取得了显著进步,并且增强了文本到影像生成的稳定性。尽管该模型目前只能处理384x384解析度的影像,但考虑到其结构相当紧凑而能达到如此高水平,实属难得。

Janus-Pro目前只能处理384x384解析度的影像(deepseek)

除了文生图的功能外,“Janus-Pro”还具备图片描述、地标景点识别、文字识别以及图片知识介绍等多种功能。总体而言,这款多模态大模型引起了广泛的关注,并展示了其在行业内所具备的实力与潜力。

延伸阅读:生成式AI应用100强 ChatGPT霸榜挑战者出现 消费者最爱是这些(点选连结看全文)

+14

【本文获“中关村线上”授权转载。】