DeepSeek发布文字生成图片模型Janus-Pro 测试优于OpenAI|有图

撰文: 朱加樟
出版:更新:

国产大模型DeepSeek轰动全球,造成美国股市震荡,科技公司英伟达(Nvidia,又译辉达)股价在美国当地时间27日单日暴跌近17%,市值损失创纪录的5,890亿美元。

28日凌晨,DeepSeek在GitHub平台发布了Janus-Pro多模态大模型,进军文字生成图片领域。根据其发布的测试结果,Janus-Pro在使用文本提示的图像生成排行榜中击败了Stability AI的Stable Diffusion和OpenAI的DALL-E 3。

Janus-Pro图像生成的案例。
Janus-Pro图像生成的案例。

DeepSeek方面表示,该款大模型是2024年11月13日发布的JanusFlow大模型的高级版本。相比前一代模型,Janus-Pro优化了训练策略、扩展了训练数据,模型也更大。通过这些改进,Janus-Pro 在多模态理解和文本到图像的指令跟踪功能方面都取得了重大进步,同时还增强了文本到图像生成的稳定性。

根据DeepSeek发布的测试结果,Janus-Pro在GenEval和DPG-Bench基准测试中击败了 Stable Diffusion和OpenAI的DALL-E 3。目前,Janus系列的4款模型已经开源。

可识别图片认出西湖

作为一个多模态模型,Janus-Pro不仅可以文生图,同样也能对图片进行描述,识别地标景点(例如杭州的西湖),识别图像中的文字,并能对图片中的知识(例如下图中的Tom and Jerry蛋糕)进行介绍。

Janus-Pro能对图片进行描述,识别地标景点(例如杭州的西湖)。
Janus-Pro能对图片中的知识(例如Tom and Jerry蛋糕)进行介绍。
今年1月20日,国务院总理李强主持召开专家、企业家和教科文卫体等领域代表座谈会,听取对《政府工作报告(征求意见稿)》的意见建议,DeepSeek创办人梁文锋在会上发言。