实测4款AI文字生成图片神器 Midjourney面对强者还是技胜一筹?

撰文: 机器之心

MJ、Ideogram 2.0、Flux、Imagen 3,谁能坐上AI生图第一把交椅?

AI 圈,卷完视频卷影像。

继 FLUX 生成的各种恶搞影像满天飞后,其他 AI 生图玩家也坐不住了,纷纷迎战:就在今天,Midjourney 一改往日“高冷范”,宣布所有使用者可免费使用一个月(暗藏小心思:只能免费生成 25 张影像);

同时,Ideogram 也正式推出 2.0 版本,声称文本渲染能力更强;

Google曾多次“剧透”的 AI 生图模型 Imagen 3 前几天也终于亮相。


-1- 挑战 Midjourney 等老牌玩家

今年 2 月份,Ideogram 推出了 1.0 版本,短短半年时间,它再次进化,上线了 2.0 版本,并给每位使用者免费体验额度,每天可免费生成 40 张影像。

不得不说,Ideogram 2.0 的“写字”能力有不小的长进,无论是贺卡、T 恤设计、海报还是插图,它都能呈现更长、更准确的文本。


Prompt:A modern website design with a bubble tea theme. The background is a soft teal color. There's a peach bubble tea with tapioca pearlsin a clear cup. Next to the cup is a peach laptop with a blog post open. There's a comfortable teal chair with a curved back. The text "Relax, create, and work from home" is written in a modern font.


prompt:A 3D render illustration of Hello Kitty in a celebration of love. Hello Kitty is the centerpiece, surrounded by five fluffy,star-shaped objects that glow with warmth and life. Each star displays a word in elegant golden italics: "Be," "Happy," "Kind," "Cool," and "Thankful." The background is a vibrant, contrasting yellow and pink. The scene is enchantingly adorned with soft pink transparent butterflies, small red and orange hearts, and delicate white flowers, adding a touch of romance and whimsy.


prompt:A 3D render of three emojis (Happy, Sad, and Angry) in a new fashion style. They are placed on a dark paper background. In front of the emojis, there is a panel with the text "Therapy Talk" written on it. The overall image has a great weather effect.

为了和 FLUX 掰掰手腕,Ideogram 2.0 也在写实影像方面下了苦功。


有网友直接使用 Ideogram2.0 生成影像,并让 Runway Gen-3 转成视频,几乎看不出 bug。

此外,Ideogram2.0 还打出了差异化,上线了“调色盘控制”功能,使用者可选择多种色彩方案,精准控制影像色彩,如此一来,无论是品牌一致性还是营造特定氛围,它都能实现。


据介绍,去年 Ideogram 的使用者生成了超过 10 亿张影像,为了方便呼叫、激发创作灵感,他们还推出了搜寻功能,使用者只需通过文字进行搜寻即可。

例如,我们在聊天框中输入“happy birthday”,系统自动跳出一系列相关图片。


不仅如此,Ideogram 还一口气推出了 iOS 应用程序以及 API 测试版。


-2- 四款文生图神器大乱斗

据官方介绍,Ideogram 2.0 在评估中的表现明显优于 Flux Pro 和 OpenAI 的 DALLE-3。

既然如此,我们就让它与市面上最牛的四款 AI 生图神器来个同台竞技,孰优孰劣,实力说话。


Prompt:a young woman with red hair in a blue and white polka dot dress, in the style of helios 44-2 58mm f/2, intense coloration, photo-realistic techniques, dark orange and white, intensity, simplicity, webcam photography.


Prompt:There are houses on the streets, roadside, and across the street in Paris, captured by a Sony camera, high-resolution, masterpiece, 8k.


Prompt:the most epic japanes mini tart, high resolution photo, realistic photo CAMERA: Canon EF, 4k resolution, | LIGHTING: natural light, cinematic still, studio lighting | DETAILS: photorealism, ultra detail, 100mm, f 2.8 Macro IS USM —no wotermark.


Prompt:film still, a, exhausted with a messy hair young woman dancing alone, exhausted at the end of a day party.


Prompt:A horizontal bronze metal sign with the word "Studio Christmas" in an elegant font, surrounded by pine cones and evergreen branches on each side of it. The background is dark wood, creating a contrast between warm colors and cool tones. A close-up shot focuses only on the gold inscription, highlighting its texture and design. This scene evokes the feeling of Christmas season decor.


Prompt:Minimalistic stock photo of a little boy with blonde hair wearing glasses and a blue shirt holding a "Back to School" sign, standing outside in a sunny park, blurred green trees in the background, the boy is smiling confidently, waist-up shot, minimalistic background.


Prompt:A group of farmers are hard at work in the fields, they grow small vertical garden-like pumpkins. In one elaborate scene, tiny people make planks on top of giant, oversized pumpkins. The background is chloroplast, creating a cinematic feel. High-definition detail captures Descartes's resolution, creative composition and bold close-up shots of miniature character states, axial displacement photography, exquisite detail, 8K.


Prompt:The rabbit family plays happily in the room, Disney style, 3D, high detail.


Prompt:eucalyptus and mint classic refreshing drops minimalist packaging.

-3- 前Google工程师创立,AI 大佬投资

论起来,Ideogram 与Google还有点“亲戚关系”。

Google可以说是 AI 领域的“黄埔军校”,其内部搞出过不少好东西,但Google囿于安全、伦理方面的顾虑,不少好产品被“埋没”。因此不少工程师纷纷出走,自己创业。

Ideogram 亦是如此。

去年 8 月,Ideogram 成立,创始团队 7 人,来自 Google Brain、加州大学伯克利分校、卡内基梅隆大学和多伦多大学。

其中,Mohammad Norouzi(CEO )、Jonathan Ho (联合创始人)、 William Chan 和 Chitwan Saharia 都是Google AI 文生图模型 Imagen 的核心作者,相关论文曾入围 NeurIPS 2022 Outstanding paper 。

创业前,Mohammad Norouzi 曾在Google大脑工作近 7 年,职位也一路升至高阶研究科学家,主要研究的就是生成模型,但涉猎的范围很广,包括 Imagen 、 Imagen Video 、用于语音合成的 WaveGrad 、 神经机器翻译 、用于学习视觉表示的对比学习等。


联合创始人 Jonathan Ho ,UC 伯克利博士毕业,在扩散模型方面做了非常重要的工作,当年他离开Google时,一度被业内人士视为Google的重大损失。


2022 年 4 月,Google提出了视频扩散模型(Video Diffusion Models),首次报告了扩散模型根据文本生成视频的结果效果不俗。而 Mohammad Norouzi 、Jonathan Ho 正是文章的主要作者。

Jonathan Ho 也是扩散模型奠基作品之一、提出去噪扩散模型 Denoising Diffusion Probabilistic Models 一作。(有趣的是,合著者之一 Pieter Abbeel 也是这家公司的投资人)。

Chitwan Saharia 在Google工作时,主要负责领导 image-to-image 扩散模型的工作。

除了扩散模型方面的工作,Willian chan 在Google工作时从事过 神经语音识别 研究,与 Mohammad Norouzi 合作研究用于语音合成的 WaveGrad 。

