在文生图这个领域,Midjourney 已经成为事实上的领头羊,无论是技术上还是用户的心智层面,目前似乎无人能撼动其地位。不过它可能要面对一个新的挑战者了,并且这个挑战者无论是团队还是投资人阵容都非常的强大。

这个挑战者就是刚成立的 Ideogram,昨天宣布获得了来自 a16z 和 Index 联合领投的 1650 万美金种子轮融资,除此之外还有一大堆跟投方,其中个人投资人这块包括了几位大神级人物。

一个是 Google 人工智能部门的负责人 Jeff Dean,设计了 Google 早期的搜索基础设施,并创建了 TensorFlow;前特斯拉的 AI Director Andrej Karpathy,目前在 OpenAI;GitHub 联合创始人 Tom Preston-Werner,以及 NodeJs 的创建者 Ryan Dahl 等。
An image to describe post Midjourney 遇劲敌,Google Imagen 团队 a16z 和 Index 领投

根据官网公布的信息,Ideogram 的团队由知名的 AI 专家组成,他们曾在 Google Brain、加州大学伯克利分校、卡内基梅隆大学和多伦多大学领导过革命性的人工智能项目。

其中创始人 Mohammad Norouzi 此前曾担任 Google 的高级研究科学家,是 Google 文本转图像系统 Imagen 的核心成员,下面是其公布的核心团队成员:

An image to describe post Midjourney 遇劲敌,Google Imagen 团队 a16z 和 Index 领投

这个团队的成员之前做了大量的基础工作,包括了:去噪扩散模型(Denoising Diffusion Models)、Google 的 Imagen 系统,包括了Google 的文本转图像系统、用于视频合成的 Imagen Video、用于语音合成的 WaveGrad、神经语音识别、神经机器翻译、用于学习视觉表达的对比学习以及生成对抗性模仿学习。

谈到其使命时,Ideogram 在官网上说:

我们的使命是通过生成式人工智能帮助人们变得更有创造力。我们正在开发最先进的人工智能工具,使创意表达更加易于访问、有趣和高效。我们正在突破人工智能的可能性极限,专注于创造力,并对信任和安全设置了高标准。

从团队的经历或许可以看出,除了文本生成图片外,或许文本生成视频也会是 Ideogram 的重要部分,不过目前产品主要是文生图。

现在已经可以体验其文生图产品,用 Gmail 邮件登录后是一个类似 Marketplace 的展示页面,里面显示了目前比较热门和流行的 AI 生成图片,这和 Midjourney 的方式不同。

如果要生成图片,直接在最上方的输入框输入文本即可。我试了一下中文,目前看来应该是不支持,不过英文的效果还不错。
An image to describe post Midjourney 遇劲敌,Google Imagen 团队 a16z 和 Index 领投

下面是一些比较受欢迎的图片生成,每个图片点击打开后是 4 张图片,你可以看到它的 prompt,也可以基于这些图片进行二次创作,这是一个提高图片生成效果不错的方式。

有个细节的地方,如果你通过某个图片进行了 2 次创作,它会在新生成的图片集里显示最原始的那个图片,点击就会回到最原始的图片创作合集,在两者之间切换非常方便。
An image to describe post Midjourney 遇劲敌,Google Imagen 团队 a16z 和 Index 领投

Ideogram 目前还有一个比较大的卖点,就是在图片中生成比较可靠的文本,如上图所示,你可以在图片上让它展现各种不同风格的指定文本,这对于很多需要图片和文本合在一起的图片来说,就是一个不错的方案,目前其它类似产品貌似在这块的效果都还不是很好。

不过以 Midjourney 目前的地位,Ideogram 要撼动这个地位难度还是不小。