Ideogram AI——一家由前谷歌工程师和来自加州大学伯克利分校、卡内基梅隆大学和多伦多大学等知名机构的成员共同创立的初创公司——宣布发布了其同名图像生成器的首个完整版本。
“我们很高兴发布Ideogram 1.0,这是迄今为止我们最先进的文本到图像模型,”Ideogram AI在一篇官方博客文章中表示。“与所有Ideogram模型一样,Ideogram 1.0是从头开始训练的,提供了最先进的文本渲染、前所未有的逼真度以及快速响应,并且新增了一个名为Magic Prompt的新功能,可帮助您编写详细的提示,生成美丽而富有创意的图像。”
该发布伴随着一项由安德森·霍洛维茨(Andreessen Horowitz)领投的8000万美元A轮融资的消息,其他投资方包括Redpoint Ventures、Pear VC和SV Angel。
Decrypt能够测试该模型,证实了Ideogram AI的说法并非夸大其词——下面可以找到一份并排比较。Ideogram的第一个版本明显优于其v0.1和v0.2前身:它在提示响应、图像质量和文本生成能力方面表现出色。
该模型不是开源的,因此对其内部结构的可见性有限,也没有研究论文可供评估。但通过该模型获得的结果不言自明,这可能使其成为目前可用的最佳模型——至少在Stable Diffusion 3公开发布之前是如此。
这款新模型在文本能力方面可以说是目前最有能力的图像生成器,能够生成更长的文本字符串,并且比Dall-E 3或MidJourney出现更少的错误。当前的免费套餐也使其在竞争对手如Dall-E 3和MidJourney面前具有优势,后者没有免费套餐。微软Copilot也使用Dall-E 3,但它只能生成1:1的正方形图像,而Ideogram支持更广泛的宽高比。
Ideogram还提供了两种付费计划,分别为每月7美元和15美元,可获得每天超过400次生成的权限,以及其他福利,如图像编辑器、更高质量的下载、img2img(允许对现有图像进行修改或变化)和私人生成。所有较低级别的套餐都会公开显示请求的图像。
Ideogram能够理解长提示,与Stable Diffusion 3不相上下,并在该领域击败了所有其他图像生成器。
Ideogram的一大亮点是“Prompt Magic”,可以随时开启或关闭。该功能分析提示并加以增强,以创建更高质量的图像,实质上赋予了该模型理解自然语言的能力,就像Dall-E 3一样。然而,Ideogram更加灵活,因为这个功能是可选的。ChatGPT Plus总是开启这个功能,有时会导致不准确。
最后,Ideogram的审查比MidJourney和Dall-E 3要少,到目前为止能够生成名人、公司标志和艺术风格的图像。它不会完全展示不适宜内容,但在审查提示时更加谨慎。
早期测试者似乎更喜欢Ideogram而不是其他模型。“使用类似于DALL·E 3的评估协议,我们发现人类评分者在提示对齐、图像连贯性、整体偏好和文本渲染质量方面更喜欢Ideogram 1.0,而不是DALL·E 3和Midjourney V6,”该初创公司表示。
并排比较:Ideogram vs MidJourney vs Dall-E 3
Decrypt测试了Ideogram的能力,并将其与其顶级竞争对手MidJourney和Dall-E 3进行了比较。Stable Diffusion 3和谷歌的顶级ImageFX在这里没有被评估,因为SD3尚未发布,而ImageFX也没有广泛可用。
生成长文本字符串
提示:一个未来主义的机器人在赛博朋克城市中,上面有一个标志,上面写着“不要在人工智能潮流中迟到:由Decrypt出现”
使用Ideogram(左)、MidJourney(中)、Dall-E 3(右)生成的图像。
Ideogram AI能够展现所要求的美学和文本。然而,它有一个拼写错误,生成了“thee”而不是“the”。
MidJourney根本无法生成任何连贯的文本,而是专注于生成一个细节丰富的未来主义机器人。它是整个构图的主要主题。城市根本不是赛博朋克风格的。
Dall-E 3排名中间。它能够生成未来主义机器人,城市是赛博朋克风格,但标志上没有出现“Emerge”这个词。
有趣的是,Ideogram理解机器人在城市中,并与标志相关联,而Dall-E则认为标志是城市景观的一部分。
长提示和空间能力
提示:一个超现实而引人入胜的场景,其中一只猫栖息在电视机顶部,旁边有一个标志,上面写着“出现”。在背景中,一个未来主义机器人站在一侧,一名宇航员站在另一侧。房间的墙壁上装饰着一个引人注目的分子图和一个DNA链。
使用Ideogram(顶部)、MidJourney(左下)、Dall-E 3(右下)生成的图像。
Ideogram在整体上是迄今为止最好的生成器。它理解了提示的每一个部分,生成的文本没有拼写错误,理解了每个元素的位置,猫在电视顶部,旁边有标志,机器人和宇航员分别站在两侧,甚至理解了背景中必须有一个分子和一个DNA链。
MidJourney的美学并不超现实,而是更加超现实。它生成了“出现”这个词,但把它放在了电视上,并没有生成标志。猫也是在电视旁边而不是顶部。它没有生成机器人,并且未能按照提示生成背景,而是生成了更适合构图美学的背景,更加强调了主题(猫)而不是整体场景。
Dall-E 3保持了其特有的卡通风格,无法完全按照提示生成。它比MidJourney更具有空间理解和提示遵从性,但比Ideogram要少得多。然而,在风格方面却输了。它生成了猫在电视顶部,但未能生成旁边的“出现”标志。它也没有生成机器人,并且在生成背景时未能按照提示。
审查
提示:一个性感的美女。
使用Ideogram(左)、MidJourney(中)、Dall-E 3(右)生成的图像。
提示中没有包含可能被解释为仇恨言论或侮辱性词语,更不用说特别性感的了。毕竟,“一个性感的美女”可以是穿着得体,而不是过于性感化。
Ideogram AI理解了提示,并生成了符合指示的图像。然而,Ideogram确实有一个AI审查员,当使用更明显的词语时会触发审查,这些词语会立即导致被审查的生成(比如,生殖器的俚语或裸体、裸露等标签)。
与此同时,MidJourney和Dall-E 3都未能生成图像,并且禁止了一些词语,即使它们不会导致不适宜内容的生成。
Ideogram似乎在审查方面更加有针对性,可以在应用程序将图像删除之前看到生成的图像,无论是不适宜内容还是其他有问题的内容。
名人和受版权保护的图像
提示:乔·拜登和弗拉基米尔·普京站在“Decrypt”字样的墙前,手牵手,脸上带着笑容。
使用Ideogram(顶部)、Dall-E 3(左下)、MidJourney(右下)生成的图像。
Ideogram AI生成了图像,文字是正确的,场景是现实的,角色很容易辨认(即使不是100%准确)。
Dall-E 3生成了图像,但拜登不容易辨认,而特朗普只能通过他特有的发型辨认出来。文字不正确,场景也不现实,而是卡通风格的。
MidJourney拒绝生成图像。
结论
Ideogram可能是目前市场上最好的图像生成器,而且是免费且广泛可用的。它在自然语言理解方面表现出色,具有出色的空间能力和提示遵从性。它也是目前最好的文本生成器。
如果美学是最重要的考虑因素,以至于遵从性和文本不那么重要,那么MidJourney可能仍然是特定用例的强有力竞争对手。虽然审查严格且受限,但Dall-E 3作为ChatGPT Plus订阅的一部分仍然有意义。
目前,Ideogram AI在我们的图像生成工具中占据着首要地位。
免责声明:本文章仅代表作者个人观点,不代表本平台的立场和观点。本文章仅供信息分享,不构成对任何人的任何投资建议。用户与作者之间的任何争议,与本平台无关。如网页中刊载的文章或图片涉及侵权,请提供相关的权利证明和身份证明发送邮件到support@aicoin.com,本平台相关工作人员将会进行核查。