认识Flux:新的开源人工智能图像生成器击败了Midjourney、SD3和Auraflow

CN
Decrypt
关注
7个月前

Black Forest Labs——这个曾经帮助开发原始 Stable Diffusion 的团队——推出了迄今为止最大的开源文本到图像模型 Flux。Flux 拥有惊人的 120 亿参数,可以生成与 Midjourney 不相上下的视觉效果,甚至可能超越当前任何其他模型——无论是开源还是闭源。

Flux 有三种变体:Flux Dev 是开源的,采用非商业许可证供社区开发使用;Flux Schnell 是更快速的精简版本,运行速度最多快十倍,采用 Apache 2 许可证,是顶级模型;Flux Pro 是闭源版本,通过 API 提供。

Flux Dev 和 Flux Schnell 可在 Hugging Face 上下载。ComfyUI 也已更新,以支持 本地工作流中的新模型

Black Forest Labs 在周四宣布了这一消息,强调了该团队在推动生成式 AI 媒体方面的卓越记录。

“我们的创新包括创建 VQGAN 和 Latent Diffusion,以及 Stability AI 的 Stable Diffusion 图像和视频生成模型(Stable Diffusion XL、Stable Video Diffusion、Rectified Flow Transformers),以及用于超快速实时图像合成的 Adversarial Diffusion Distillation,” 该团队表示。

此次发布是在成功完成了由 Andreessen Horowitz 领投、并得到包括 Brendan Iribe、Michael Ovitz 和 Garry Tan 在内的知名投资者支持的 3100 万美元种子轮融资之后。

在基准测试中,Flux 表示其模型在图像合成方面树立了新的标准,超越了 Midjourney v6.0、Dall-E 3(HD)和 SD3 Ultra 等模型在视觉质量、快速跟随、大小/比例变化、排版和输出多样性方面。Black Forest 的图表声称,其 Pro 和 Dev 模型是迄今为止最佳的图像生成器,而其性能较弱的 Schnell 位于 Midjourney v5 和 Ideogram 之间。


Flux 评分与其他 AI 图像生成器对比。图片:Black Forest Labs

然而,拥有较小 GPU 的用户可能就没那么幸运了。这些开源模型的大小约为 23GB,这意味着可能需要近 24GB 的 VRAM 才能运行,直到发布量化版本——如果有的话。但即便如此,似乎拥有 6GB 和 8GB VRAM 的 GPU 用户很快就要告别测试新 AI 模型的乐趣了。

然而,Black Forest 已经与 Fal AI——Auraflow 的开发者——合作,支持云端生成。这些模型也可以在 Replicate.com 上免费测试。一旦用户达到每日配额,使用 Flux Pro 可以生成 33 张图片,或者使用 Flux Schell 可以生成 333 张图片,每次费用为 1 美元。

这比 Midjourney 或 Ideogram 更有价值。Midjourney 的基本计划每年收费 96 美元,让用户每月生成约 200 张图片,相当于每美元约 25 张图片。Ideogram 的基本计划每年收费 $84,每月最多提供 400 张图片,或者每美元约 50 张图片。

测试 Flux

在基准测试中,Flux 的表现非常出色,但它的创作有多好呢?我们已经将其与迄今为止最显著的开源图像生成器进行了比较,并确认我们印象深刻。让我们比较一下 Flux、SD3 Medium 和 Auraflow,然后将其与 Midjourney 进行对比。

插图

提示 1:“手绘插图,描绘一只巨大的蜘蛛在丛林中追逐一名女性,场景极其恐怖、令人痛苦、黑暗而诡异,带有恐怖片的影响,有模拟摄影的痕迹,素描。”

Flux 展现出了出色的氛围光线和阴影运用。蜘蛛的设计确实令人恐惧,其锋利的腿和可怕的面孔。女性脆弱的姿势很好地传达了痛苦。这是对解剖学最准确的表现。

Auraflow 的青蓝色调给人一种怪异、超现实的感觉,但并没有完全捕捉到“黑暗和诡异”的要求。蜘蛛的设计不够恐怖,更多地是风格化的。

SD3 Medium 的黑白风格具有浓厚的素描质感。蜘蛛的设计详细而可怕,但在肢体上有一些形态上的缺陷。

我们的排名:

  1. Flux:最能捕捉到恐怖、痛苦和诡异氛围。它是最准确的创作,没有形态上的缺陷。
  2. SD3 Medium:视觉上引人注目,但与提示中的“模拟摄影”方面最不符合。恐怖风格是显而易见的。
  3. Auraflow:最接近素描和整体模拟摄影。然而,它最不恐怖、最不可怕,也最不传达整个场景的氛围。

空间意识

提示 2:“一只站在电视机顶上,屏幕上显示着‘解密’字样的狗。左边有一名穿着商务套装的女性拿着一枚硬币,右边有一台机器人站在急救箱顶上。整体场景超现实。”

Flux 是最符合提示要求的模型。它包含了所有要素并且位置合适。构图平衡,元素的意外摆放和复古未来主义的碰撞增强了超现实的质感。虽然生成了一个额外的手的影像,但这个版本最准确地捕捉到了提示的本质。

SD3 Medium 是第二好的。它理解了所有的要素,但也有一些变化,比如卡通风格和狗坐着而不是站着。它捕捉到了提示的一些要素,但错过了其他一些,在准确性方面介于 Flux 和 Auraflow 之间。

Auraflow 在提示上有些自由解释。狗在电视上,但是坐着而不是站着,女性看起来更像是 1950 年代的复古风格,而不是现代的商务套装,机器人站在蓝色基座上,而不是急救箱上,整体风格更复古、更丰富多彩,不够超现实。文字也呈现得不好。

虽然创意十足,但它与原始提示的偏离程度比 Flux 版本更大。

我们的排名:

  1. Flux:最符合提示,具有超现实的质感。
  2. SD3 Medium:捕捉了主要要素,但错过了一些细节。
  3. Auraflow:创意解释,但与原始提示的偏离最大。

真实感

提示 3:“夜晚繁华的城市街道的高分辨率照片,霓虹灯照亮场景,人们沿着人行道行走,汽车驶过,街边摊贩在卖热狗,湿润的路面上有灯光的倒影,整体风格是超现实的,注重细节和光线,一个霓虹灯标志着‘解密’。”

Flux 与提示要求非常接近。它展现了夜晚繁华的城市街道,霓虹灯照亮场景,人们沿着人行道行走,汽车驶过。湿润的路面上的灯光倒影非常真实,而“解密”标志也醒目显示。

Auraflow 在提示上有些自由解释。充满活力的霓虹灯照明营造了繁华的氛围,湿润的路面上的倒影增加了真实感。街边摊贩清晰可见并与场景互动。然而,图像看起来有些过饱和,街边摊贩看起来卡通化,这减弱了超现实风格。霓虹灯标志模糊不清,由于模型生成了奇怪的透视,人行道和街道之间没有明显的区别。

SD3 Medium 也捕捉到了提示的主要要素,但有一些变化。平衡的构图聚焦于行人和环境,真实的光线和倒影增强了夜间城市的感觉。 “解密”标志很显眼,街边摊贩为热闹的氛围增添了活力。然而,仔细观察时很容易发现一些使场景不真实的元素。例如,人们在街上行走,人行道扩展以适应热狗摊。

我们的排名:

  1. Flux:细节丰富,光线明亮。很好地捕捉了繁忙的街道,标志易于阅读,行人也被很好地呈现出来。
  2. SD3 Medium:通过平衡的构图、真实的光线和融合良好的元素,包括“解密”标志和街边摊贩,捕捉到了提示的要求。但是,与 Flux 生成的行人相比,其表现不够真实。
  3. Auraflow:充满创意的解释,具有充满活力的照明,但与卡通般的街边摊贩和混乱的霓虹灯标志偏离了超现实风格。它在透视方面存在一些问题,如果目标是照片般的真实感,这将是一个问题。

老板级别:Flux 对抗 Midjourney

我们还将 Flux 与 Midjourney 进行了比较。但是,我们没有使用自己的生成结果,而是根据 Midjourney 的“发现”页面上的前几名选择复制了 Midjourney 的提示。以下是这两个模型相互对比的情况。

真实感

提示 1:一张黑白照片,一位长发女性穿着全黑服装,突显曲线,坐在一张现代沙发前的地板上。她自信地为相机摆姿势,蹲下展示修长的双腿… 完整提示请见这里

Midjourney 与要求非常接近。它展现了一位女性在柔软的表面上动态蹲姿,捕捉到了高时尚摄影的本质。头发、面部特征和服装的细节被高度精确地呈现,增强了真实感。然而,姿势虽然动态,却不自然。女性的右手看起来像是手和脚的混合体,右腿莫名其妙地消失了,而本应是左脚的部分也呈现出手的形状。

另一方面,Flux 通过平衡的构图捕捉到了提示的主要要素。女性坐在地板上,双腿交叉,姿势更加轻松自然。对面部特征、头发和服装的高精度呈现增加了真实感。柔和而散射的光线提供了轻柔的阴影和高光,勾勒出主体的特征。

这一生成并非没有缺陷。尽管整体暗色场景易于处理,但她似乎多了一条腿,不过可以很容易地通过修补或像 Photoshop 这样的工具来修复。

我们的排名:

  1. Flux:以自然的姿势、背景和详细的渲染捕捉到了提示的要求。在形态学方面最准确。
  2. Midjourney:呈现了动态的姿势和高度的细节,但缺乏 Flux 图像的背景丰富性,身体的表现也不如 Flux 准确。

提示符合度

提示 2:一只白猫弹钢琴,戴着墨镜和帽子,穿着紫色夏威夷风格的衣服,全身照,灰色工作室背景,商业视频截图。来源:Chestnutmuffin

Midjourney 对提示的诠释捕捉到了场景的奇趣性。充满活力的紫色夏威夷衬衫增添了一丝俏皮。柔和的光线有效地突出了纹理和颜色。然而,特写镜头偏离了提示中指定的“全身照”,背景也不是要求的灰色工作室设置,而是更自然、不太受控制的环境。整体构图虽然迷人,具有真实感和风格,但错过了一些提示的关键要素。

Flux 更贴近提示,全身照捕捉到了白猫弹钢琴的所有要素。构图不太时尚,但包括了猫的整个身体,确保所有指定的细节都可见。光线和渲染都处理得很好,突出了猫的姿势和整个场景。然而,虽然图像非常详细和准确,但可能缺乏 Midjourney 生成的特写镜头的魅力和表现力(后者以美观为重,而非准确度)。

我们的排名:

  1. Flux:准确捕捉到了全身照、灰色工作室背景和指定的服装。构图专业而精致,完全符合提示的要求。
  2. Midjourney:呈现了迷人而详细的特写镜头,但错过了全身照和工作室背景等关键要素。虽然视觉上吸引人,但偏离了提示的具体要求。

结论

我们对 Flux 的表现感到惊喜,它在我们所有的测试中都名列前茅。它的“Pro”版本绝对提供了高质量的结果,并且可以成为 Midjourney 和其他付费选项的良好竞争者。它需要更丰富的提示,但结果非常准确、真实,并忠实于提示的要求。

对于愿意为优质图像生成器付费的人来说,Flux Pro 似乎是最具价值的选择。 “Dev” 和 “Schnell” 版本比基础的 SD3 Medium 和 Auraflow 更好,因此即使在开源空间中,Flux 也是一个相当强大的竞争对手。

Flux 渲染人体比 SD3 好,这是一个需要考虑的重要因素。然而,对于显卡性能较低的人来说,他们可能可以使用 SD3,甚至是经过优化的 SDXL 版本,因为像 Auraflow 或 Flux 这样的新模型非常耗费资源。

值得注意的是,Replicate 平台已经实现了一个“安全”滑块,我们可以确认该模型对于关心隐私的人来说在一定程度上是未经审查的。哦,而且女性也可以再次躺在草地上

Ryan Ozawa 编辑。

免责声明:本文章仅代表作者个人观点,不代表本平台的立场和观点。本文章仅供信息分享,不构成对任何人的任何投资建议。用户与作者之间的任何争议,与本平台无关。如网页中刊载的文章或图片涉及侵权,请提供相关的权利证明和身份证明发送邮件到support@aicoin.com,本平台相关工作人员将会进行核查。

分享至:
APP下载

X

Telegram

Facebook

Reddit

复制链接