当Flux突然出现在舞台上几天前,它迅速赢得了开源图像生成器的桂冠声誉。它在美学造诣上与Midjourney相匹敌,同时在提示理解和文本生成方面表现出色。但问题是?你需要一台配备超过24GB VRAM(甚至更多)的强大GPU才能运行它。这比大多数游戏电脑的性能还要强大,更不用说普通的工作笔记本了。
但AI社区从不退缩,他们集思广益,开始着手解决问题。通过量化的魔法——一个用于压缩模型数据的花哨术语——他们设法将Flux缩小到一个更易管理的大小,而不会牺牲太多艺术魅力。
让我们来分解一下:原始的Flux模型使用了完整的32位精度(FP32),这就像开着一辆F1赛车去杂货店购物一样——对大多数人来说都太过了。第一轮优化带来了FP16和FP8版本,每个版本都在牺牲了一点精度的情况下大幅提高了效率。FP8版本已经是一个改变游戏规则的存在,让拥有6GB GPU(比如RTX 2060)的人也能加入这场盛会。
为了做到这一点,你需要禁用稳定扩散的系统内存回调,这样你的GPU就可以将一些工作从内部VRAM转移到系统内存中。这可以避免臭名昭著的OOM(内存不足)错误,尽管运行速度会大大降低。要禁用此选项,请参考Nvidia的这篇教程。
但请坚持住,因为情况会变得更好。
AI世界的真正MVP们进一步推动了技术的边界,发布了4位量化模型。这些家伙使用了称为“Normal Point”(NP)量化的技术,它提供了质量和速度的最佳平衡,让你的老旧电脑感觉就像刚刚获得了涡轮增压一样。NP量化不像FP量化那样降低质量,因此一般来说,运行这个模型可以获得出色的结果,速度快,资源消耗少。
这几乎太美好了,但它确实是真的。
使用Flux Dec在fp8和np4下获得的结果。相同的提示,不同的种子。
如何在低端GPU上运行Flux
那么,你到底如何运行这个精简版的Flux呢?首先,你需要获取一个像SwarmUI、ComfyUI或Forge这样的界面。我们喜欢ComfyUI因为它的多功能性,但在我们的测试中,Forge比其他界面提供了大约10-20%的速度提升,所以这就是我们选择的。
前往Forge GitHub存储库(https://github.com/lllyasviel/stable-diffusion-webui-forge)并下载一键安装包。这是开源的,并经过社区审核,所以没有可疑的行为。
对于NP4 Flux模型本身,Civit AI是你的一站式商店。你有两种选择:Schnell(速度)和Dex(质量)。都可以从这个页面下载。
一旦你下载好了一切,就是安装时间:
- 解压Forge文件并打开Forge文件夹。
- 运行update.bat以获取所有依赖项。
- 启动run.bat以完成设置。
现在,将这些闪亮的新Flux模型放入Forge安装中的\webui\models\Stable-diffusion文件夹中。刷新Forge Web界面(或者如果你喜欢老派的话,重新启动),然后你就可以开始使用了。
专业提示:为了真正挤出你的复活设备的最后一滴性能,降低分辨率。不要选择完整的SDXL(1024x1024)分辨率,尝试更适中的SD1.5尺寸(768x768,512x768等)。你可以随后进行放大,并使用Adetailer来处理那些脆脆的细节。
让我们来谈谈数字:在一台谦虚的配备6GB VRAM的RTX 2060上,Flux Schnell在NP4模式下可以在大约30秒内生成一个512x768的图像,而FP8版本需要107秒。想要更大吗?使用高分辨率修复,将那个图像放大到1536x1024大约需要五分钟。
想要大规模操作而不损坏你的GPU?一个更好的选择是从SD1.5分辨率的Flux Schnell开始,然后通过img2img发送该创作。使用标准的Stable Diffusion模型(SD1.5或SDXL)进行放大,降噪强度低。整个过程大约需要50秒,可以与MidJourney在低迟缓日子里的输出相媲美。你可以获得令人印象深刻的大规模结果,而不会烧毁你的显卡。
真正的亮点?一些疯狂的家伙据说已经让Flux Schnell NP4在配备3GB VRAM的GTX 1060上运行,Flux Dev每次迭代需要7.90秒。我们谈论的是一个几乎在生命支持下喘息的GPU,它正在生成尖端的AI艺术。对于几乎有资格领取养老金的硬件来说,这并不算太糟糕。
免责声明:本文章仅代表作者个人观点,不代表本平台的立场和观点。本文章仅供信息分享,不构成对任何人的任何投资建议。用户与作者之间的任何争议,与本平台无关。如网页中刊载的文章或图片涉及侵权,请提供相关的权利证明和身份证明发送邮件到support@aicoin.com,本平台相关工作人员将会进行核查。