辉煌:想要统治动漫艺术生成的AI模型

CN
Decrypt
关注
14小时前

Illustrious 是一个基于 Stable Diffusion XL 的文本到图像模型,在 AI 艺术社区中变得如此主导,以至于 Civitai(最大的 AI 艺术模型中心)不得不创建一个单独的类别来处理其庞大的资源生态系统。

这一切都发生在三个月内。它成功的秘密?回归基础并加以改进。

虽然像 SD 3.5 和 Flux 这样的新模型依赖于冗长的自然语言描述,Onoma AI,Illustrious 的开发者,采取了不同的方法,通过利用 Danbooru 标签 来帮助他们的模型理解概念,而不必通过复杂的标题系统重新发明轮子。

该模型在 Danbooru 的庞大标记动漫图像库上进行训练,使其在理解视觉概念方面具有优势。

Danbooru 系统中的每个标签代表特定元素,如角色特征、服装、姿势或背景,从而允许对生成的图像进行精确控制,而不必在冗长的描述上浪费宝贵的标记。

这些标签已经存在多年,并已成为艺术/动漫爱好者之间图像分类的标准。

该模型在理解照片特征方面非常准确和高效。

“这就像有一个艺术家完全理解你想要的,而不必用段落来解释,”一位参与 NSFW AI 内容服务器的 Discord 成员 Vishnu 告诉 Decrypt。“你只需要知道正确的标签。”

从本质上讲,Illustrious 使用了经典的 SDXL 架构,配备了复杂的双编码器系统,结合了 CLIP ViT-L 和 OpenCLIP ViT-bigG,以理解单词并将其与视觉等价物关联。

该模型能够以令人印象深刻的 1536×1536 分辨率处理和生成图像,能够扩展到 2048×2048 甚至 3744x3744,而不会显著损失质量。

作为参考,原始的 SDXL 处理全高清分辨率(1024x1024)。

深入探讨

创建 Illustrious 的过程是有条不紊且深思熟虑的。初始训练阶段产生了版本 0.1,处理了 750 万张 1024×1024 分辨率的图像,每批次 192 张图像。

团队仔细平衡学习率,运行了 20 个周期(AI 学习其数据集 100% 的过程),以建立坚实的基础。一旦结果令人满意,团队便开始增加数据集的大小和下一次迭代所使用的分辨率。

在高级训练阶段,Illustrious 真正开始闪耀。版本 1.0 将数据集扩展到 1000 万张图像,并将分辨率提升至 1536×1536。

尽管他们将批次大小减少到 128,但引入了复杂的标签操作策略和注册标记,这些根本性的变化定义了模型的卓越性能。

版本 2.0 的最终精炼阶段更进一步。使用 2000 万张图像在相同的高分辨率下,但批次大小增大到 512,团队采用了多标题方法,显著改善了文本与图像的对应关系。

最终结果是人类已知的最佳 waifu 生成器,具有良好的微调能力、提示遵循、不错的美学和高质量的输出。

对于更懂技术的用户,Illustrious 的开发者还引入了 许多有趣的技术,例如“无丢弃标记”方法,确保特定标记在训练过程中不会被排除;实施准注册标记,使模型能够处理未知或奇怪的概念;余弦退火调度器,用于学习率;多级丢弃系统和输入扰动噪声增强,将一个简单的 AI 模型转变为强大的工具。

如何使用 Illustrious

Illustrious 不需要任何额外步骤即可运行。

安装过程与其他 SDXL 模型相同。下载检查点并将其放入相应的文件夹,具体取决于您使用的 UI。

Windows 和 Linux

  • 对于 ComfyUI,路径是 \models\checkpoints。

  • 对于 A1111/Forge,路径是 /models/Stable-diffusion。

  • 对于 Fooocus,路径也是 \models\checkpoints。

MacOS

Mac 用户的路径类似。然而,一些流行的 macOS 定向 UI 需要额外的步骤。

  • Draw Things 用户需要点击“模型”,进入“自定义”,然后点击“导入模型”。

  • 从那里,他们可以输入 URL 直接下载 Illustrious,或者点击“导入自定义模型”以选择文件,如果他们下载了模型并将其保存在本地驱动器上。

  • Diffusion Bee 的用户必须点击右上角的汉堡图标,然后点击“设置”,接着点击“添加新模型”,并选择他们本地下载的 Illustrious 检查点。

一旦模型加载完成,有三件事需要考虑。

  • 不要使用自然语言。记得依赖 Danbooru 标签,并坚持使用旧的 SDXL 提示风格以获得更好的结果。

  • 不要使用 Pony LoRas。由于该模型使用不同的方法,最好使用 Illustrious Loras 以获得最佳结果。

  • 尽量不要使用原始的 Illustrious 模型,而是选择一些最受欢迎的微调模型。原始的 Illustrious 模型是基础模型,适合专注于您想要实现的结果的微调。这与 SDXL、Pony 或 Flux 相同。微调通常会产生更好的结果。

最佳 Illustrious 模型选择

有许多模型可供选择,所有模型都专注于不同的风格、美学和特征。

甚至还有一些通用模型,例如 Noob AI 的模型,它们以 Illustrious 为基础,并被微调者用于构建他们的模型。

然而,以下是我们针对不同需求的最佳推荐。这些模型在提示理解、输出质量和易用性方面表现出色。所有样本均来自 Civit AI 社区,并且是无版权的。

最佳多功能性:Mistoon_Anime

链接:Mistoon_Anime - v1.0 Illustrious | Illustrious Checkpoint | Civitai

最佳 2.5D:Smooth Mix - Illustrious — 警告!非常 NSFW 取向

链接:Smooth Mix - Illustrious | Pony - Illustrious | Illustrious Checkpoint | Civitai

最佳艺术和插图:NTR Mix

链接:NTR MIX | illustrious-XL | Noob-XL - XIII | Illustrious Checkpoint | Civitai

最佳现实主义:THRILLustrious

链接:THRILLustrious - v5.0 THRILLed | Illustrious Checkpoint | Civitai

编辑:Sebastian SinclairJosh Quittner

免责声明:本文章仅代表作者个人观点,不代表本平台的立场和观点。本文章仅供信息分享,不构成对任何人的任何投资建议。用户与作者之间的任何争议,与本平台无关。如网页中刊载的文章或图片涉及侵权,请提供相关的权利证明和身份证明发送邮件到support@aicoin.com,本平台相关工作人员将会进行核查。

分享至:
APP下载

X

Telegram

Facebook

Reddit

复制链接