OpenAI推出GPT-4o的新图像生成功能到ChatGPT，显示出“令人难以置信的更好”结果

OpenAI 正在将图像生成能力直接集成到 ChatGPT 中，使用户能够在不离开聊天界面的情况下创建图像。

该公司在周二宣布了这一功能，作为其更广泛推动 AI 工具在不同媒体中更有用和可访问的努力的一部分，以保持在 AI 艺术领域的相关性。

该功能是 DALL·E 3 的演变，DALL·E 3 是 OpenAI 的图像生成器，于 2023 年 9 月推出，但在 AI 爱好者中失宠，他们更喜欢下一代模型，包括 Flux、MidJourney v6、SD 3.5、Recraft 和 Reve。

在此次发布之前，OpenAI 在同一平台上提供了两种不同的模型，GPT 生成文本，而 DALL·E 3 处理图像生成。

现在，GPT-4o 将独立完成所有任务，而 DALL·E 3 将消失。

“GPT‑4o 图像生成在准确渲染文本、精确遵循提示以及利用 4o 的固有知识库和聊天上下文方面表现出色——包括转换上传的图像或将其用作视觉灵感，”OpenAI 在一篇官方博客文章中声称。

DALL·E 3 的集成继续兑现公司将 GPT-4o 打造成“全能”模型的计划，该模型经过多模态数据训练，能够处理所有任务。其结果是一个比其前身更强大、更准确和更智能的模型。

“我们知道我们让你们等了，但我们认为这真的值得，我们认为你们会喜欢它，”OpenAI 首席执行官 Sam Altman 在展示 GPT-4o 新功能的视频中说道。“这是一个巨大的进步，最好的解释方式就是直接展示给你们看。”

在视频中，公司展示了系统的能力，包括几个示例，如解释相对论的漫画页面——输入为英语和普通话——基于个人和真实照片的定制交易卡、结合多张图像和透明背景的纪念币，以及基于极其详细的提示生成的非常准确的图像。

该模型在生成图像时速度较慢，但似乎非常准确。Altman 指出显著的质量升级值得更长的等待时间。

“图像生成的速度比我们之前的图像生成（模型）慢得多，但质量不可思议地更好。我们认为这绝对值得等待，”Altman 在演示中说道。“我们也将能够随着时间的推移使其变得更快。”

这一推出似乎是逐步进行的，截至发稿时我们尚未能够使用新模型。

用户可以根据图像的显示方式判断他们正在使用哪个系统：除了明显的质量差距，DALL·E 3 的图像在加载屏幕后完全形成，而新的 GPT-4o 则实时从上到下逐步渲染图像。

公司强调，这项技术不仅限于创建华丽的图像。

“这次发布真正令人兴奋的是，现在这些模型实际上可以可视化它们所知道的内容，并以视觉方式外化，”OpenAI 的一位研究科学家解释道，Sam Altman 邀请他谈论这一新功能。

这一能力允许进行教育应用，如详细的科学图表或准确渲染文本的信息海报，甚至可以进行主题一致的图像编辑。

OpenAI 还实施了保护措施，以防止生成深度伪造、非法内容和去除水印。

生成的图像虽然没有可见的水印，但将包含 C2PA 元数据，以识别它们为 AI 创建的。该公司还在开发工具以追踪图像的来源。

该公司计划将此功能引入其 API，允许开发者将该技术集成到他们自己的应用程序中。OpenAI 的使用条款还表示，用户将保留他们生成的图像的所有权，但需遵循公司的使用政策。

免责声明：本文章仅代表作者个人观点，不代表本平台的立场和观点。本文章仅供信息分享，不构成对任何人的任何投资建议。用户与作者之间的任何争议，与本平台无关。如网页中刊载的文章或图片涉及侵权，请提供相关的权利证明和身份证明发送邮件到support@aicoin.com，本平台相关工作人员将会进行核查。

Decrypt的精选文章