OpenAI 正在将图像生成能力直接集成到 ChatGPT 中,使用户能够在不离开聊天界面的情况下创建图像。
该公司在 周二 宣布了这一功能,作为其更广泛推动 AI 工具在不同媒体中更有用和可访问的努力的一部分,以保持在 AI 艺术领域的相关性。
该功能是 DALL·E 3 的演变,DALL·E 3 是 OpenAI 的图像生成器, 于 2023 年 9 月推出,但在 AI 爱好者中失宠,他们更喜欢下一代模型,包括 Flux、MidJourney v6、SD 3.5、Recraft 和 Reve。
在此次发布之前,OpenAI 在同一平台上提供了两种不同的模型,GPT 生成文本,而 DALL·E 3 处理图像生成。
现在,GPT-4o 将独立完成所有任务,而 DALL·E 3 将消失。
“GPT‑4o 图像生成在准确渲染文本、精确遵循提示以及利用 4o 的固有知识库和聊天上下文方面表现出色——包括转换上传的图像或将其用作视觉灵感,”OpenAI 在一篇 官方博客文章 中声称。
DALL·E 3 的集成继续兑现公司将 GPT-4o 打造成“全能”模型的计划,该模型经过多模态数据训练,能够处理所有任务。其结果是一个比其前身更强大、更准确和更智能的模型。
“我们知道我们让你们等了,但我们认为这真的值得,我们认为你们会喜欢它,”OpenAI 首席执行官 Sam Altman 在展示 GPT-4o 新功能的视频中说道。“这是一个巨大的进步,最好的解释方式就是直接展示给你们看。”
在视频中,公司展示了系统的能力,包括几个示例,如解释相对论的漫画页面——输入为英语和普通话——基于个人和真实照片的定制交易卡、结合多张图像和透明背景的纪念币,以及基于极其详细的提示生成的非常准确的图像。
该模型在生成图像时速度较慢,但似乎非常准确。Altman 指出显著的质量升级值得更长的等待时间。
“图像生成的速度比我们之前的图像生成(模型)慢得多,但质量不可思议地更好。我们认为这绝对值得等待,”Altman 在演示中说道。“我们也将能够随着时间的推移使其变得更快。”
这一推出似乎是逐步进行的,截至发稿时我们尚未能够使用新模型。
用户可以根据图像的显示方式判断他们正在使用哪个系统:除了明显的质量差距,DALL·E 3 的图像在加载屏幕后完全形成,而新的 GPT-4o 则实时从上到下逐步渲染图像。
公司强调,这项技术不仅限于创建华丽的图像。
“这次发布真正令人兴奋的是,现在这些模型实际上可以可视化它们所知道的内容,并以视觉方式外化,”OpenAI 的一位研究科学家解释道,Sam Altman 邀请他谈论这一新功能。
这一能力允许进行教育应用,如详细的科学图表或准确渲染文本的信息海报,甚至可以进行主题一致的图像编辑。
OpenAI 还 实施了保护措施,以防止生成深度伪造、非法内容和去除水印。
生成的图像虽然没有可见的水印,但将包含 C2PA 元数据,以识别它们为 AI 创建的。该公司还在开发工具以追踪图像的来源。
该公司计划将此功能引入其 API,允许开发者将该技术集成到他们自己的应用程序中。OpenAI 的 使用条款 还表示,用户将保留他们生成的图像的所有权,但需遵循公司的使用政策。
编辑:Sebastian Sinclair 和 Josh Quittner
免责声明:本文章仅代表作者个人观点,不代表本平台的立场和观点。本文章仅供信息分享,不构成对任何人的任何投资建议。用户与作者之间的任何争议,与本平台无关。如网页中刊载的文章或图片涉及侵权,请提供相关的权利证明和身份证明发送邮件到support@aicoin.com,本平台相关工作人员将会进行核查。