OpenAI的新“o”系列是朝着多模态AI助手迈出的巨大一步

在人工智能前沿的主导竞争中又出现了一个情节转折——这一次，它会回应你，注视你，甚至可能带着情感倾听。

OpenAI今天推出了其新的“o”系列模型，介绍了GPT-4o及其轻量级表亲GPT-4o-mini（即o4和o3）。这些新模型不仅仅是调优过的聊天机器人——它们是全模态的，意味着它们可以原生理解和生成文本、图像、音频和视频。没有拼凑在一起的弗兰肯斯坦模块来伪装视觉素养。

这实际上是拥有眼睛、耳朵和嘴巴的人工智能。

OpenAI表示，“o”代表“全能”，其含义正如你所预期的那样：一个统一的模型，可以接收屏幕截图，听到你的声音颤抖，并实时输出情感调校的回复。这是未来的第一个真实暗示，人工智能助手不仅仅在你的手机里——它们就是你的手机。

o3（迷你）版本旨在追求速度和经济性，性能接近Claude Haiku或一台运转良好的Mistral，但仍保留了完整的多模态超级能力。同时，o4（全功能GPT-4o）则直指大联盟，功率与GPT-4-turbo相匹配，但在处理图像和音频时如同在轻松玩一轮猜词游戏。

而且不仅仅是速度。这些模型的运行成本更低，部署效率更高，并且——这里是关键——可以在设备上原生运行。没错：实时、多模态的人工智能，没有云端的延迟。想象一下，个人助手不仅仅是听从命令，而是像伴侣一样回应。

通过此次发布，OpenAI正在为人工智能的代理层奠定基础——那些比聪明更聪明的助手，不仅会说话和写作，还会观察、行动并自主处理任务。

想让你的人工智能解析一条Twitter线程，生成一张图表，起草一条推文，并在Discord上用一个自鸣得意的表情包宣布？这不仅触手可及。它几乎就在你的桌子上——戴着单片眼镜，喝着浓缩咖啡，用悦耳的低音纠正你的语法。

o系列模型旨在为从实时语音机器人到增强现实眼镜提供动力，暗示了“人工智能优先”硬件运动的到来，这让科技的老牌公司（和新兴公司）感到紧张。正如iPhone重新定义了移动设备，这些模型是人工智能原生接口时代的开始。

这一切并不是在真空中发生的。谷歌的Gemini正在进化。Anthropic的Claude正在超越其能力范围。Meta在实验室里有一只Llama。但OpenAI的o系列可能做到了其他公司尚未实现的事情：在单一模型中实现实时、统一的多模态流畅性。

这可能是OpenAI对不可避免的硬件的回应。无论是通过苹果传闻中的人工智能合作，还是其自己的“乔尼·艾夫隐秘模式”项目，OpenAI正在为一个人工智能不仅仅是一个应用程序的世界做准备——它是操作系统。

免责声明：本文章仅代表作者个人观点，不代表本平台的立场和观点。本文章仅供信息分享，不构成对任何人的任何投资建议。用户与作者之间的任何争议，与本平台无关。如网页中刊载的文章或图片涉及侵权，请提供相关的权利证明和身份证明发送邮件到support@aicoin.com，本平台相关工作人员将会进行核查。

Decrypt的精选文章