在人工智能前沿的主导竞争中又出现了一个情节转折——这一次,它会回应你,注视你,甚至可能带着情感倾听。
OpenAI今天推出了其新的“o”系列模型,介绍了GPT-4o及其轻量级表亲GPT-4o-mini(即o4和o3)。这些新模型不仅仅是调优过的聊天机器人——它们是全模态的,意味着它们可以原生理解和生成文本、图像、音频和视频。没有拼凑在一起的弗兰肯斯坦模块来伪装视觉素养。
这实际上是拥有眼睛、耳朵和嘴巴的人工智能。
一个模型统治所有?
OpenAI表示,“o”代表“全能”,其含义正如你所预期的那样:一个统一的模型,可以接收屏幕截图,听到你的声音颤抖,并实时输出情感调校的回复。这是未来的第一个真实暗示,人工智能助手不仅仅在你的手机里——它们就是你的手机。
o3(迷你)版本旨在追求速度和经济性,性能接近Claude Haiku或一台运转良好的Mistral,但仍保留了完整的多模态超级能力。同时,o4(全功能GPT-4o)则直指大联盟,功率与GPT-4-turbo相匹配,但在处理图像和音频时如同在轻松玩一轮猜词游戏。
而且不仅仅是速度。这些模型的运行成本更低,部署效率更高,并且——这里是关键——可以在设备上原生运行。没错:实时、多模态的人工智能,没有云端的延迟。想象一下,个人助手不仅仅是听从命令,而是像伴侣一样回应。
超越聊天机器人:进入代理时代
通过此次发布,OpenAI正在为人工智能的代理层奠定基础——那些比聪明更聪明的助手,不仅会说话和写作,还会观察、行动并自主处理任务。
想让你的人工智能解析一条Twitter线程,生成一张图表,起草一条推文,并在Discord上用一个自鸣得意的表情包宣布?这不仅触手可及。它几乎就在你的桌子上——戴着单片眼镜,喝着浓缩咖啡,用悦耳的低音纠正你的语法。
o系列模型旨在为从实时语音机器人到增强现实眼镜提供动力,暗示了“人工智能优先”硬件运动的到来,这让科技的老牌公司(和新兴公司)感到紧张。正如iPhone重新定义了移动设备,这些模型是人工智能原生接口时代的开始。
OpenAI与其他竞争者
这一切并不是在真空中发生的。谷歌的Gemini正在进化。Anthropic的Claude正在超越其能力范围。Meta在实验室里有一只Llama。但OpenAI的o系列可能做到了其他公司尚未实现的事情:在单一模型中实现实时、统一的多模态流畅性。
这可能是OpenAI对不可避免的硬件的回应。无论是通过苹果传闻中的人工智能合作,还是其自己的“乔尼·艾夫隐秘模式”项目,OpenAI正在为一个人工智能不仅仅是一个应用程序的世界做准备——它是操作系统。
免责声明:本文章仅代表作者个人观点,不代表本平台的立场和观点。本文章仅供信息分享,不构成对任何人的任何投资建议。用户与作者之间的任何争议,与本平台无关。如网页中刊载的文章或图片涉及侵权,请提供相关的权利证明和身份证明发送邮件到support@aicoin.com,本平台相关工作人员将会进行核查。