OpenAI推出了先进的语音模式,不再有斯嘉丽·约翰逊的戏剧性事件。

CN
Decrypt
关注
1年前

OpenAI已经开始推出备受期待的ChatGPT Plus和Teams用户的高级语音模式,标志着迈向更具人类化AI互动的又一步。

该功能允许由OpenAI最新模型GPT-4o提供支持的实时流畅对话,该模型结合了文本、视觉和音频,以提供更快的响应。

“高级语音将在本周内逐步推出到ChatGPT应用的所有Plus和Team用户中,”OpenAI在一条官方推文中表示,“它还可以用50多种语言说‘对不起,我迟到了’,”它补充道,解决了该项目长时间的延迟。

不用说,一个显著的元素仍然缺失:那就是风情万种、绝对太过人类化的"Sky" voice,该声音因与女演员斯嘉丽·约翰逊的惊人相似而引起轰动。在她的法律团队致函OpenAI首席执行官萨姆·奥尔特曼后,OpenAI 暂停了Sky voice,坚称约翰逊独特声音与Sky之间的任何相似之处纯属巧合。

相反,OpenAI推出了五种新声音:Arbor、Maple、Sol、Spruce和Vale,它们在标准和高级语音模式中都可用。这些声音加入了之前可用的Breeze、Juniper、Cove和Ember。(出于某种原因,该公司似乎将它们命名为肥皂香味。)Plus和Team层级的用户将逐渐获得对这些新声音的访问权限,这些声音旨在使对话更加自然,具有情感响应能力,并能够随时打断和转换话题。

此外,OpenAI正在添加与自定义指令和“记忆”兼容的功能,以允许用户进一步个性化其ChatGPT体验,定制互动以符合其偏好。就像基于文本的聊天机器人从您的指令(即您的姓名、职业,以及您喜欢阅读的答案类型)中学习一样,新声音将尝试从您的对话中学习,使它们更加自然、熟悉,并且符合您的偏好。

欧盟、英国、瑞士、冰岛、挪威和列支敦士登的用户将不得不等待,因为该功能尚未在这些地区推出。企业和教育用户可以根据OpenAI的时间表预计从下周开始获得访问权限。推出速度较慢,即使是来自受支持地区的用户,也并非所有用户都可以使用该功能。

OpenAI还改进了流行外语的口音,并增强了对话速度和流畅度。设计也已更新,现在有一个动画的蓝色球体,用于在发生语音互动时进行视觉呈现,比起他们以前使用的极简黑点更具美感。


图片:OpenAI

尽管OpenAI继续完善其语音AI产品,但该领域的竞争正在加剧。

谷歌的NotebookLM目前是拥有一些最接近人类的AI声音的产品,能够以非常逼真的方式模拟两个由AI生成的演讲者之间的整个辩论。

谷歌的AI工具可以处理高达一百万个数据标记,并让用户与之互动,Decrypt先前曾报道。一旦用户上传了一组特定的包含不同类型信息的文件,Notebook LM就可以生成长达10分钟的音频,其中两个AI讨论特定信息。结果几乎是非常逼真的。

除了谷歌,Meta也推出了自己的实时助手Meta AI,尽管它目前还没有广泛推出。该助手还能够与用户进行自然对话,流畅处理命令。其声音比大多数AI助手中通常看到的机器人声音更自然,但仍然有一些特征,比如语调和速度,使其可识别为AI生成。路透社报道称,Meta即将推出的聊天机器人将具有朱迪·丹奇和迈克尔·塞拉的人设。虽然不是斯嘉丽·约翰逊,但也不是无足轻重的存在。

Josh QuittnerSebastian Sinclair编辑

免责声明:本文章仅代表作者个人观点,不代表本平台的立场和观点。本文章仅供信息分享,不构成对任何人的任何投资建议。用户与作者之间的任何争议,与本平台无关。如网页中刊载的文章或图片涉及侵权,请提供相关的权利证明和身份证明发送邮件到support@aicoin.com,本平台相关工作人员将会进行核查。

分享至:
APP下载

X

Telegram

Facebook

Reddit

复制链接