Nari Labs 发布了 Dia-1.6B,这是一个开源的文本转语音模型,声称在生成情感表达的语音方面超越了 ElevenLabs 和 Sesame 等成熟竞争者。该模型非常小巧——仅有 16 亿个参数——但仍然能够创建包含笑声、咳嗽和情感语调的真实对话。
它甚至可以恐惧地尖叫。
虽然这听起来可能不是一个巨大的技术成就,但连 OpenAI 的 ChatGPT 也对此感到困惑:“我不能尖叫,但我绝对可以大声说话,”当被问及时,它的聊天机器人这样回答。
现在,一些 AI 模型可以尖叫,如果你要求它们的话。但这并不是自然而然或有机发生的事情,而显然,Dia-1.6B 的超能力就在于它理解在某些情况下尖叫是合适的。
Nari 的模型在单个 GPU 上实时运行,配备 10GB 的 VRAM,在 Nvidia A4000 上处理约 40 个标记每秒。与更大的闭源替代品不同,Dia-1.6B 在 Hugging Face 和 GitHub 仓库下以 Apache 2.0 许可证免费提供。
“Nari Labs 的联合创始人 Toby Kim 在 X 上发布,宣布该模型时表示:‘一个荒谬的目标:构建一个与 NotebookLM Podcast、ElevenLabs Studio 和 Sesame CSM 相媲美的 TTS 模型。我们不知怎么做到的。’并排比较显示,Dia 在处理标准对话和非语言表达方面优于竞争对手,后者往往会扁平化表达或完全跳过非语言标签。
情感 AI 的竞赛
AI 平台越来越专注于使其文本转语音模型表现出情感,解决人机交互中缺失的元素。然而,它们并不完美,大多数模型——无论是开源还是闭源——往往会产生一种令人不安的谷效应,从而降低用户体验。
我们已经 尝试并比较 了一些专注于情感语音这一特定主题的平台,大多数平台都相当不错,只要用户进入正确的心态并了解其局限性。然而,这项技术仍然远未令人信服。
为了解决这个问题,研究人员正在采用各种技术。一些人使用带有 情感标签 的数据集训练模型,使 AI 能够学习与不同情感状态相关的声学模式。其他人则使用深度神经网络和大型语言模型来 分析上下文线索,以生成适当的情感语调。
ElevenLabs 作为市场领导者之一,试图直接从文本输入中解释情感上下文,关注语言线索、句子结构和标点符号,以推断适当的情感语调。其旗舰模型 Eleven Multilingual v2 以其在 29 种语言中丰富的情感表达而闻名。
与此同时,OpenAI 最近推出了 "gpt-4o-mini-tts",具有可定制的情感表达。在演示中,该公司强调了在客户支持场景中指定“道歉”等情感的能力,定价为每分钟 1.5 美分,以便开发者能够使用。其最先进的高级语音模式擅长模仿人类情感,但过于夸张和热情,以至于在我们的测试中无法与 Hume 等其他替代品竞争。
Dia-1.6B 潜在的突破在于它如何处理非语言交流。该模型可以在特定文本提示(如“(laughs)”或“(coughs)”)触发时合成笑声、咳嗽和清喉咙的声音——为标准 TTS 输出中常常缺失的真实感增添了一层。
除了 Dia-1.6B,其他值得注意的开源项目包括 EmotiVoice——一个支持情感作为可控风格因素的多语音 TTS 引擎——以及以超低延迟和逼真的情感表达而闻名的 Orpheus。
成为人类是困难的
但为什么情感语音如此困难?毕竟,AI 模型 早就不再听起来像机器人 了。
嗯,看来自然性和情感性是两种不同的事物。一个模型可以听起来像人类,拥有流畅、令人信服的语调,但在传达超出简单叙述的情感时却完全失败。
“在我看来,情感语音合成之所以困难,是因为它所依赖的数据缺乏情感的细致度。大多数训练数据集捕捉到的语音是干净且易懂的,但并不深刻表达情感,”AI 视频生成公司 RiseAngle 的首席执行官 Kaveh Vahdat 告诉 Decrypt。“情感不仅仅是语调或音量;它是上下文、节奏、紧张和犹豫。这些特征往往是隐含的,且很少以机器可以学习的方式标记。”
“即使使用情感标签,它们往往也会将真实人类情感的复杂性简化为‘快乐’或‘愤怒’等广泛类别,这与情感在语音中的实际运作相去甚远,”Vahdat 争辩道。
我们尝试了 Dia,它实际上足够好。它每秒生成约一秒的音频,并且确实传达了音调情感,但过于夸张,以至于听起来不自然。这是整个问题的关键——模型缺乏如此多的上下文意识,以至于很难在没有额外提示的情况下孤立出单一情感,并使其足够连贯,以便人类真正相信它是自然互动的一部分。
“令人不安的谷效应”带来了特别的挑战,因为合成语音无法仅通过采用更情感化的语调来弥补中性机器人的声音。
而且还有更多的技术障碍。AI 系统在测试未包含在其训练数据中的说话者时,往往表现不佳,这个问题被称为说话者独立实验中的低分类准确率。实时处理情感语音需要大量计算能力,限制了在消费设备上的部署。
数据质量和偏见也构成了重大障碍。训练 AI 进行情感语音需要大型、多样化的数据集,以捕捉不同人口统计、语言和上下文中的情感。针对特定群体训练的系统在其他群体中可能表现不佳——例如,主要基于白人语音模式训练的 AI 可能在其他人口统计中表现不佳。
或许最根本的是,一些研究人员 认为 AI 由于缺乏意识,无法真正模仿人类情感。虽然 AI 可以基于模式模拟情感,但它缺乏人类在情感互动中所带来的生活经验和同理心。
看来,成为人类比看起来更难。抱歉,ChatGPT。
免责声明:本文章仅代表作者个人观点,不代表本平台的立场和观点。本文章仅供信息分享,不构成对任何人的任何投资建议。用户与作者之间的任何争议,与本平台无关。如网页中刊载的文章或图片涉及侵权,请提供相关的权利证明和身份证明发送邮件到support@aicoin.com,本平台相关工作人员将会进行核查。