比 DeepSeek 更快?腾讯重燃 AI 战争,推出 Hunyuan Turbo S

CN
Decrypt
關注
6 小時前

中国科技公司腾讯刚刚推出了其最新的大型语言模型——混元Turbo S,具有显著更快的响应时间,同时在复杂推理任务上没有牺牲性能。

腾讯声称,根据这家中国科技巨头在微博上分享的官方信息,其新AI的单词生成速度是之前模型的两倍,首个单词的延迟减少了44%。

该模型使用了一种看似结合了Mamba和Transformer技术的混合架构——这是在超大规模专家混合(MoE)模型中首次成功整合这两种方法。

这种技术融合旨在解决困扰AI发展的根本问题:Mamba高效处理长序列,而Transformer捕捉复杂上下文,可能降低训练和推理成本。混合的特性意味着该模型将推理能力与传统的正常LLM的即时响应方法相结合。

“快速思维与慢速思维的结合与互补,可以使大型模型更智能、更高效地解决问题,”腾讯在其官方微信频道上宣布该模型时写道。公司从人类认知过程中汲取灵感,设计混元Turbo S以提供类似人类直觉的即时响应,同时保持解决复杂问题所需的分析推理能力。

性能基准测试显示,混元Turbo S在各种测试中与顶级模型相匹配或超越。它在MMLU上得分89.5,略高于OpenAI的GPT-4o,并在数学推理基准MATH和AIME2024中取得了最高分。在中文语言任务中,它在Chinese-SimpleQA上达到了70.8,超越了DeepSeek的68.0。然而,在一些领域如SimpleQA和LiveCodeBench中,它落后于GPT-4o和Claude 3.5。


图片:腾讯

此次发布加剧了中国和美国科技公司之间的AI竞争。DeepSeek是一家因其高性价比、高性能模型而受到关注的中国初创公司,正在对中国科技巨头和OpenAI等美国公司施加压力。

据报道,DeepSeek的模型训练成本约为600万美元,运行成本极低,每百万个输出标记收费约1.10美元,而OpenAI的GPT-4.5则高达每百万输出标记150美元的昂贵费用。150美元每百万输出标记

腾讯将混元Turbo S的定价设定为每百万个输入标记0.8元(约合0.11美元),每百万个输出标记2元(0.28美元)——显著低于之前的Turbo模型。该模型在技术上通过腾讯云的API可用,公司提供为期一周的免费试用,但仍未对公众开放下载。

尽管已宣布,混元Turbo S尚未广泛提供下载,但可以通过Tencent Ingot Experience网站访问。有兴趣的开发者和企业需要通过腾讯云加入等待名单以获得该模型API的访问权限。公司尚未提供通过Github的普遍可用时间表。

该模型对速度的关注使其非常适合实时应用,如虚拟助手和客户服务机器人——这些领域在中国非常受欢迎,如果混元Turbo S能够兑现其承诺的能力,将提供显著的优势。

中国的AI领域竞争持续加剧,政府推动更多本地模型的采用。除了腾讯,阿里巴巴最近推出了其最新的尖端模型Qwen 2.5 Max,而像DeepSeek这样的初创公司在最近几个月发布了越来越强大的模型。

编辑:Andrew Hayward

免责声明:本文章仅代表作者个人观点,不代表本平台的立场和观点。本文章仅供信息分享,不构成对任何人的任何投资建议。用户与作者之间的任何争议,与本平台无关。如网页中刊载的文章或图片涉及侵权,请提供相关的权利证明和身份证明发送邮件到support@aicoin.com,本平台相关工作人员将会进行核查。

分享至:
APP下載

X

Telegram

Facebook

Reddit

複製鏈接