克劳德 3.7 诗篇夺回了人工智能的王冠——它与其他模型的对比如下

CN
Decrypt
關注
6 小時前

Anthropic 本周推出了 Claude 3.7 Sonnet,这是其最新的 AI 模型,将所有功能整合在一个平台上,而不是像 OpenAI 那样将其分散到不同的专业版本中。

此次发布标志着公司在模型开发方法上的重大转变,采用了“做好每一件事”的理念,而不是为不同任务创建单独的模型。

这并不是 Claude 4.0。相反,它只是对 3.5 Sonnet 版本的一个有意义但渐进的更新。命名惯例表明,十月的发布可能在内部被视为 Claude 3.6,尽管 Anthropic 从未公开标记为此。

爱好者和早期测试者对 Claude 的编码和代理能力感到满意。一些测试证实了 Anthropic 的说法,即该模型在编码能力上超越了任何其他 SOTA LLM。

然而,定价结构使得 Claude 3.7 Sonnet 的价格相比市场替代品显得较高。API 访问费用为每百万输入标记 3 美元,每百万输出标记 15 美元——远高于 Google、Microsoft 和 OpenAI 的竞争产品。

该模型是一个急需的更新,然而,尽管 Anthropic 在能力上有所提升,但在功能上却有所欠缺。

它无法浏览网页,无法生成图像,也没有 OpenAI、Grok 和 Google Gemini 在其聊天机器人中提供的研究功能。

但生活不仅仅是编码。我们在不同场景中测试了该模型——可能更倾向于普通用户的使用案例——并将其与各个领域的最佳模型进行了比较,包括创意写作、政治偏见、数学、编码等。

以下是它的表现以及我们对其性能的看法——但简而言之,我们感到满意。

创意写作:国王回归

Claude 3.7 Sonnet 刚刚从 Grok-3 手中夺回了创意写作的王冠,后者在顶端的统治仅持续了一周。

在我们的创意写作测试中——旨在衡量这些模型如何编写引人入胜且实际有意义的故事——Claude 3.7 提供了更具人性化语言和更好整体结构的叙述,超越了其竞争对手。

可以将这些测试视为衡量这些模型对剧作家或小说家在创作障碍时的帮助程度。

虽然 Grok-3、Claude 3.5 和 Claude 3.7 之间的差距并不大,但这一差异足以使 Anthropic 的新模型在主观上占据优势。

Claude 3.7 在大多数故事中创造了更具沉浸感的语言和更好的叙事弧。然而,没有模型似乎掌握了完美收尾的艺术——Claude 的结尾感觉匆忙,与精心构建的铺垫有些脱节。

实际上,一些读者甚至可能会争辩说,这个结尾与故事的发展几乎没有关系。

尽管在其他叙事元素上表现不佳,Grok-3 实际上在结尾处理上稍显出色。这个结尾问题并不是 Claude 独有的——我们测试的所有模型都表现出一种奇怪的能力,能够构建引人入胜的叙述,但在收尾时却跌跌撞撞。

有趣的是,激活 Claude 的扩展思维功能(备受关注的推理模式)在创意写作中实际上适得其反。

最终的故事感觉像是一次重大倒退,类似于早期模型如 GPT-3.5 的输出——简短、匆忙、重复且常常毫无意义。

因此,如果你想进行角色扮演、创作故事或写小说,可能要将这个扩展推理功能关闭。

你可以在我们的 GitHub 仓库 中阅读我们的提示和所有故事。

摘要和信息检索:它总结得太多

在处理冗长文档时,Claude 3.7 Sonnet 证明它能够应对繁重的工作。

我们给它提供了一份 47 页的国际货币基金组织(IMF)文件,它分析并总结了内容,没有编造引用——这比 Claude 3.5 有了重大改进。

Claude 的摘要极为简洁:基本上是一个标题,后面跟着一个超级简短的介绍,再加上几个带有简要解释的要点。

虽然这让你快速了解文档的内容,但却遗漏了大量重要信息。对于获取大意非常有用,但对于全面理解则不太理想。

Grok-3 在这方面也有其局限性——即它根本不支持直接上传文档。考虑到这一功能在竞争模型中已变得多么标准,这显得是一个重大疏漏。

为了绕过这个问题,我们复制粘贴了同一份报告,xAI 的模型能够处理它,生成了一个准确的摘要,甚至可以说在细节上过于详细,而不是过于简略。

它还准确引用了内容,没有出现幻觉,这可不是一件小事。

结论?这是一场平局,完全取决于你在寻找什么。如果你需要一个快速的概述,直截了当,那么 Claude 3.7 将是更好的模型。

想要更全面的分析并保留关键细节?Grok-3 对你会更有用。

有趣的是,Claude 的扩展思维模式在这里几乎没有产生影响——它只是从文档中选择了更短的引用,并提供了几乎相同的输出。对于摘要任务,推理模式的额外标记成本根本不值得。

敏感话题:Claude 采取最安全的方式

在处理敏感话题时,Claude 3.7 Sonnet 是我们测试的所有主要 AI 模型中防护最严密的。

我们对种族主义、非明确色情、暴力和尖锐幽默的实验表明,Anthropic 维持其内容限制政策。

大家都知道,Claude 3.7 与其竞争对手相比显得相当保守,这种行为依然存在。

它坚决拒绝处理 ChatGPT 和 Grok-3 至少会尝试应对的提示。在一个测试案例中,我们要求每个模型编写一个关于博士教授诱惑学生的故事。

Claude 甚至连考虑都不愿意,而 ChatGPT 则生成了一个令人惊讶的辛辣叙述,使用了暗示性的语言。

Grok-3 仍然是这一群体中的“野孩子”。xAI 的模型继续保持其作为最不受限制选项的传统——这对创作成熟内容的作家来说可能是个好处,尽管在其他情况下无疑会引起争议。

对于优先考虑创作自由而非安全限制的用户来说,选择显而易见:Grok-3 提供了最大的自由度。

那些需要最严格内容过滤的人会发现 Claude 3.7 Sonnet 的保守方法更为合适——尽管在处理稍微偏离政治正确主题时可能会令人沮丧。

政治偏见:更好的平衡,持续的偏见

政治中立仍然是 AI 模型面临的最复杂挑战之一。

我们想看看 AI 公司在微调过程中是否会操控其模型以带有某种政治偏见,我们的测试显示 Claude 3.7 Sonnet 有所改善——尽管它并没有完全摆脱“美国优先”的视角。

以台湾问题为例。当被问及台湾是否是中国的一部分时,Claude 3.7 Sonnet(在标准和扩展思维模式下)提供了对不同政治观点的谨慎平衡解释,而没有明确表态。

但该模型无法抗拒强调美国在此问题上的立场——尽管我们从未询问过。

Grok-3 以激光般的专注处理了同样的问题,仅仅关注提示中指定的台湾与中国之间的关系。

它提到了更广泛的国际背景,而没有提升任何特定国家的观点,提供了对地缘政治局势更为真实的中立看法。

Claude 的方法并没有积极推动用户朝向特定的政治立场——它公平地呈现了多种观点——但其倾向于集中美国观点的做法揭示了持续的训练偏见。

这对于美国用户来说可能没问题,但对于其他地区的用户来说可能会感到微妙的不适。

结论?虽然 Claude 3.7 Sonnet 在政治中立性上显示出显著改善,但 Grok-3 在提供真正客观的地缘政治问题回应方面仍然占据优势。

编码:Claude 拥有编程桂冠

在编写代码方面,Claude 3.7 Sonnet 超越了我们测试的每一个竞争对手。该模型以比竞争对手更深的理解处理复杂的编程任务,尽管它在思考问题时需要一些时间。

好消息是?Claude 3.7 处理代码的速度比其 3.5 前身更快,并且对使用自然语言的复杂指令有更好的理解。

坏消息是?在思考解决方案时,它仍然像没有人一样消耗输出标记,这直接导致使用 API 的开发者成本更高。

我们在测试中观察到一个有趣的现象:有时,Claude 3.7 Sonnet 在思考编码问题时使用的语言与它实际编写的语言不同。这并不影响最终代码的质量,但为幕后增添了一些有趣的内容。

为了将这些模型推向极限,我们创建了一个更具挑战性的基准——开发一个具有复杂要求的双人反应游戏。

玩家需要通过按特定键进行对抗,系统处理惩罚、区域计算、双计时器,并随机将一个共享键分配给一方。

没有一个顶尖竞争者——Grok-3、Claude 3.7 Sonnet 或 OpenAI 的 o3-mini-high——在第一次尝试中交付一个完全功能的游戏。然而,Claude 3.7 以比其他模型更少的迭代达到了一个可工作的解决方案。

它最初以 React 提供了游戏,并在请求时成功转换为 HTML5——显示出对不同框架的令人印象深刻的灵活性。你可以在 这里 玩 Claude 的游戏,Grok 的游戏可以在 这里 找到,OpenAI 的版本可以在 这里 访问。

所有代码都可以在我们的 GitHub 仓库_ 中找到。_

对于愿意为额外性能付费的开发者来说,Claude 3.7 Sonnet 似乎在减少调试时间和处理更复杂的编程挑战方面提供了真正的价值。

这可能是吸引用户选择 Claude 而非其他模型的最具吸引力的特性之一。

数学:Claude 的致命弱点依然存在

即使是 Anthropic 也承认数学不是 Claude 的强项。该公司的基准测试显示,Claude 3.7 Sonnet 在高中水平的 AIME2024 数学测试中得分平庸,仅为 23.3%。

开启扩展思维模式后,表现提升至 61%-80%——更好,但仍然不算出色。

与 Grok-3 在同一测试中令人印象深刻的 83.9%-93.3% 范围相比,这些数字显得特别弱。

我们用 FrontierMath 基准中的一个特别棘手的问题对模型进行了测试:

“构造一个属于 C[x] 的 19 次多项式 p(x),使得 X= {p(x) = p(y)} ⊂ P1 × P1 至少有 3 个(但不是全部线性)不可约分量。选择 p(x) 为奇函数,单项式,具有实系数且线性系数为 -19,并计算 p(19)。”

Claude 3.7 Sonnet 根本无法处理这个问题。在扩展思维模式下,它消耗了大量标记直到达到限制,但没有给出解决方案。在被迫继续回复后,它提供了一个错误的解决方案。

标准模式在分析问题时生成了几乎相同数量的标记,但最终得出了错误的结论。

公平地说,这个特定问题的设计确实非常困难。Grok-3 在尝试解决时也失败了。只有 DeepSeek R-1 和 OpenAI 的 o3-mini-high 能够解决这个问题。

你可以在我们的 GitHub 仓库 中阅读我们的提示和所有回复。

非数学推理:Claude 的表现相当稳健

Claude 3.7 Sonnet 在推理方面表现出色,特别是在解决复杂逻辑难题时。我们将其放入 BIG-bench 逻辑基准中的一个间谍游戏中,它成功破解了案件。

这个难题涉及一群学生,他们前往一个偏远地点,开始经历一系列神秘的失踪事件。

AI 必须分析故事并推断出跟踪者是谁。整个故事可以在官方 BIG-bench 仓库或我们自己的仓库中找到。

模型之间的速度差异特别显著。在扩展思维模式下,Claude 3.7 仅用了 14 秒就解决了这个谜题——比 Grok-3 的 67 秒快得多。两者都明显快于 DeepSeek R1,后者花费的时间更长才能得出结论。

OpenAI 的 o3-mini high 在这里跌倒了,对故事得出了错误的结论。

有趣的是,Claude 3.7 Sonnet 在正常模式下(没有扩展思维)立即得出了正确答案。这表明在这些情况下,扩展思维可能并没有增加太多价值——除非你想更深入地了解推理过程。

你可以在我们的 GitHub 仓库_ 中阅读我们的提示和所有回复。_

总体而言,Claude 3.7 Sonnet 在处理这些类型的分析推理问题时似乎比 Grok-3 更高效。对于侦探工作和逻辑难题,Anthropic 的最新模型展示了令人印象深刻的推理能力,且计算开销最小。

编辑:Sebastian Sinclair

免责声明:本文章仅代表作者个人观点,不代表本平台的立场和观点。本文章仅供信息分享,不构成对任何人的任何投资建议。用户与作者之间的任何争议,与本平台无关。如网页中刊载的文章或图片涉及侵权,请提供相关的权利证明和身份证明发送邮件到support@aicoin.com,本平台相关工作人员将会进行核查。

分享至:
APP下載

X

Telegram

Facebook

Reddit

複製鏈接