新的克劳德AI十四行诗模型能击败ChatGPT-4o吗?

CN
Decrypt
关注
10个月前

Anthropic,一家由前OpenAI研究人员创立的领先人工智能研究公司,昨天宣布推出了Claude 3.5 Sonnet,这是Claude AI家族中最新、最先进的模型。这次重大升级紧随OpenAI的GPT-4o发布之后,GPT-4o是一种本地多模态大型语言模型(LLM),最近在LMSys chatbot arena中夺得了榜首。

Claude 3.5 Sonnet定位为中端模型,介于Haiku(专为高效任务设计的小型模型)和Opus(Anthropic付费版本的高端模型,价格为每月20美元)之间。目前,Haiku和Opus仅提供3.0版本,使Sonnet 3.5成为它们在能力、知识和效率方面最佳的模型。

Anthropic声称,他们的新模型在几乎所有合成基准测试中击败了GPT-4o,特别是在使用多次提示技术时——即提供多个示例。

这些合成基准测试衡量模型在不同领域的性能。通过设定一定数量的条件和测试,可以获得定量值来衡量定性变量。换句话说,这些基准测试不是说哪个模型在任务上看起来更好或更好,而是说一个模型在可衡量的方式上有多好。

在性能方面,Anthropic表示,Claude 3.5 Sonnet的运行速度是前一顶级模型Claude 3 Opus的两倍,提供更多的性能,而成本仅为前者的五分之一。这使其成为处理复杂任务的理想选择,例如上下文敏感的客户支持和需要与模型进行大量互动的专业任务。

其创作者表示,与前身相比,它在理解微妙之处、幽默和复杂指令方面也有显著改进。

Claude 3.5 Sonnet还提供先进的视觉处理和理解能力。Anthropic表示,它特别擅长解释图表、图形,并从不完美的图像中转录文本。现在,该公司的顶级模型可以理解视觉提示的上下文,而不仅仅是描述事物。这使其直接与ChatGPT和Reka在多模态能力方面竞争。

例如,我们向Claude提供了一张地图,并询问在该位置可以做些什么。它发现地图是芝加哥的,并给出了一些建议,比如使用公共交通而不是出租车,或者参观Wicker Park、Lincoln Park和Hyde Park。

该模型还具有先进的编码能力。根据Anthropic的说法,它可以独立编写、编辑和执行具有复杂推理和故障排除能力的代码,前提是提供相关工具。这个功能使其能够优化开发人员的工作流程并加速编码任务。

Claude 3.5 Sonnet引入的一个新功能是“Artifacts”。这使用户可以实时查看、编辑和构建Claude生成的内容。它将AI创建的输出直接集成到项目和工作流程中,特别适用于与代码交互,并为Claude提供了比ChatGPT或Reka等传统聊天机器人更精致的用户界面。

Anthropic预计将在今年晚些时候发布Claude 3.5的Haiku和Opus版本。如果Sonnet能挑战GPT-4o,Opus有可能成为未来GPT迭代(如假设的GPT-5)的坚实竞争对手。

Claude 3.5 Sonnet vs. ChatGPT-4o

总的来说,这两个模型都展示了令人印象深刻的能力,但在各种任务中它们相互对抗时表现如何呢?让我们探讨它们在编码、创意写作和专业任务中的表现。

使用便捷性和可访问性

Claude 3.5 Sonnet目前在处理大量用户流量和长时间交互方面存在一些限制。Claude的免费版本为用户提供了更受限的体验,与付费版本相比,令牌上下文更小,可用提示更少。特别是如果用户分析长文档或处理代码时,这一点尤为明显。

ChatGPT的免费版本为用户提供了更丰富的令牌和提示分配,允许进行更长、更复杂的交互,而无需付费升级。OpenAI也提供“Plus”订阅,但在达到限制之前需要更长的时间才会被要求升级。

获胜者:ChatGPT赢得了这一轮。其免费版本提供了更大的容量和可访问性,使其对于不愿意或无法支付高级AI服务的用户更加友好。Claude的方法似乎旨在鼓励用户升级到付费层,这可能对一些用户构成障碍。

编码能力

我们通过要求两个模型创建一个游戏来测试Claude的编码能力。然而,与其要求复制已知游戏不同,这些游戏可能是它们的训练数据集的一部分,我们想出了一个测量两名玩家反应时间的游戏的想法。

提示:
我想创建一个游戏。
两名玩家在同一台计算机上对战。一个玩家控制字母L,另一个控制字母A。
我们有一个被一条线分成两半的领域。每个玩家控制领域的50%。控制A的玩家控制左半部分,控制L的玩家控制右半部分。
在随机时刻,线会向左或向右移动。
失去地盘的玩家必须尽快按下按钮,防止线继续移动。
完成后,线将停留在原地,玩家必须等待直到线在随机时刻向随机位置移动。
最终控制0%屏幕的玩家输掉游戏。
用Python或HTML5编写。你认为哪个更好用

Claude 3.5 Sonnet表现出色。它不仅按要求交付了游戏,还主动加入了一个基本但功能齐全的图形界面,带有视觉提示,使游戏更容易理解。

Claude迅速完成了这个任务,展示了在不到10秒内展示了增强的编码能力。

ChatGPT也成功创建了游戏,符合给定的规格。然而,生成任务的时间较长(将近45秒),并且没有包括额外的功能,如文本提示,以使游戏更容易理解。

此外,游戏的节奏要慢得多,这违背了反应游戏的初衷,而且“游戏结束”弹窗没有显示谁赢了。

获胜者:Claude 3.5 Sonnet获胜。它能够快速生成更全面和功能丰富的代码,包括像图形界面这样的额外功能,展示了卓越的编码能力。

此外,其“Artifacts”功能非常方便,可以在聊天机器人的界面中测试代码,而无需将代码复制粘贴到外部工具中——这是ChatGPT的工作方式。

创意写作

我们要求两个模型根据一个特定的想法创作一个虚构故事。我们想测试模型的创造力,他们的故事是否丰富引人入胜,以及他们对于创意作家来说整体表现如何。

提示:

写一个关于Jose Lanz的短篇故事,他是来自2150年的时间旅行者,前往1000年。确保你的叙述充满生动的描述性语言,无论你选择什么,都要真实地描绘Jose的文化背景和外貌特征。

故事的核心应围绕着时间旅行悖论和试图解决或改变过去问题的徒劳,意图是改变当前时间线。强调未来存在的讽刺之处在于过去的存在就是现在的样子。尽管Jose有意影响1000年的事件,但他所采取的行动注定会发生,因为这些行动对2150年的存在是必要的。对这一悖论的认识是故事中的关键时刻。

Claude 3.5 Sonnet创作了一个自然流畅的叙述,具有引人入胜的结构。AI巧妙地融入了时间旅行悖论等复杂概念,创作了一个富有细微差别的故事,冒险创造。

在它的版本中,主人公试图阻止一个数学概念的发展,这个概念导致了他那个时代的灾难性后果。在与研究人员社会融合并似乎阻止了这个概念的发展后,他返回发现自己实际上是他所创造的时间悖论的关键部分,甚至在古代文献中找到了对自己的引用。

ChatGPT生成了一个符合要求的故事,但走了更为可预测的道路。虽然能干,但其叙述缺乏Claude故事所展现的深度和创意风采。

GPT-4o创作了一个直截了当的故事,主人公试图通过与过去的萨满分享先进的教义来防止能源危机。然而,当他返回到自己的时间线时,他发现历史重演,一切都没有改变。

获胜者:Claude在创意写作方面获胜。它产生更具想象力、细腻和结构良好的叙述能力使其脱颖而出,使其成为需要创造力的任务的优越选择。

例如,很容易想象融入一个社会可能会影响一群研究人员并阻止他们发现某事。相比之下,与萨满分享先进知识来防止能源危机则不太合理。

总结和分析

当提供一份42页的IMF报告时,ChatGPT毫无问题地接受了整个文件。另一方面,Claude出现了错误,称PDF文件太长。我们将其剪裁为31页,这已足够被Pro版本接受。(免费版本只能分析大约25页左右。)

除了限制之外,Claude 3.5 Sonnet提供了对缩短文件的能力分析,准确提取了关键要点和逐字引述的引用,而没有产生幻觉——这已经是对于容易捏造信息的Claude 3而言的一大改进。然而,它的引用比ChatGPT选择的引用更模糊,也不那么相关。

ChatGPT处理整个42页文件而不截断的能力令人印象深刻。它提供了更全面的分析,提供了大量相关信息。

它使用项目符号来强调关键要素,然后对每个部分进行总结,这是比Claude提供的没有结构并且缺少报告关键要素的总结更有用的技术。

ChatGPT还展示了一种战略性的方法,专注于报告的摘要和结论,以有效地概括关键要点。这是在深入分析之前对广泛研究进行初步了解的可靠方式。

获胜者:ChatGPT在总结和分析方面处于领先地位。它处理完整的长篇文件的能力,加上其全面和战略性的总结方法,使其更适合学术研究和专业分析任务。

附加功能

Claude 3.5 Sonnet引入了“Artifacts”功能,允许用户实时查看、编辑和构建基于AI生成的内容。这种将AI输出直接整合到项目和工作流程中的功能增强了用户的互动,特别是与代码的互动。

ChatGPT Plus提供了训练特定任务的自定义GPT的能力,这是目前Claude所没有的功能。这种定制选项在专业和学术环境中提供了额外的灵活性。它还整合了Dall-ee 3图像生成器,对于使用自然语言生成图像非常有用。

获胜者:ChatGPT在附加功能方面获胜。虽然Claude的“Artifacts”功能提供了独特的实时互动能力,但ChatGPT的自定义训练选项提供了宝贵的灵活性。确定更有价值的功能将取决于用户的具体需求,但GPT可以帮助广泛的用户。ChatGPT还可以创建图像,这是与Claude相比的另一个优势。

结论

Claude 3.5 Sonnet在需要创造力、细腻的语言运用和高效编码的任务中表现出色。它理解和实施复杂指令的能力使其在创意工作和编码任务中脱颖而出。

ChatGPT证明了其在处理大量文本和进行详细分析方面的实力。其处理和综合大量信息的能力使其成为学术研究和专业分析的强大工具。它还提供了更慷慨的免费访问。

两种模型都非常有能力。然而,如果您考虑升级到付费版,鉴于其额外的功能集,ChatGPT可能是大多数人的最佳选择。唯一的例外是,如果您从事创意写作或编码工作,那么Claude无疑是远远的王者。

您可以为更符合您特定需求的模型付费,并使用另一个免费版本来完成不同的任务。然而,如果您资金短缺并且不是高级用户,OpenAI和Anthropic提供其顶级模型免费使用是非常棒的。

Ryan Ozawa编辑。

免责声明:本文章仅代表作者个人观点,不代表本平台的立场和观点。本文章仅供信息分享,不构成对任何人的任何投资建议。用户与作者之间的任何争议,与本平台无关。如网页中刊载的文章或图片涉及侵权,请提供相关的权利证明和身份证明发送邮件到support@aicoin.com,本平台相关工作人员将会进行核查。

Bybit: $50注册体验金,$30000储值体验金
广告
分享至:
APP下载

X

Telegram

Facebook

Reddit

复制链接