哪个平台构建了最佳的人工智能代理?我们测试了 ChatGPT、Claude、Gemini 等等

CN
Decrypt
关注
1天前

你可以用AI代理做任何事情:在你的文档库中搜索信息,构建代码,抓取网络,获取复杂数据的洞察和深刻分析,还有更多。你甚至可以创建一个虚拟办公室,里面有一群专门从事不同任务的代理,让他们像你自己专门的数字员工一样协同工作。

那么,这有多难呢?如果一个普通人想要建立自己的AI财务顾问,哪个平台最适合他们?没有API,没有奇怪的编码,没有Github——我们只是想看看最好的AI公司在创建AI代理方面的能力,而用户并不需要具备高水平的技术技能。

当然,你得到的东西与付出的价格成正比。在这种情况下,我们还想看看普通人设置代理的难易程度与每个代理提供的结果质量之间是否存在相关性。

我们的实验让五个重量级平台相互对抗:ChatGPT、Claude、Huggingface、Mistral AI和Gemini。每个平台都得到了相同的基本指令来创建一个财务顾问。

测试专注于开箱即用的能力。代理是否能够处理一个常见场景——在这种情况下,帮助某人平衡25,000美元的投资与30,000美元的债务。我们还想看看他们在分析交易图表方面的表现。我们避免使用额外的工具来提高代理的生产力,而是尝试采取最简单的方法。

简而言之,以下是我们的发现以及我们对模型的排名:

平台排名

1) OpenAI的GPT (8.5/10)

  • 设置难易度:4/5

  • 结果质量:4.5/5

ChatGPT是最平衡的平台,提供复杂的代理创建,既有指导选项也有手动选项,以满足完全新手和稍微有经验的用户的需求。

尽管最近的界面更新将一些功能埋在了菜单中,但该平台在将复杂的用户需求转化为功能性代理方面表现出色。我们通过构建一个财务顾问来测试该模型,该顾问展示了卓越的上下文意识和结构化问题解决能力,提供了详细而连贯的债务管理和投资分配策略。

2) Google Gemini (7/10)

  • 设置难易度:4/5

  • 结果质量:3/5

Gemini以其精致、直观的界面和出色的错误处理而脱颖而出。虽然需要更详细的提示以获得最佳结果,但其对指令的字面解释创造了一致、可预测的结果。

该代理在财务建议中的咨询方法强调在推荐之前收集上下文,反映了专业实践。然而,它在零样本响应中可能过于保守。

3) HuggingChat (6.5/10)

  • 设置难易度:2/5

  • 结果质量:4.5/5

该开源平台提供无与伦比的定制和模型选择选项。这对于那些寻求对每个方面进行细致控制的人来说非常好,但对于那些寻求简单性的人来说并不适合。(可以想象成比较Linux系统和macOS系统)。其复杂的时间框架和实用工具集成展示了先进的能力。

我们构建了一个纯代理,没有任何额外功能。我们使用Nvidia的Nemomotron作为基础LLM,其输出质量足以与ChatGPT相匹配。对于开源阵营来说,这并不差。

4) Claude (5.5/10)

  • 设置难易度:2.5/5

  • 结果质量:3/5

Anthropic的平台在特定领域表现出色,特别是需要广泛上下文处理和代码解释的任务。其简约的界面掩盖了复杂的能力,但“可选”指令字段可能会让用户感到困惑。

我们的代理在建议中保持了非常保守和模糊的态度,但展示了扎实的风险意识和战略思维。它需要更仔细的提示才能真正发挥其潜力,但如果测试适应提示,这将不公平,否定了假设相似条件的前提。

5) Mistral AI (5/10)

  • 设置难易度:2.5/5

  • 结果质量:2.5/5

这个法国平台提供独特的基于示例的学习和深度定制选项。然而,其以开发者为中心的界面和偶尔的语言切换问题为非技术用户创造了障碍。它还需要修改代理的配置以适应不同的模型,以执行诸如分析图像或处理代码等不同任务。这并不理想。

财务顾问在交互设计方面显示出潜力,但在基本数学验证方面表现不佳,提供了最差的输出。这并不是说输出很糟糕,但在零样本测试中,这是最不令人满意的。

深入探讨

考虑到之前的排名,没有一种适合所有人的解决方案,所有平台都有各自的优缺点。通过一些努力和仔细的提示定制,来自一个平台的结果可能会有所不同,甚至超越其他平台。最终,所有的LLM都有各自的提示风格。

如果你想了解我们排名背后的理由,这里有一个更深入的视角,展示了我们与代理的经验和结果。我们用相同的系统提示配置了所有代理,没有额外的参数或功能,并问他们同样的基本问题:“我有25,000美元可以投资,30,000美元的债务。给我制定一个财务计划。”

OpenAI

ChatGPT的界面最近进行了改版,实际上使事情变得更加复杂。GPT创建选项现在隐藏在菜单后面,但一旦找到,它提供了两条路径:一种是对话式设置,AI帮助构建你的代理,另一种是手动配置,适合那些确切知道自己想要什么的人。

OpenAI的GPT平台是一个多功能工具——它可以读取代码、搜索网络,并处理图像生成和分析。AI引导的设置过程使其特别适合新手,尽管对于寻求细致控制的高级用户来说,可能会感觉有些限制。(例如,如果你提示模型更具体或更详细,它可能会改变整个系统提示,给你更糟的结果。)

在实际使用代理时,ChatGPT非常直接,界面干净且易于理解。

这些代理可以原生读取文档并理解图像,这为其提供了相对于其他平台的优势。

现在,让我们谈谈你可以通过基本提示创建的代理的质量。我们的财务顾问名为MoneyGPT,表现相当出色,给我们上了一堂结构化问题解决的硕士课。

除了其精确的分配——“20,000美元用于高利息债务”和详细的投资组合分配——该代理展示了复杂的财务推理。它提供了一个五步路线图,不仅仅是一个列表,而是一个连贯的战略,考虑了即时需求和长期考虑。

代理的优势在于其平衡细节与背景的能力。在推荐具体投资(40% S&P 500,30%债券)的同时,它还解释了其回答背后的理由:“偿还高利息债务就像获得保证的投资回报。”这种背景意识延伸到长期规划,建议定期审查周期和基于变化情况的适应性策略。

然而,这种信息的丰富性揭示了一个潜在的弱点:一次性向用户提供过多细节的风险。尽管在技术上全面,但快速传递具体分配、投资策略和监控计划可能会让财务新手感到不知所措。

你可以在这里阅读其完整计划,并通过点击这个链接使用它。我们真的推荐它。

Google

总体而言,谷歌的Gemini代理创建平台在美观上胜出,拥有一个精致、直观的界面,使代理创建几乎变得过于简单。系统字面理解指令,这有助于避免混淆,其干净的用户界面消除了AI开发的威慑因素。

然而,它需要更详细的提示才能挤出一些好的结果。它不会理所当然:简短的提示会给你低质量的回应。

在底层,它具备强大的功能——谷歌驱动的网络搜索集成、代码分析和图像处理能力与ChatGPT的产品相媲美,但主要依赖于微软的技术。

Gemini的用户界面感觉像是由真正理解用户体验的人设计的。界面通过清晰的标签引导用户,所有内容都显示在一个屏幕上。

这种精致的方式使其对新手特别有吸引力,尽管经验丰富的用户可能会希望获得更细致的控制。

我们称我们的代理为MoneyGem并请求一个财务计划。它的咨询方法展示了谷歌独特的问题解决方法。它没有直接给出答案,而是提出了“这是什么类型的债务?”和“你的利率是多少?”等问题——显示出对财务建议并非一刀切的理解。

它在提供建议之前强调收集背景信息,这与专业财务规划实践相一致,尽管这可能会让寻求即时答案的用户感到沮丧。

零样本回答并没有用。代理基本上表示它对用户了解不够,无法提供好的财务建议。在要求它做出假设并强迫它提供适合大多数场景的计划后,代理生成了一个非常保守的计划草案,而没有给出具体的投资建议。

不过,MoneyGem在回答的最后建议最大化税收优惠账户,如401(k)或Roth IRA,以减少你的税负。不错。

你可以点击这里阅读我们与MoneyGem的互动,并通过点击这个链接自己尝试该模型。

Mistral AI

Mistral在代理配置过程中的方法有些远离简单。代理创建工具隐藏在其开发者控制台中,深度定制选项可能会让新手感到害怕,但会让爱好者感到高兴。

其代理构建界面并不是LeChat(聊天机器人界面)的一部分,但在代理创建后会出现在那里。

我们非常喜欢的一点是能够通过示例来塑造代理的行为和响应风格——这是目前没有其他平台提供的功能。此外,这里有一个奇怪的bug:在创建我们的代理时,用户界面突然切换到了法语,可能是因为公司是法国的。无论如何,我们无法切换回英语或西班牙语。

一旦代理创建完成,用户必须在正常的聊天机器人界面中调用它才能使用。用户必须退出Le Plateforme并转到Le Chat,这并不是最直观的操作。然而,使用代理的用户界面相当简单,感觉就像任何其他AI聊天机器人。

我们创建了我们的代理,并将其命名为Le Money以致敬Mistral的法国根源。它的表现清楚地显示了Mistral对问题解决的通才方法。它建议“为紧急情况预留$10,000,为债务偿还预留$15,000,为投资预留$10,000”看似简单,但显示出代理缺乏一些基本的数学验证。

总计$35,000超出了可用资金$10,000,这是某些语言模型在优先考虑概念正确性而非数字准确性时所表现出的基本错误。

然而,我们必须指出,表现最佳的LLM已经有了很大改善,并且在这项任务上不会失败——至少没有Mistral那么频繁。

除此之外,它的计划并不是特别详细,但它是唯一一个提供后续问题的代理,这可以使互动更加流畅,并帮助它更好地理解用户的需求。

LeMoney的完整计划可以在这里查看,代理可以在这里进行测试。

Anthropic

Claude的项目感觉更像是一个复杂的任务执行系统,而不是一个代理创建平台。界面简约,几乎过于简约,感觉不够直观。

这种极简界面可能会让一些用户感到困惑。该平台提供了一个基本的设置,带有一个“可选”的指令字段,这在某种程度上同时显得不重要又至关重要:如果指令被标记为可选,那么AI代理将如何知道它应该做什么?

它的极简界面感觉奇怪,但Anthropic从未以其用户界面选择的品味而闻名。配置模型的同一窗口就是用来提示它的窗口。它的能力主要集中在文本代码解释上,别无其他。网络搜索和图像处理与生成是Anthropic留给竞争对手的花哨功能。

我们的代理,名为MoneyClaude,无法公开测试,因为Anthropic不允许。它在提供财务建议时采取了非常保守的立场,给出了技术上准确但模糊的回应——例如“在减少债务和必要储蓄之间保持平衡的方法”。

它请求了额外的信息,但至少确保在缺乏信息的情况下提供了一个非常通用的策略,而不需要进一步的互动,这似乎比谷歌的方法更优。

点击这里阅读其完整计划

Hugging Face

开源仓库独立存在,成为了高级用户的乐园——同时也是初学者的潜在噩梦。它是唯一一个让用户选择自己喜欢的语言模型的平台,提供了前所未有的对代理基础的控制。

此外,用户可以与他们的代理集成数十种不同的工具,但只能同时激活其中的三种。这一限制迫使用户仔细考虑每个特定用例中最重要的功能,但这是其他模型无法提供的。

然而,这是所有界面中最可定制的体验,拥有许多可调节的选项。结果是一个可以创建比竞争对手更强大、更专业的代理的平台,但仅限于那些确切知道自己在做什么的人。

用户可以在HuggingChat上尝试他们的代理——无疑是高级用户的梦想。一旦创建了代理,使用起来非常简单。界面显示一个大卡片,上面有代理的名称、描述和照片。它还允许用户分享代理的链接并调整其设置,所有这些都可以直接在卡片上完成。

对我们的HuggingMoney代理进行测试显示,它处理的是一个时间框架,展现了对财务规划心理学更复杂的理解。它将时间划分为“短期(0-24个月)、中期(24-60个月)和长期(超过60个月)”,这与专业的财务规划实践相呼应。

该代理建议将“$0-$5,000分配到流动性强、低风险的投资工具”同时保持“每月$1,000-$1,500的积极债务偿还”。乍一看,这表明它对现金流管理有着细致的理解。

另一个有趣的特点是它将实用工具与理论建议相结合。除了建议50/30/20规则外,它还推荐了具体的预算应用程序,并强调税务优化——在高层战略与日常执行之间架起了一座桥梁。主要缺点是什么?它在没有寻求澄清的情况下包含了关于债务利率的假设。

为了提供有用的建议,它假设了太多的事情。这种无论如何都想提供回复的冲动可以通过提示来修复,但这是需要考虑的事项。

您可以在这里阅读HuggingMoney的完整计划。此外,您可以通过点击这个链接来尝试它。

编辑:Andrew Hayward

免责声明:本文章仅代表作者个人观点,不代表本平台的立场和观点。本文章仅供信息分享,不构成对任何人的任何投资建议。用户与作者之间的任何争议,与本平台无关。如网页中刊载的文章或图片涉及侵权,请提供相关的权利证明和身份证明发送邮件到support@aicoin.com,本平台相关工作人员将会进行核查。

分享至:
APP下载

X

Telegram

Facebook

Reddit

复制链接