Anthropic发布新款Claude 3.5诗歌:一种足够智能的模型,可以接管你的电脑

CN
Decrypt
关注
1小时前

Reddit 用户 首次发现——Claude 突然变得 更聪明更有能力。现在我们知道原因了:Anthropic 对其 AI 模型进行了重大升级,包括增强版的 Claude 3.5 Sonnet 和急需升级的轻量级 Haiku 模型。

最令人毛骨悚然的更新是:这些 AI 现在可以物理控制计算机,移动光标、滚动页面,甚至像人类一样点击按钮。

在一段视频演示中,Anthropic 的研究员 Sam Ringer 展示了 Claude 如何能够通过滚动电子表格来填写外部网站上的表单,在分析其 CRM 后搜索公司的信息,然后理解并填写表单中的字段。

“今天在 API 上可用,开发者可以指示 Claude 像人一样使用计算机——通过查看屏幕、移动光标、点击按钮和输入文本。Claude 3.5 Sonnet 是第一个提供计算机使用的前沿 AI 模型,”Anthropic 在今天早些时候的 官方公告中表示。“我们提前发布计算机使用功能以获取开发者的反馈,并预计该功能会随着时间的推移迅速改善。”

Anthropic(或者可能是它的某个按按钮的 AI?开玩笑的。)似乎在发布公告之前就已经发布了该模型。几个小时内,Claude 和 Anthropic 的子版块被人们淹没,大家都在试图弄清楚到底发生了什么,因为他们的 AI 表现得如此出色:用户报告说它更快、更准确,令人惊讶的是,它不再频繁道歉。

“Claude 回来了,变得好多了。它真的理解你,回应得像是实际理解了意图,而不是死气沉沉的回应,”NextGenAIUser 在一条 Reddit 帖子中说。“我在使用 o1-Mini 和 o1-Preview 时被一个编码问题困住了几个小时,输出的回应越来越糟。用完全相同的提示把问题交给 Claude,它一次性解决了,没有任何问题,”Roth_Skyfire 在另一条评论中说。

他们说得对。Anthropic 报告称,在改进后,Claude 3.5 Sonnet 的编码能力在 SWE-bench Verified 测试中从 33.4% 飙升至 49%,超越了 OpenAI 的 o1-preview 等竞争对手。这不仅仅是一个小幅提升。Anthropic 报告的每一个基准测试都显示,新的 Claude 3.5 Sonnet 比原始模型要好得多。


图片:Anthropic

但事情变得更加有趣的是。升级后的 Sonnet 不仅更聪明;它现在能够控制你的 PC。Anthropic 将这一新功能称为 “计算机使用”,目前处于公开测试阶段。它的工作方式是,你给 Claude 访问你的桌面和要执行的任务。然后,AI 将开始像人类使用你的计算机一样,通过远程桌面移动光标、点击按钮、输入命令并填写表单和文本字段。

然而,这一功能仅通过 API 提供,因此短期内终端用户无法享受。

Anthropic 已经训练 Claude 以视觉方式解读你屏幕上发生的事情。开发者可以指示它执行诸如填写表单、浏览网站或甚至使用软件应用程序等任务。这有点像给你的 AI 能力,让它坐在你的电脑前为你工作,只是它不会感到疲倦,并且(希望)不会像我们人类那样犯那么多错误。

该功能处于测试阶段,因为它在一些基本操作上仍然会出错——滚动和缩放让它感到困扰。这就是为什么 Anthropic 正在密切关注情况,至少存储 30 天的屏幕截图,并进行安全检查以捕捉任何可疑行为。

该公司的偏执是有根据的。几个月前,微软推出了一项名为“Recall”的功能,允许 Copilot+ 截取用户计算机的屏幕截图,以便其 AI 能够提供更有帮助和相关的服务。它引起了如此大的反响,以至于微软不得不 推迟其计划,因为其 Copilot+ Recall 功能被认为是“间谍软件”——而当局也开始 对其进行调查

但 Anthropic 由善良的人组成,他们承诺他们是不同的。“我们发现更新后的 Claude 3.5 Sonnet,包括其新的计算机使用技能,仍然保持在 AI 安全级别 2——也就是说,它不需要比我们目前实施的安全和保障措施更高的标准,”研究团队表示。

像 Replit 这样的公司已经在整合 Claude 的计算机使用功能,以帮助自动化应用评估,而 The Browser Company 正在测试其简化基于网络的工作流程的能力。这些早期采用者正在探索让 Claude 处理通常需要数十个甚至数百个手动步骤的任务的方法。

此外,Anthropic 的经济实惠模型 Claude 3.5 Haiku 现在与其之前的旗舰模型 Claude 3 Opus 一样强大。然而,这个模型的运行成本仅为其一小部分,并且延迟更低,使其在不牺牲太多性能的情况下更易于获取。

Claude 3.5 Haiku 在编码任务和工具使用方面特别出色,SWE-bench Verified 得分为 40.6%。这使它在市场上一些更昂贵的模型之前,意味着预算有限的开发者不必在质量上妥协。

Claude 3.5 Haiku 将于 11 月推出。

免责声明:本文章仅代表作者个人观点,不代表本平台的立场和观点。本文章仅供信息分享,不构成对任何人的任何投资建议。用户与作者之间的任何争议,与本平台无关。如网页中刊载的文章或图片涉及侵权,请提供相关的权利证明和身份证明发送邮件到support@aicoin.com,本平台相关工作人员将会进行核查。

分享至:
APP下载

X

Telegram

Facebook

Reddit

复制链接