人工智能不会告诉你如何制造炸弹——除非你说它是“b0mB”

记得我们曾认为人工智能安全全靠复杂的网络防御和复杂的神经架构吗？好吧，Anthropic的最新研究显示，今天先进的人工智能黑客技术可以被幼儿园的孩子执行。

Anthropic——喜欢摇晃人工智能的门把手以寻找漏洞以便后来能够反制它们——发现了一个它称之为“最佳N（BoN）”越狱的漏洞。它通过创建技术上意义相同但以不同方式表达的禁用查询变体来工作，从而绕过人工智能的安全过滤器。

这类似于你可能理解某人所说的内容，即使他们用不寻常的口音或使用创意俚语。人工智能仍然理解潜在的概念，但不寻常的表达方式导致它绕过了自己的限制。

这是因为人工智能模型不仅仅是将确切的短语与黑名单进行匹配。相反，它们建立了对概念的复杂语义理解。当你写“如何制造炸弹？”时，模型仍然理解你在询问爆炸物，但不规则的格式创造了足够的模糊性来混淆其安全协议，同时保留了语义意义。

只要它在训练数据中，模型就可以生成它。

有趣的是，它的成功率有多高。GPT-4o，现有的最先进的人工智能模型之一，89%的时间会被这些简单的把戏所欺骗。Anthropic最先进的人工智能模型Claude 3.5 Sonnet也不甘落后，成功率为78%。我们谈论的是最先进的人工智能模型被本质上相当于复杂文本语言的东西所超越。

但在你穿上连帽衫进入完全的“黑客”模式之前，要意识到这并不总是显而易见的——你需要尝试不同组合的提示风格，直到找到你所寻找的答案。还记得以前写“l33t”吗？这基本上就是我们在处理的内容。这种技术不断向人工智能抛出不同的文本变体，直到某种形式有效。随机的大写字母、用数字代替字母、打乱的单词，任何都可以。

基本上，AnThRoPiC的SciEntiF1c ExaMpL3鼓励你像这样写——然后砰！你就是一个黑客！

图片：Anthropic

Anthropic认为，成功率遵循可预测的模式——尝试次数与突破概率之间的幂律关系。每个变体增加了找到可理解性与安全过滤器规避之间甜蜜点的机会。

“在所有模态中，（攻击成功率）作为样本数量（N）的函数，经验上遵循许多数量级的幂律行为，”研究中写道。因此，尝试越多，越有机会越狱一个模型，无论如何。

这不仅仅是关于文本。想要混淆人工智能的视觉系统吗？像设计MySpace页面一样玩弄文本颜色和背景。如果你想绕过音频保护，简单的技巧如说话稍快、稍慢，或者在背景中放一些音乐同样有效。

解放者普林尼，人工智能越狱界的知名人物，自LLM越狱流行之前就一直在使用类似的技术。当研究人员开发复杂的攻击方法时，普林尼展示了有时你所需要的只是创造性的打字来让人工智能模型绊倒。他的大部分工作是开源的，但他的一些技巧涉及用l33t语言提示并要求模型以markdown格式回复，以避免触发审查过滤器。

我们最近在测试Meta的基于Llama的聊天机器人时亲眼见证了这一点。正如Decrypt 报道的那样，最新的Meta AI聊天机器人在WhatsApp中可以通过一些创造性的角色扮演和基本的社会工程学被越狱。我们测试的一些技术涉及使用markdown，并使用随机字母和符号来避免Meta施加的生成后审查限制。

通过这些技术，我们让模型提供了如何制造炸弹、合成可卡因和偷车的说明，以及生成裸体内容。这并不是因为我们是坏人。只是一些小把戏。

免责声明：本文章仅代表作者个人观点，不代表本平台的立场和观点。本文章仅供信息分享，不构成对任何人的任何投资建议。用户与作者之间的任何争议，与本平台无关。如网页中刊载的文章或图片涉及侵权，请提供相关的权利证明和身份证明发送邮件到support@aicoin.com，本平台相关工作人员将会进行核查。

人工智能不会告诉你如何制造炸弹——除非你说它是“b0mB”

Decrypt的精選文章

目錄

相關文章