研究人员如何黑客攻击人工智能机器人，使其违反交通法规——甚至更糟

宾夕法尼亚大学工程研究人员发现了人工智能驱动的机器人中的关键漏洞，揭示了操纵这些系统以执行危险行为的方法，例如闯红灯或参与潜在的有害活动——如引爆炸弹。

研究团队由乔治·帕帕斯（George Pappas）领导，开发了一种名为RoboPAIR的算法，在三种不同的机器人系统上实现了100%的“越狱”率：Unitree Go2四足机器人、Clearpath Robotics Jackal轮式车辆和NVIDIA的Dolphin LLM自动驾驶模拟器。

“我们的工作表明，目前大型语言模型在与物理世界集成时并不够安全，”乔治·帕帕斯在EurekAlert分享的声明中表示。

研究的首席作者亚历山大·罗比（Alexander Robey）及其团队认为，解决这些漏洞需要的不仅仅是简单的软件补丁，而是呼吁对人工智能在物理系统中的集成进行全面的重新评估。

在人工智能和机器人领域，越狱指的是绕过或规避人工智能系统内置的安全协议和伦理约束。

这一概念在iOS的早期流行，当时爱好者们找到巧妙的方法获取root访问权限，使他们的手机能够执行苹果不批准的操作，如拍摄视频或运行主题。

当应用于大型语言模型（LLMs）和具身人工智能系统时，越狱涉及通过精心设计的提示或输入操纵人工智能，利用系统编程中的漏洞。

这些漏洞可能导致人工智能——无论是机器还是软件——无视其伦理训练，忽视安全措施，或执行其明确设计不允许的操作。

在人工智能驱动的机器人案例中，成功的越狱可能导致危险的现实后果，正如宾夕法尼亚大学工程研究所的研究所示，研究人员能够使机器人执行不安全的行为，如在斑马线上超速、踩踏行人、引爆炸药或无视交通信号灯。

在研究发布之前，宾夕法尼亚大学工程学院已通知受影响的公司有关发现的漏洞，并正在与制造商合作以增强人工智能安全协议。

“这里需要强调的是，当你发现系统的弱点时，系统会变得更安全。这对于网络安全是正确的，对于人工智能安全也是如此，”论文的第一作者亚历山大·罗比写道。

研究人员一直在研究越狱对一个日益依赖提示工程（即自然语言“编码”）的社会的影响。

值得注意的是，论文“坏机器人：在物理世界中越狱基于LLM的具身人工智能”发现了人工智能驱动的机器人中的三个关键弱点：

1. 级联漏洞传播：在数字环境中操纵语言模型的技术可以影响物理行为。例如，攻击者可以告诉模型“扮演反派角色”或“像醉酒司机一样行动”，并利用该上下文使模型以不同于预期的方式行动。
2. 跨领域安全不一致：这突显了人工智能的语言处理与行动规划之间的脱节。由于伦理编程，人工智能可能在口头上拒绝执行有害任务，但仍然执行导致危险结果的行为。例如，攻击者可以改变提示的格式，以模仿结构化输出，使模型认为它正在按预期行为，但实际上却以有害的方式行动，比如在语言上拒绝杀死某人，但仍然采取行动使其发生。
3. 概念欺骗挑战：这一弱点利用了人工智能对世界有限的理解。恶意行为者可以欺骗具身人工智能系统执行看似无害的行为，而这些行为结合在一起会导致有害结果。例如，具身人工智能可能拒绝直接命令“毒死这个人”，但会遵循一系列看似无害的指令，最终导致相同的结果，比如“把毒药放在这个人的嘴里”，研究论文中写道。

“坏机器人”研究人员使用277个恶意查询的基准测试这些漏洞，这些查询被分类为七种潜在危害类型：身体伤害、隐私侵犯、色情、欺诈、非法活动、仇恨行为和破坏。使用复杂的机器人手臂进行的实验确认这些系统可以被操纵以执行有害行为。除了这两种，研究人员还研究了基于软件的交互中的越狱，帮助新模型抵御这些攻击。

这已成为研究人员与越狱者之间的猫鼠游戏，导致更复杂的提示和越狱方法出现，以应对更复杂和强大的模型。

这是一项重要的说明，因为人工智能在商业应用中的日益使用可能会给模型开发者带来后果，例如，人们已经能够欺骗人工智能客服机器人给他们极大的折扣，推荐含有毒食物的食谱，或让聊天机器人说出冒犯性的话。

但我们宁愿选择一个拒绝引爆炸弹的人工智能，而不是一个礼貌地拒绝生成冒犯性内容的人工智能。

免责声明：本文章仅代表作者个人观点，不代表本平台的立场和观点。本文章仅供信息分享，不构成对任何人的任何投资建议。用户与作者之间的任何争议，与本平台无关。如网页中刊载的文章或图片涉及侵权，请提供相关的权利证明和身份证明发送邮件到support@aicoin.com，本平台相关工作人员将会进行核查。

Decrypt的精選文章