放松，你在玩《毁灭战士》方面仍然比人工智能更优秀

尽管围绕人工智能的热议不断，甚至是最先进的视觉语言模型——GPT-4o、Claude Sonnet 3.7 和 Gemini 2.5 Pro——在一个存在数十年的挑战上仍然挣扎：玩经典的第一人称射击游戏《毁灭战士》。

周四，一个新的研究项目推出了 VideoGameBench，这是一个旨在测试最先进的视觉语言模型是否能够仅通过屏幕上看到的内容来玩并击败20款热门视频游戏的人工智能基准测试。

“根据我们的经验，目前最先进的视觉语言模型在玩视频游戏时面临很大困难，因为推理延迟较高，”研究人员表示。“当一个代理截取屏幕截图并询问视觉语言模型该采取什么行动时，等到响应返回时，游戏状态已经发生了显著变化，行动不再相关。”

研究人员表示，他们使用经典的Game Boy和MS-DOS游戏，因为这些游戏的视觉效果更简单，输入方式多样，如鼠标和键盘或游戏手柄，这比基于文本的游戏更能测试视觉语言模型的空间推理能力。

VideoGameBench由计算机科学家和人工智能研究员Alex Zhang开发。游戏套件包括《魔兽争霸 II》、《帝国时代》和《波斯王子》等经典游戏。

研究人员指出，延迟响应在像《毁灭战士》这样的第一人称射击游戏中最为棘手。在这些快节奏的环境中，屏幕截图中可见的敌人可能在模型采取行动时已经移动——甚至已经到达玩家身边。

对于软件开发者来说，《毁灭战士》长期以来一直是评估游戏环境中技术能力的试金石。割草机、比特币，甚至人类肠道中的细菌都曾以不同的成功程度面对来自地狱的恶魔。现在轮到人工智能了。

“将《毁灭战士》从90年代的阴影中带入现代光芒的，不是它引人入胜的游戏玩法，而是其吸引人的计算设计，”麻省理工学院生物技术研究员Lauren Ramlan曾对Decrypt表示。“基于id Tech 1引擎，该游戏的设计要求仅需最简单的设置即可进行游戏。”

除了在理解游戏环境方面存在困难外，这些模型通常还未能执行基本的游戏内动作。

“我们观察到代理在理解其动作（例如向右移动）如何在屏幕上呈现时经常遇到困难，”研究人员表示。“我们测试的所有前沿模型中，最一致的失败是无法在《文明》和《魔兽争霸 II》等游戏中可靠地控制鼠标，而这些游戏中精确和频繁的鼠标移动至关重要。”

为了更好地理解当前人工智能系统的局限性，VideoGameBench强调了在动态和复杂环境中评估其推理能力的重要性。

“与未解决的数学证明和奥林匹克级数学问题等极其复杂的领域不同，玩视频游戏并不是超人类的推理任务，但模型仍然难以解决这些问题，”他们表示。

免责声明：本文章仅代表作者个人观点，不代表本平台的立场和观点。本文章仅供信息分享，不构成对任何人的任何投资建议。用户与作者之间的任何争议，与本平台无关。如网页中刊载的文章或图片涉及侵权，请提供相关的权利证明和身份证明发送邮件到support@aicoin.com，本平台相关工作人员将会进行核查。

Decrypt的精选文章