
Zhixiong Pan|2025年04月18日 05:20
为了评估AI模型的推理能力和幻觉,他设计了一个很有趣的问题,o4-mini-high 是目前唯一通过的模型。
这个问题最大的难度在于,问题本身是无解的。但大语言模型或者推理模型在训练中使用了大量有解的问题,所以在解答问题时就会造出很多幻觉的步骤或者解法。
这个问题很简单,就是在一个国际象棋残局中,让AI想出一个用一步就能终结棋局的走法。但当前的棋局并不存在这个解法。
由于大多数模型都训练了太多这种解题思路,所以它们会以为这个棋局也是有对应解法的。那些顶尖模型都翻船了,包括:Claude 3.7、Gemini 2.5 Pro、Grok 3和GPT 4.5 等。
这个问题它触及了 AI 潜力与局限的核心:无法质疑前提的 AI 注定受限;会在错误答案上不断加码的 AI 亦然。
分享至:
脉络
热门快讯
APP下载
X
Telegram
复制链接