| AiCoin 实时快讯

ETH

💲1930.98

0.31%

Zhixiong Pan|2025年04月18日 05:20

为了评估AI模型的推理能力和幻觉，他设计了一个很有趣的问题，o4-mini-high 是目前唯一通过的模型。这个问题最大的难度在于，问题本身是无解的。但大语言模型或者推理模型在训练中使用了大量有解的问题，所以在解答问题时就会造出很多幻觉的步骤或者解法。这个问题很简单，就是在一个国际象棋残局中，让AI想出一个用一步就能终结棋局的走法。但当前的棋局并不存在这个解法。由于大多数模型都训练了太多这种解题思路，所以它们会以为这个棋局也是有对应解法的。那些顶尖模型都翻船了，包括：Claude 3.7、Gemini 2.5 Pro、Grok 3和GPT 4.5 等。这个问题它触及了 AI 潜力与局限的核心：无法质疑前提的 AI 注定受限；会在错误答案上不断加码的 AI 亦然。