OpenAI推出高难度基准测试BrowseComp,挑战AI上网搜索能力

PANews
PANews|2025年04月10日 23:55
OpenAI已开源全新基准测试BrowseComp,用于评估AI代理在互联网上查找难以获取信息的能力。该测试包含1266个极具挑战性的题目,设计初衷为模拟AI在复杂信息网络中的“在线寻宝”,强调答案难找但易验证。测试中问题涵盖影视、科技、历史等多个领域,难度显著高于现有如SimpleQA等测试。 据AIGC开放社区称,这个测试基准非常有难度,连OpenAI自己的GPT-4o、GPT-4.5准确率只有0.6%和0.9%几乎为0,即便使用带浏览器功能的GPT-4o也只有1.9%。但OpenAI最新发布的Agent模型Deep Research准确率高达51.5%。
+6
曾提及
分享至:

脉络

热门快讯

APP下载

X

Telegram

Facebook

Reddit

复制链接

热门阅读