OpenAI推出高难度基准测试BrowseComp，挑战AI上网搜索能力

PANews|2025年04月10日 23:55

OpenAI已开源全新基准测试BrowseComp，用于评估AI代理在互联网上查找难以获取信息的能力。该测试包含1266个极具挑战性的题目，设计初衷为模拟AI在复杂信息网络中的“在线寻宝”，强调答案难找但易验证。测试中问题涵盖影视、科技、历史等多个领域，难度显著高于现有如SimpleQA等测试。据AIGC开放社区称，这个测试基准非常有难度，连OpenAI自己的GPT-4o、GPT-4.5准确率只有0.6%和0.9%几乎为0，即便使用带浏览器功能的GPT-4o也只有1.9%。但OpenAI最新发布的Agent模型Deep Research准确率高达51.5%。

+4

曾提及

|

APP下載

Windows

Mac

分享至：

X

Telegram

Facebook

Reddit

複製鏈接

|

分享至：

脈絡

05月10日 03:00【AI与Web3的结合与应用】

05月09日 14:17【Tether即将开源非托管钱包，支持无 Gas 交易】

05月09日 14:13【Tether发布完全开源的模板钱包】

05月09日 03:43【腾讯开源多模态视频生成工具Hunyuan Custom】

05月05日 10:39【Tether推出人工智能代理的P2P网络】

05月05日 09:02【Tether AI目标是实现阿西莫夫AI愿景】

05月05日 08:45【Tether AI致力于实现阿西莫夫AI愿景】

05月05日 07:12【Tether即将推出新项目Tether ai】

05月03日 07:00【开源Cardano InsurToken协议增加流动性】

05月02日 20:38【人工智能在特朗普任期内将增长一百万倍】

熱門快訊

|

APP下載

Windows

Mac

分享至：

X

Telegram

Facebook

Reddit

複製鏈接

APP下載

Windows

Mac

X

Telegram

Facebook

Reddit

複製鏈接

熱門閱讀