Zhixiong Pan
Zhixiong Pan|2025年03月22日 09:20
GTC 请了 OpenAI 负责推理模型 o1 的核心成员 Noam Brown 聊了聊他的学术研究经历和对推理模型未来的看法。 专注扑克 AI:他的学术研究始于 2012 年,在卡内基梅隆大学攻读博士期间,专注于如何在扑克这一不完美信息博弈(Imperfect-Information Games)中达成超越人类水平的 AI。 多人扑克 AI:在 2019 年,Noam Brown 与同事进一步推出了 Pluribus,它不再局限于两名玩家,而是扩展到多玩家(六人)的德州扑克对战。在推理算法上,团队通过改进对局阶段的计算策略,大幅减少了预训练的需求,使得 Pluribus 在云端的训练成本可低至 150 美元,而推理则使用约 28 个 CPU 核心在每局花约 20 秒进行深度思考。 在 Meta 期间的「Diplomacy」(名为外交的经典桌游)项目:Diplomacy 是七人参与、强调自然语言交流与背后联盟、背叛等人性化策略的游戏。其真正的复杂度源于玩家通过语言「讨价还价」并在关键时刻进行策略背刺或妥协。在此阶段,他与同事开发了 Cicero,首次实现人类水平的自然语言多玩家交互。这意味着人工智能必须同时掌握多边博弈中的高维策略与语言表达的灵活性。Cicero 因此被视为大步迈向多智能体环境与自然语言推理的重要里程碑。 OpenAI 的 o1:Noam Brown 的追求在于,让 AI 不再「针对每种游戏或应用都单独研发推理方法」,而能直接利用推理过程、推理时间,充分做到在不同场景下都具备超强决策能力。深度学习多被视为「系统 1(快速、直觉式)」的计算。他的工作聚焦如何让 AI 在推理阶段(「系统 2」)更灵活地分配算力,通过更长时间或更深层级的思考,获得超越简单直觉式决策的效果。 Noam Brown 的研究历程带来了「不完美信息博弈」的重大突破,并且跨越了人机对战、多人博弈以及自然语言谈判等多个维度。如今,他致力于在 OpenAI 打造更具普适性的推理算法,使得 AI 能够像 Transformer 之于深度学习那样,把推理范式推广到更多领域。这一系列努力不仅将影响学术研究,也会在实际应用中加速催生下一代「类人思考」或「超人思考」的智能系统。 视频回放: https://www.nvidia.com/gtc/session-catalog/?search=Advancing%20AI%20Reasoning&search=Advancing+AI+Reasoning&tab.catalogallsessionstab=16566177511100015Kus#/session/1733260712641001zu5P 全文参考: https://dtnews.substack.com/p/openai-o1-noam-brown-ai
分享至:

热门快讯

APP下载

X

Telegram

Facebook

Reddit

复制链接

热门阅读