图片来源:由无界AI生成
马斯克口中的“地球上最聪明的 AI”Grok 3来了。
在一场上百万人观看的直播中,马斯克发布了Grok 3,和他一起参与发布的还有两位华裔研究员,分别是xAI联合创始人Tony Wu、Jimmy Ba。从基准测试来看,Grok 3确实强得惊人,而从资本投入看,背后那20万块GPU的算力集群也令人咋舌。
Grok 3的发布包括一系列的模型:Grok 3, Grok 3 mini,以及推理模式(Think)、DeepSearch、Big Brain等更新。
#01、“最聪明AI”之名来自榜单,实测如何
基准评测方面,Grok 3在数学推理、STEM 与科学领域的基准测试中表现优于 GPT-4o、Gemini-2 Pro、Claude3.5 Sonnet、DeepSeek-V3等其他模型。即便是小版本的 Grok 3 Mini,也处于顶尖水平。
Grok 3 的早期版本在大模型竞技场 Chatbot Arena 中也取得了高分,这是一个众包测试平台,不同 AI 模型相互竞争,用户投票选出最佳答案,Grok-3 是首个突破 1400 分的模型,在所有类别中排名第一。
Grok自2023年发布以来MMILU得分快速提升,尤其在2024年达到Grok 2的显著突破,显示出与GPT系列相比的快速追赶与进步。
“Grok 3 具备非常强大的推理能力,因此在我们迄今为止进行的测试中,Grok 3 的表现超越了我们已知的任何已发布产品,这是一个好迹象,”马斯克上周在迪拜举行的世界政府峰会上通过视频通话表示。
Grok 3 也推出了推理模式(Think),通过Grok 3 Reasoning 和 Grok 3 mini Reasoning,能够像 DeepSeek- R1 等推理模型一样进行思考。Grok 3的模型可以通过考虑所有可能的解决方案、自我批判、验证解决方案、回溯、从第一性原理思考等方式来解决复杂的问题。不过为了防止蒸馏,模糊化了Grok 3的部分推理过程。
Grok 3 Reasoning在多个流行基准测试中超越了 o3-mini 的最佳版本——o3-mini-high,其中包括新的数学基准AIME2025。
团队演示了用Grok 3的Think模式生成一个关于从地球发射到火星再返回地球的动画 3D 绘图,展示下一次发射窗口的轨迹。
在演示中,Grok 3提供了一个使用Matplotlib的Python脚本,并解释了代码。代码似乎是通过数值方式解决开普勒定律。代码运行后,Grok 动画化了地球和火星两颗行星,用绿色小球表示航天器在它们之间的旅程。
演示是在现场生成的,因此没有验证解决方案是否完全正确,但佩戴着一个展示地球火星转移轨道的吊坠的马斯克表示与实际解法接近。
提前体验了Grok 3的Andrej Karpathy表示Grok 3的Think模式实现了DeepSeek-R1、Gemini 2.0 Flash Thinking和Claude均未能实现的任务,但他表示顶尖的 OpenAI 模型,比如o1-pro同样也能做到。
在OpenAI、Gemini和perplexity之后,Grok也推出了自己的深度搜索Deep Search。xAI团队将Deep Search定位为“下一代搜索引擎”,是 Grok Agent 的第一代产品。它不仅仅是一个简单的信息检索工具,旨在帮助编程、研究和解答日常问题。
从演示来看,Grok 3的Deep Search也并未有太多独特之处,更多强调它不同于传统搜索引擎的关键词匹配模式,能深入理解用户查询的语义和意图,并从多个信息源获取内容,交叉验证以确保准确性,比传统搜索引擎更具可调控性,允许用户指定来源。
xAI团队特别提到了Deep Search搜索过程对用户透明,能让用户了解AI的“思考”过程。
Andrej Karpathy认为Grok 3的DeepSearch大致相当于Perplexity的DeepResearch,但尚未达到OpenAI最近发布的Deep Research的水平。
#02、满血“Big Brain”模式
对于更复杂的查询,利用“Big Brain”模式用更多的计算进行推理。xAI 将这些推理模型描述为最适合数学、科学和编程问题,看上去像是“满血版”的另一种说法。
xAI团队演示了Grok 3在Big Brain模式下创造融合了Tetris(俄罗斯方块)和Bejeweled(宝石迷阵)的全新游戏。xAI团队解释说,由于是在直播中即兴生成,Grok有可能会犯一些小的编码错误,导致游戏运行不完全符合预期。。在直播的测试中,生成的游戏能够正常运行,但游戏的颜色显示有些问题,另外不清楚是否实现了俄罗斯方块清除一整行的机制。
xAI团队也在直播中坐实了将推出一个AI游戏工作室的计划,马斯克在前一天也曾在X上发表了相关推文。
#03、有钱可以任性,但想成为“最强”要做的还有很多
Grok 3 基于 xAI 的 Colossus 集群,一期10万张卡只用了122 天建设,又用了92天扩张到20万张,并使用了约20万块GPU来训练Grok 3,并于一月初完成了预训练。此前马斯克在X平台上发帖称,Grok 3的开发使用了比其前身Grok 2 多“10 倍”的计算资源,并且训练数据集得到了扩展,据称包括了法庭案件的文件。在直播中他表示,Grok 3的计算资源大约是Grok 2的15倍左右。
马斯克还透露,xAI 正在建设新的AI集群,其功率将是当前集群的五倍。
另外关于语音模式,团队没有给出具体的发布日期,但马斯克表示“大概一周左右就会发布”。
具体细节上,语音将直接由类似于Grok的模型生成,该模型能够理解所说的话并直接生成音频。这种方式使得 AI 能够记住细节,并更自然地继续对话。语音模式功能将在应用和 API 中同时提供。
xAI计划在未来几周内推出Grok-3的API。这个API将包括Grok-3的推理模型和Deep Search功能。xAI团队对企业级应用场景非常期待,认为Grok-3的强大能力和Deep Search的加入,将为企业用户带来巨大价值。
值得注意的是,xAI在近期还推出了只要同意共享数据,最低充值5美元,就赠送150美元的API额度的活动。显然,xAI不在乎让出这点羊毛,更看重的是通过这种方式获取用户和数据。
关于开源计划,马斯克表示将延续此前的策略,当Grok 3成熟且稳定时(大概会在几个月内实现)将开源Grok 2。
目前,用户可以通过X和Grok的网站和App进行体验,并非所有 Grok 3的模型及相关功能都已上线(部分处于测试阶段)。Grok 3将首先向X平台的Premium+ 订阅者推出,此外还将推出一个名为Super Grok的独立订阅服务,为Grok用户提供最先进的功能和最早的访问权限,每月30美元或每年300美元,SuperGrok解锁了DeepSearch中更多查询次数等功能,还提供了无限量的图像生成服务。
Grok 3 的发布标志着 xAI 在AI领域的激烈竞争,不仅包括 OpenAI 和谷歌竞争,还面临着来自新兴中国企业的压力。比如,DeepSeek让全球的AI公司调整策略,让深度思考模型成为“标准”,还促使OpenAI 最近免费开放了其推理模型,并且也开始放出开源的信号。
而对于马斯克来说,OpenAI或许是xAI最大宿敌。马斯克于2023年创立了 xAI,旨在成为OpenAI的替代者,并公开批评 OpenAI 计划将自己重组为一家盈利性企业。
马斯克还对 OpenAI 提起了两项诉讼,指控其偏离了最初的创立原则,并提出以974亿美元收购 OpenAI 的非营利部门,但该提案上周遭到了OpenAI董事会的拒绝。萨姆·奥特曼表示,这一收购报价是“拖慢我们步伐”的策略。尽管马斯克曾参与OpenAI的创立,但自2018年离开董事会后,他对公司一直持批评态度。
而这两家公司都在进行惊人的融资,估值不断飙升。据彭博社上周报道,马斯克的 xAI 正在进行约100亿美元的融资洽谈,融资完成后,公司的估值将达到750亿美元,而xAI 上一次的估值为510亿美元。与此同时,OpenAI正在洽谈筹集最多400亿美元的资金,预计其估值将提升至3000亿美元。
两者借助资本所带来的“财大气粗”的特点也很明显。软银、OpenAI、甲骨文及阿布扎比支持的MGX已于一月联合宣布计划,在美国投资1000亿美元,最终将投入5000亿美元,用于建设数据中心及其他人工智能基础设施。同时,戴尔科技公司也接近完成一项价值超过50亿美元的交易,为xAI提供专为人工智能优化的服务器。
从当前情况来看,OpenAI确实是xAI最主要的竞争对手。两者在技术、市场定位和融资策略上都存在直接竞争关系。OpenAI凭借其成熟的产品线和强大的市场份额仍然处于领先地位。尽管Grok 3的发布在某些指标上有所优势,但从整体演示来看,并没有太多创新,更多是补齐和追上行业头部企业。真正支撑Grok 3的,似乎更多是那20万张GPU和源源不断的资本支持,而非真正的技术突破。这次发布也并非马斯克口中所说的“也许这是AI超越 Grok 的最后一次机会了。”
Grok 3发布的开场,马斯克再次介绍了xAI 与 Grok的使命:理解宇宙的本质,弄清楚正在发生的事情,寻找外星人的踪迹,探索生命的意义,了解宇宙的起源,并确定其终结方式。xAI以追求真理为动力,成为终极的求真人工智能。
然而,无论是实现这些宏大愿景,还是面对更现实层面的竞争,仅凭“钞能力”和榜单上的“最强”头衔,显然是不够的,要成为真正的“地球上最聪明AI”,马斯克和它的xAI还有很长的路要走。
免责声明:本文章仅代表作者个人观点,不代表本平台的立场和观点。本文章仅供信息分享,不构成对任何人的任何投资建议。用户与作者之间的任何争议,与本平台无关。如网页中刊载的文章或图片涉及侵权,请提供相关的权利证明和身份证明发送邮件到support@aicoin.com,本平台相关工作人员将会进行核查。