Sam Gao
Sam Gao|2025年01月29日 08:28
我对DeepSeek的看法(3/N) 3.为DeepSeek发声   DeepSeek R1的论文拥有惊人的指标,但也引起了怀疑:        1. 混合专家(MoE)技术 这种方法需要高水平的培训专业知识和庞大的数据集。这也是人们怀疑DeepSeek可能使用OpenAI数据进行训练的原因之一。        2. 强化学习(RL) 基于RL的方法需要大量的硬件资源。与Meta或OpenAI的数万个GPU相比,DeepSeek据称只使用了2048个H800进行训练。   考虑到有限的计算和MoE的复杂性,DeepSeek R1仅在500万预算下就取得了成功,这似乎太好了。然而,无论你是将R1视为“低成本的奇迹”,还是将其视为“只展示而没有实质”,它令人眼花缭乱的功能创新都不容忽视。   BitMEX联合创始人Arthur Hayes写道:   “DeepSeek的崛起会让全球投资者质疑美国的例外论吗?美国的资产是否被严重高估了?”   在今年的达沃斯论坛上,斯坦福大学的吴恩达教授公开表示:   “DeepSeek的进步给我留下了深刻的印象。我认为他们已经设法以一种非常经济高效的方式训练了他们的模型。他们最新的推理模型非常出色……恭喜他们!”   A16z创始人马克·安德森说:,   “DeepSeek R1是我见过的最令人震惊、最令人印象深刻的突破之一,作为一个开源版本,它是给世界的一份珍贵礼物。”
+3
曾提及
分享至:

脈絡

熱門快訊

APP下載

X

Telegram

Facebook

Reddit

複製鏈接

熱門閱讀