
Sam Gao|2025年01月29日 12:37
我对DeepSeek的看法(3/N):为DeepSeek发声
DeepSeek R1的论文拥有惊人的指标,但也引起了怀疑:
1.混合专家(MoE)技术
这种方法需要高水平的培训专业知识和庞大的数据集。这也是人们怀疑DeepSeek可能使用OpenAI数据进行训练的原因之一。
2.强化学习(RL)
基于RL的方法需要大量的硬件资源。与Meta或OpenAI的数万个GPU相比,DeepSeek据称只使用了2048个H800进行训练。
考虑到有限的计算和MoE的复杂性,DeepSeek R1仅在500万预算下就取得了成功,这似乎太好了。然而,无论你是将R1视为“低成本的奇迹”,还是将其视为“只展示而没有实质”,它令人眼花缭乱的功能创新都不容忽视。
BitMEX联合创始人Arthur Hayes写道:
“DeepSeek的崛起会让全球投资者质疑美国的例外论吗?美国的资产是否被严重高估了?”
在今年的达沃斯论坛上,斯坦福大学的吴恩达教授公开表示:
“DeepSeek的进步给我留下了深刻的印象。我认为他们已经设法以一种非常经济高效的方式训练了他们的模型。他们最新的推理模型非常出色……恭喜他们!”
A16z创始人马克·安德森说:,
“DeepSeek R1是我见过的最令人震惊、最令人印象深刻的突破之一,作为一个开源版本,它是给世界的一份珍贵礼物。”
早在2023年,DeepSeek仍然站在舞台的边缘。到2025年,就在中国新年之前,它已经上升到人工智能世界的顶峰。
分享至:
脈絡
熱門快訊
APP下載
X
Telegram
複製鏈接