
Sam Gao|2025年01月29日 08:27
我对DeepSeek的看法(1/N)
近几个月来,DeepSeek V3和R1的连续发布让美国人工智能研究人员、企业家和投资者陷入狂热。这一现象与2022年底ChatGPT首次亮相所引发的冲击波不相上下。

凭借DeepSeek R1的完全开源模型(可在HuggingFace上免费下载以进行本地推理)和超低定价(OpenAI o1成本的1/100),DeepSeek飙升至美国之首。苹果应用商店在短短五天内。

但这个神秘的人工智能巨头——由一家中国量化交易公司孵化——起源于哪里?
1.DeepSeek的起源
我第一次听说DeepSeek是在2021年,当时我在阿里巴巴的达摩学院工作。当时,来自邻近团队的杰出研究员罗富丽(作为北京大学硕士生,他在一年内发表了8篇ACL论文)离开了公司,加入了High Flyer Quant。每个人都想知道为什么一家高利润的量化公司会招募人工智能人才?他们需要学术论文吗?

当时,High Flyer的人工智能研究人员主要独立探索前沿领域,重点是大型语言模型(LLM)和文本到图像模型(如OpenAI的DALL-E)。
到2022年底,High Flyer开始招募顶尖的人工智能人才,主要是清华大学和北京大学的学生,这得益于ChatGPT的成功。High Flyer的首席执行官梁文峰决定转向AGI:“我们成立了一家新公司,从语言模型开始,然后是愿景等等。”
这家公司就是DeepSeek。2023年初,随着智普、Moonshot和百川等中国人工智能初创公司占据头条新闻,DeepSeek——缺少像李开复这样的明星创始人(http://01.AI)杨志林 在北京的科技中心很难引起人们的注意。
DeepSeek作为一个没有名人支持的纯研究实体,在2023年过热的市场中面临着筹资挑战。风险投资家犹豫了:DeepSeek的团队由没有知名研究人员的新博士组成,投资回报率时间表不确定。High Flyer最终剥离了DeepSeek,完全在内部为其提供资金。
在喧嚣中,DeepSeek开始编写其AI传奇:
•2023年11月:推出DeepSeek LLM(67B参数),与GPT-4相媲美。
2024年5月:DeepSeek-V2正式发布。
•2024年12月:DeepSeek-V3首次亮相,表现优于Llama 3.1和Qwen 2.5,同时与GPT-4o和Claude 3.5 Sonnet相匹配。
•2025年1月:DeepSeek-R1——一种成本效益高的推理模型,定价低于OpenAI o1的1%——震撼了全球科技界。信息很明确:“开源获胜,中国已经到来。”
分享至:
脉络
热门快讯
APP下载
X
Telegram
复制链接