中国AI初创公司DeepSeek是如何与硅谷巨头竞争的?

今日头条
Toutiao
最新回复:2025年1月24日 17点47分 PT
  返回列表
13734 阅读
19 评论
纽约时报中文网


中国AI初创公司DeepSeek发布的AI系统性能可与OpenAI等公司的尖端产品相媲美,而其使用的芯片数量远少于硅谷同行。这让人们对美国政府对华贸易限制的效果产生了质疑。https://t.co/qVuPFs4Apr

— 纽约时报中文网 (@nytchinese) January 24, 2025

圣诞节的第二天,一家名为深度求索(DeepSeek)的中国小型初创公司发布了一个新的人工智能系统,其功能可与OpenAI和谷歌等公司的尖端聊天机器人相媲美。

能做到这点本已是一个里程碑。但这个名为DeepSeek-V3的大模型背后的团队描述了一个更大的进步。深度求索的工程师在介绍他们如何构建这个大模型的研究论文中写道,他们在训练该系统时只用了领先人工智能公司用的高度专业化计算机芯片的一小部分。

这些芯片是美中激烈技术竞争的核心。随着美国政府努力保持本国在全球人工智能竞争中的领先地位,它正在试图对能出售给中国以及其他竞争对手的高性能芯片(如硅谷公司英伟达生产的那些)进行限制。

但DeepSeek大模型的表现让人们对美国政府贸易限制的意外后果产生了质疑。美国的出口管制措施已迫使中国研究人员使用互联网上免费提供的各种工具来发挥创造力。

据美国人工智能公司一直使用的行业基准测试,DeepSeek聊天机器人能回答问题、解决逻辑问题,并编写自己的计算机程序,其能力不亚于市场上已有的任何产品。

而且它的造价很低,挑战了只有最大的科技企业(它们全都在美国)才能制造出最先进的人工智能系统的普遍观念。中国工程师称,他们只花了约600万美元的原始计算能力就训练了新模型,不到科技巨头Meta训练其最新人工智能模型所耗资金的十分之一。

“有600万美元资金的公司在数量上远远多于有1亿美元或10亿美元资金的公司,”风险投资公司Page One Ventures的投资人克里斯·尼科尔森说道,他主要投资人工智能技术。

自从OpenAI 2022年发布了ChatGPT,引发人工智能热潮以来,许多专家和投资者曾得出结论认为,如果不投入数亿美元购买人工智能专用芯片的话,没有公司能与行业领军者竞争。

世界领先的人工智能公司用超级计算机来训练它们的聊天机器人,这些超级计算机需要多达1.6万个芯片,甚至更多。但DeepSeek的工程师却说,他们只用了约2000个英伟达生产的专用芯片。

中国进口芯片受到限制,迫使DeepSeek工程师“更有效地训练大模型,以让其仍有竞争力”,乔治华盛顿大学专门研究新兴技术和国际关系的助理教授杰弗里·丁(音)说。

“DeepSeek是让我省钱的办法,”他说。“这是像我这样的人想用的技术。”

本月早些时候,拜登政府颁布了旨在阻止中国通过其他国家获得先进人工智能芯片的新规则。新规则出台前,美国已采取了多轮限制措施,阻止中国公司购买或制造尖端计算机芯片。特朗普总统尚未表明他是否会继续实施或取消这些措施。

美国政府一直试图阻止中国公司获得先进芯片,因为担心这些芯片可能用于军事目的。作为回应,中国的一些公司囤积了大量这类芯片,另一些公司则在蓬勃发展的黑市采购走私芯片。

DeepSeek由一家名叫幻方的量化股票交易公司运营。到2001年,它已将利润投入购买数千枚英伟达芯片,用于训练其早期模型。公司没有回复记者的置评请求,它在中国有一种名声,那就是以高薪和让人们能够探索最感兴趣的研究课题为承诺,吸引了刚从顶尖大学毕业的人才。

曾参与早期DeepSeek大模型开发的计算机工程师汪子涵(音)说,公司也雇佣没有任何计算机科学背景的人帮助该技术理解并生成诗歌,并在做难度极大的中国高考试卷时获得高分。

DeepSeek不制造任何消费者产品,而是让工程师全神贯注地做研究。这意味着其技术不受中国有关人工智能法规中最严格部分的限制,中国要求面向消费者的技术必须遵循政府对信息的控制。

领先的美国公司继续推动人工智能的发展。去年12月,OpenAI公布了一款性能超过现有技术的名为o3的新“推理”系统,尽管该系统尚未在该公司以外得到广泛使用。但DeepSeek继续表明自己并不落后,它在本月发布了自己的一个推理模型,性能同样令人印象深刻。

(《纽约时报》已起诉OpenAI及其合作伙伴微软,称其侵犯了与人工智能系统相关新闻内容的版权。OpenAI和微软否认了这些指控。)

这个快速变化的全球市场的关键部分是一个存在已久的想法:开源软件。与许多其他公司一样,DeepSeek也将其最新的人工智能模型放入开源软件系统,这意味着它已经与其他企业和研究人员共享了基础代码,让其他人能用相同的技术构建和发布自己的产品。

虽然中国大型科技企业的员工只与自己的同事合作,但“如果你从事开源软件开发,你其实是在与世界各地的人才合作”,旧金山Baseten的首席软件工程师张一能(音)说,他为开源的SGLang项目工作。他还帮助其他人和公司使用DeepSeek模型构建产品。

2023年,Meta免费分享了一个名为LLama的人工智能模型后,人工智能的开源生态系统开始蓬勃发展。许多人曾假设,只有像Meta这样的科技巨头——拥有使用大量专用芯片的大型数据中心——继续开源其技术,人工智能社区才会蓬勃发展。但DeepSeek和其他公司已表明,它们也可以拓展开源技术的能力。

许多高管和专家认为,美国大公司不应该开源其技术,因为它们能被用来传播虚假信息或造成其他严重危害。一些美国立法者已在探索阻止或限制开源的可能性。

但也有人认为,如果监管机构扼杀了开源技术在美国的进步,中国将获得显著优势。他们认为,如果最好的开源技术来自中国,美国开发人员将在这些技术的基础上构建他们的系统。从长远来看,这可能会让中国成为研发人工智能的中心。

“开源社区的重心已在向中国转移,”加州大学伯克利分校计算机科学教授伊恩·斯托伊卡说。“这对美国来说可能是一个巨大的危险”,因为它让中国得以加速新技术的研发。

就职典礼数小时后,特朗普总统撤销了拜登政府威胁限制开源技术的行政命令。

斯托伊卡和他的学生最近构建了一个名为Sky-T1的人工智能模型,在某些基准测试中,该模型的性能可与最新的OpenAI系统——OpenAI o1相媲美。他们的模型只需要450美元的计算能力。

他们能做到这点是因为他们的系统是建在中国科技巨头阿里巴巴发布的两项开源技术的基础之上的。

他们450美元的系统不如OpenAI技术或DeepSeek新模型强大。他们使用的技术不太可能产生超越领先技术性能的系统。但他们的研究表明,即使是资源微不足道的组织或者企业,也能构建具有竞争力的系统。

多伦多的技术顾问鲁文·科恩从去年12月下旬起一直在使用 DeepSeek-V3。他说,该模型与OpenAI、谷歌,以及旧金山初创公司Anthropic的最新系统能力相当,而且使用起来便宜得多。

“DeepSeek是让我省钱的办法,”他说。“这是像我这样的人想用的技术。”

令胡冲
1 楼
自古英雄出少年。用了,效果不错。看了下设计思路,青出于蓝而胜于蓝。编程等方面远强于Llama3.2。
k
kl3527
2 楼
没有提到的,是DS是在没有用OpenAI的输出和Meta的开源,完全如OpenAI和Meta, Google一样产生的模型吗?:)
令胡冲
3 楼
主要来自Llama2开源,之后有自己的各处改进与小创新,结果很多方面可能超越了Llama3.3。 Generally speaking, DeepSeek-LLM follows Llama 2 very closely: RMSNorm, SwiGLU, RoPE, etc. The 67B model uses GQA, the 7B model does not. The biggest difference in the architecture itself is in the tokenizer: as mentioned a bit ago, it uses a 102k tokenizer, most likely to enable its performance in both English and Chinese.
令胡冲
4 楼
另,GPT,Llama,Gemini都不是凭空产生的创新。都是一脉相承,来自于Ttransformer及其Attention机制。 GPT3中了大彩,是因为数据整合碰巧做对了。具体如何对,对在哪里,为何Gemini至今仍然做不太对,抱歉,没人知道答案,yet. —————— kl3527 发表评论于 2025-01-24 13:10:00 没有提到的,是DS是在没有用OpenAI的输出和Meta的开源,完全如OpenAI和Meta, Google一样产生的模型吗?:)
k
kl3527
5 楼
我也许没有说清楚。我说的意思是DS做的类似“二次开发”
T
TitaniumAtlas
6 楼
低端芯片一样可以训练模型啦,只是时间长点,而且你用人家已经整理好的数据能够更省,要是限制某些领域还可以更进一步。
令胡冲
7 楼
确实。这对川普和奥特曼而言是当头一棒。可能根本用不着5000亿。 如果像马斯克所说,OpenAI继续开源,中国土生土长这些年轻人可能早就把它的训练成本降十倍下来了。而且Nvidia也不应该垄断暴利。那就不需要那么多成本来突破AGI了。
墙头的一朵梨花
8 楼
学习了一下相对论就产生智商比肩爱因斯坦的错觉。????????
生肖迷宫
9 楼
AI人才,一半来自中国,但是由于中共的封闭,AI成果主要出自美国。尽管如此,中共AI的发展潜质还是不能低估的。
M
Maui2021
10 楼
美国现在很危险。 现在AI方向的top conference, 一半paper来自中国。
令胡冲
11 楼
一多半来自中国。而且中国公司特别open,全部源码上传共享。没有丝毫恶性竞争的意思。这种贴文说竞争可能是不怀好意。
w
worley
12 楼
简单地说:就是直接偷数据。 模型训练需要的是高质量数据,OpenAI耗时数年、花费几十亿美元、整理标注和出资购买的数据。中国的AI公司偷来就用、零成本。 模型好坏,最后比的就是谁有高质量数据。因为AI模型是garbage in, garbage out。 模型好坏有一些小的区别,最关键还是数据。
w
worley
13 楼
拿中国公司没办法,它们可以把美国的所有优秀模型的数据全偷走。 你去中国起诉它们?谁理你。
令胡冲
14 楼
楼下,没人能用ChatGPT数据集,那从没有开放。Deepseek用ChatGPT自动标识了部分数据集,还有些是直接来自于Llama2训练集,也有一些ChatGPT合成的伪数据集。业内所有大模型都用ChatGPT生成训练集,包括谷歌的Gemini。
w
wjhwsh
15 楼
要是真的偷,为什么chatgpt不出来说两句?开源系统,好不好自然有无数专家评判,几个测评公司也不是吃干饭的。
r
randomspot
16 楼
低中高档制造业, 中国有能力大幅度压低成本, 很大程度是 - 中国人能吃苦(内卷), - 中国人收入低(目前), - 人民币被人为贬值太多。 但这个例子的高科技中国也能大幅度打压成本, 靠的是创新;而且成果开源, 全世界的AI研究人员都可以借鉴。 这一点比chatGPT要强。
e
edccde
17 楼
DeepSeek是强大的创新! 好玩的是,今天看Meta的员工说,DeepSeek只花了600万美元,而Meta的总监工资就不止600万,还有好几十个。 中国公司现在是高效的创新,还是开源的,全世界都可以免费用。太了不起了。看看文学城的恨中怎么喷。
T
TitaniumAtlas
18 楼
猜就是
生意不错
19 楼
DeepSeek有点吹牛了,过誉了.我试了一下,效果比OpenAI差的不是一半点, 差得远,不宜过分吹捧 我让这些个模型做一些唐诗宋词, 不得抄袭已有的.高下很明显. OpenAI表现最好, 在线用,做的诗词比一般文化人要好,相当于中流诗人的感觉 Llama3用的是70B模型配的4090+128G内存14900k的本地配置, 末流,不入流作者的感觉,象一般学生的作品 DeepSeek那是惨不忍暏,不是抄袭原句, 就是狗屁不通.