纽时:中国AI初创公司DeepSeek是如何与硅谷巨头竞争的

玻璃坊
楼主 (文学城)
圣诞节的第二天,一家名为深度求索(DeepSeek)的中国小型初创公司发布了一个新的人工智能系统,其功能可与OpenAI和谷歌等公司的尖端聊天机器人相媲美。 能做到这点本已是一个里程碑。但这个名为DeepSeek-V3的大模型背后的团队描述了一个更大的进步。深度求索的工程师在介绍他们如何构建这个大模型的研究论文中写道,他们在训练该系统时只用了领先人工智能公司用的高度专业化计算机芯片的一小部分。 这些芯片是美中激烈技术竞争的核心。随着美国政府努力保持本国在全球人工智能竞争中的领先地位,它正在试图对能出售给中国以及其他竞争对手的高性能芯片(如硅谷公司英伟达生产的那些)进行限制。 但DeepSeek大模型的表现让人们对美国政府贸易限制的意外后果产生了质疑。美国的出口管制措施已迫使中国研究人员使用互联网上免费提供的各种工具来发挥创造力。 据美国人工智能公司一直使用的行业基准测试,DeepSeek聊天机器人能回答问题、解决逻辑问题,并编写自己的计算机程序,其能力不亚于市场上已有的任何产品。 而且它的造价很低,挑战了只有最大的科技企业(它们全都在美国)才能制造出最先进的人工智能系统的普遍观念。中国工程师称,他们只花了约600万美元的原始计算能力就训练了新模型,不到科技巨头Meta训练其最新人工智能模型所耗资金的十分之一。 “有600万美元资金的公司在数量上远远多于有1亿美元或10亿美元资金的公司,”风险投资公司Page One Ventures的投资人克里斯·尼科尔森说道,他主要投资人工智能技术。 自从OpenAI 2022年发布了ChatGPT,引发人工智能热潮以来,许多专家和投资者曾得出结论认为,如果不投入数亿美元购买人工智能专用芯片的话,没有公司能与行业领军者竞争。 世界领先的人工智能公司用超级计算机来训练它们的聊天机器人,这些超级计算机需要多达1.6万个芯片,甚至更多。但DeepSeek的工程师却说,他们只用了约2000个英伟达生产的专用芯片。 中国进口芯片受到限制,迫使DeepSeek工程师“更有效地训练大模型,以让其仍有竞争力”,乔治华盛顿大学专门研究新兴技术和国际关系的助理教授杰弗里·丁(音)说。 本月早些时候,拜登政府颁布了旨在阻止中国通过其他国家获得先进人工智能芯片的新规则。新规则出台前,美国已采取了多轮限制措施,阻止中国公司购买或制造尖端计算机芯片。特朗普总统尚未表明他是否会继续实施或取消这些措施。 美国政府一直试图阻止中国公司获得先进芯片,因为担心这些芯片可能用于军事目的。作为回应,中国的一些公司囤积了大量这类芯片,另一些公司则在蓬勃发展的黑市采购走私芯片。 DeepSeek由一家名叫幻方的量化股票交易公司运营。到2001(注:原文可能有误,很可能是2021)年,它已将利润投入购买数千枚英伟达芯片,用于训练其早期模型。公司没有回复记者的置评请求,它在中国有一种名声,那就是以高薪和让人们能够探索最感兴趣的研究课题为承诺,吸引了刚从顶尖大学毕业的人才。 曾参与早期DeepSeek大模型开发的计算机工程师汪子涵(音)说,公司也雇佣没有任何计算机科学背景的人帮助该技术理解并生成诗歌,并在做难度极大的中国高考试卷时获得高分。 DeepSeek不制造任何消费者产品,而是让工程师全神贯注地做研究。这意味着其技术不受中国有关人工智能法规中最严格部分的限制,中国要求面向消费者的技术必须遵循政府对信息的控制。 领先的美国公司继续推动人工智能的发展。去年12月,OpenAI公布了一款性能超过现有技术的名为o3的新“推理”系统,尽管该系统尚未在该公司以外得到广泛使用。但DeepSeek继续表明自己并不落后,它在本月发布了自己的一个推理模型,性能同样令人印象深刻。 这个快速变化的全球市场的关键部分是一个存在已久的想法:开源软件。与许多其他公司一样,DeepSeek也将其最新的人工智能模型放入开源软件系统,这意味着它已经与其他企业和研究人员共享了基础代码,让其他人能用相同的技术构建和发布自己的产品。 虽然中国大型科技企业的员工只与自己的同事合作,但“如果你从事开源软件开发,你其实是在与世界各地的人才合作”,旧金山Baseten的首席软件工程师张一能(音)说,他为开源的SGLang项目工作。他还帮助其他人和公司使用DeepSeek模型构建产品。 2023年,Meta免费分享了一个名为LLama的人工智能模型后,人工智能的开源生态系统开始蓬勃发展。许多人曾假设,只有像Meta这样的科技巨头——拥有使用大量专用芯片的大型数据中心——继续开源其技术,人工智能社区才会蓬勃发展。但DeepSeek和其他公司已表明,它们也可以拓展开源技术的能力。 许多高管和专家认为,美国大公司不应该开源其技术,因为它们能被用来传播虚假信息或造成其他严重危害。一些美国立法者已在探索阻止或限制开源的可能性。 但也有人认为,如果监管机构扼杀了开源技术在美国的进步,中国将获得显著优势。他们认为,如果最好的开源技术来自中国,美国开发人员将在这些技术的基础上构建他们的系统。从长远来看,这可能会让中国成为研发人工智能的中心。 “开源社区的重心已在向中国转移,”加州大学伯克利分校计算机科学教授伊恩·斯托伊卡说。“这对美国来说可能是一个巨大的危险”,因为它让中国得以加速新技术的研发。 就职典礼数小时后,特朗普总统撤销了拜登政府威胁限制开源技术的行政命令。 斯托伊卡和他的学生最近构建了一个名为Sky-T1的人工智能模型,在某些基准测试中,该模型的性能可与最新的OpenAI系统——OpenAI o1相媲美。他们的模型只需要450美元的计算能力。 他们能做到这点是因为他们的系统是建在中国科技巨头阿里巴巴发布的两项开源技术的基础之上的。 他们450美元的系统不如OpenAI技术或DeepSeek新模型强大。他们使用的技术不太可能产生超越领先技术性能的系统。但他们的研究表明,即使是资源微不足道的组织或者企业,也能构建具有竞争力的系统。 多伦多的技术顾问鲁文·科恩(Reuven Cohen, a technology consultant in Toronto)从去年12月下旬起一直在使用 DeepSeek-V3。他说,该模型与OpenAI、谷歌,以及旧金山初创公司Anthropic的最新系统能力相当,而且使用起来便宜得多。 “DeepSeek是让我省钱的办法,”他说。“这是像我这样的人想用的技术。”
玻璃坊
投坛有没有懂AI算法的,DeepSeek是不是算法很先进?

尽管它硬件不行。

纽时提到的Reuven Cohen是多大的AI专家,他的话还是可信的。

M
Maui2021
小红书上有人转了个blind上的贴。说Meta GenAI 整个org正在panicking.
M
Maui2021
如果Trump放松AI chips control to China, then game over for US.
s
study169
不需要看投坛的建议,看看X/LinkedIn 有没有反驳的建议
b
bulubulu
是的,具体技术细节你可以自己搜下。当然这里的人是不会承认的。中国的,肯定是坑蒙拐骗偷来的假货歪货,怎么可能。。。

美国都要花这么多钱(还要继续花5000亿的大饼,接下来N万亿的大饼)还做不好,中国的怎么可能。。。肯定是假的吹牛的!

M
Maui2021
那,美国的下一代怎么办。。。

B
BrightLine
我认为没什么,因为:

1,国人善于拷贝把现有的东西卷成白菜价,永远会这样

2,这些算法的优化肯定不错,但是没有突破。就好比我们以前用汇编语言省内存,结果算力加大,新的语言层出不穷,最后汇编语言都不用了

3,StarGate不是傻子,算力现在才是最重要的。ChatGPT5现在进度不快,需要更大的算力

4,OpenAI还有很多存货,就是不愿发布。他们在冲击AGI和后面的ASI。

5,这是军备竞赛,要到AGI和ASI,现在的算力还远远不够

6,现在真正提供算力的只有NVDA一家是通用的,没有替代品

 

B
BBL123
Top 5 cs大学研究生院用算法常搞些比chat GPT便宜多的东西、哪里还是一堆中国研究生.這些人回国

搞些新玩意'分分钟事

t
t130152
问了一个海盗分金的逻辑问题,比之ChatGPT,DeepSeek逻辑上不自洽。

海盗分金问题是一个经典的博弈论问题,通常描述为五个海盗分一堆金币的情景,每个海盗都非常聪明且贪婪,即尽可能实现自己最大利益。规则如下:

    1.    海盗按排名依次提议如何分配金币,从排名最高的海盗开始。

    2.    每次提议后,所有海盗投票决定是否接受这个提议。如果至少一半(包括一半)的海盗同意,提议通过并执行。如果提议被否决,提议的海盗会被扔下船,剩下的海盗继续提议分配。

    3.    海盗们都希望尽可能多地得到金币,同时他们也希望看到其他海盗被扔下船。

设有五个海盗,A、B、C、D、E,他们按排名从高到低(A最高,E最低),并有100个金币。问题是,海盗A如何提议分配才能确保自己得到最多的金币?

p
parentb
用OpenAi的LLM(Large Language Model)训练自己的LLM,你觉得这是创新,弯道超车还是偷鸡摸?
w
wlwt123
如果你有很多钱留给后代,怕什么?这个是拼爹的时代。
玻璃坊
答案分别是?
云崖水暖
我觉得是创新,从而它发展出左右互搏。OPENAI也可以用自己的LLM去训练自己更牛的LLM啊,没人拦着啊,近水楼台啊,

为什么没有更惊艳的LLM发布呢?说明DeepSeek还是有牛的地方

b
bulubulu
神特么汇编语言是为了省内存和”算力“

你贴的这些和上面另外一个ID的大同小异,估计你们用的是同一个AI生成的。