美国AI公司试图破解DeepSeek破坏性创新技术 - 2025年1月28日 / 头条新闻

大约 2 个月前

美国AI公司试图破解DeepSeek破坏性创新技术 https://t.co/I7yxkfrhkd
— 美国之音中文网 (@VOAChinese) January 28, 2025

美国领先的人工智能(AI)公司开发人员在赞扬迅速崛起而声名大噪的DeepSeek AI模型的同时，也试图找出其漏洞，以反驳“中国后来者以低成本替代方案击败他们耗资数十亿美元的技术”这种观点。

中国初创公司深度求索(DeepSeek)星期一(1月27日)引发了美股市场抛售，其免费AI助手在美国苹果应用商店的下载量超越了OpenAI的ChatGPT。该公司声称，其模型利用性能较低的英伟达(Nvidia)H800处理器芯片做训练，花费不到600万美元。

了解四大领先AI实验室想法的知情人士表示，随着对竞争的担忧在美国股市蔓延，一些AI专家对深度求索的坚强团队和最新研究表示赞赏，但对该发展依旧泰然自若而未感到震惊。

Open AI首席执行官萨姆·奥尔特曼(Sam Altman)在X平台上写道，R1是深度求索最近几周发布的几种模型之一，“是一款令人印象深刻的模型，尤其是考虑到它们能够以这个价格提供。”

英伟达在一份声明中表示，深度求索的成就证明了市场有更多对英伟达芯片的需求。

美国软件制造商雪花(Snowflake)在收到客户咨询激增后，星期一决定将DeepSeek模型添加到其AI模型市场。

雪花产品执行副总裁克里斯蒂安·克莱纳曼(Christian Kleinerman)表示，连其员工也称DeepSeek的模型“令人惊叹”，并且该公司在权衡了托管该中国开发的AI技术可能面临的潜在风险后，最终决定向客户提供这项服务。

与此同时，美国AI开发人员正加紧分析DeepSeek的V3模型。深度求索去年12月伴随该模型发表了一篇研究论文，该论文是其流行应用程序的基础，但那篇论文中并未回答诸如总开发成本等许多问题。

一位知情人士表示，中国目前已将落后美国最先进的AI模型的时间从18个月大幅缩短至6个月；然而，由于DeepSeek的免费发布策略引发了如此多的兴趣和关注，该公司可能很快就会发现自己没有足够的芯片来满足需求。

DeepSeek的进步并非仅依靠600万美元的微薄预算。该研究论文指出，这笔成本特指最终训练运行中的芯片使用，而不是整个开发成本。

两家顶级实验室的高管告诉路透社，训练运行只是总成本的冰山一角，确定如何设计训练运行的成本支出可能会高出很多。

该论文说，V3的训练运行使用了2,048块英伟达的H800芯片，这些芯片的设计旨在符合2022年发布的美国出口管制规定。专家告诉路透社，这些2022年美国出口管制规定几乎没有减缓中国AI的进展。

两家AI实验室的消息人士表示，他们预计早期开发阶段依赖了大量的芯片。其中一位消息人士说，这样的投资可能高达10亿美元。

一些美国AI领袖对深度求索将其模型以开源形式发布的决定表示赞赏，这意味着其他公司或个人可以自由使用或更改这些模型。

“DeepSeek R1是我见过的最令人惊叹和令人印象深刻的突破之一，而且作为开源技术，它是给世界的一份大礼，”风险投资家马克·安德森(Marc Andreessen)星期天在X平台上一篇贴子中表示。

业内观察人士表示，DeepSeek模型获得的赞赏凸显了开源AI技术作为诸如OpenAI的ChatGPT等昂贵且严格控制技术的替代方案的可行性。

分析师估计，美国大型云计算公司今年在AI基础设施上将投入高达2500亿美元。

近年来，华尔街最有价值的公司股价飙升，因为人们预期只有这些公司才能获得开发和扩展新兴AI技术所需的大量资本和计算能力。

本周和下周，许多美国科技巨头将公布季度收益，届时这些假设将受到进一步的审视。

goldeyeball1

大约 2 个月

1 楼

硅谷那些AI蠢材，花掉了上万亿，结果被一个100多人，仅仅用几百万美元就打得满地找牙，还有脸出来对人家评头论足，真是莫大的耻辱！

王

王猪猪

大约 2 个月

2 楼

软件产业做到弯道超车还是相对容易的。美国在软件方面不能押注太多。这东西一开源，字典上最美的词也不好使了。

luting

大约 2 个月

3 楼

难听点就是美国AI公司试图山寨DeepSeek破坏性创新技术

梦

梦想天空

大约 2 个月

4 楼

梁文峰的本职工作是做基金的，DeepSeek对他来说就是一个副业，所以他不可能投资几十个亿去搞这个。估计他自己也没想到一批刚毕业的博士硕士研究生竟然还真给做出来了。不得不说，现在国内的这帮孩子是真聪明，而且国内的高等教育水平也越来越好。

Yummy2000

大约 2 个月

5 楼

梁文峰是玩资本的，应该是为上市做准备。有点技术，但不是颠覆性的。年后上市，可以收割一把韭菜。 ..................................................... 梦想天空发表评论于 2025-01-28 09:01:55梁文峰的本职工作是做基金的，DeepSeek对他来说就是一个副业，所以他不可能投资几十个亿去搞这个。估计他自己也没想到一批刚毕业的博士硕士研究生竟然还真给做出来了。不得不说，现在国内的这帮孩子是真聪明，而且国内的高等教育水平也越来越好。

worley

大约 2 个月

6 楼

因为deepseek直接盗取（蒸馏）了chatgpt的数据进行学习。给出的答案往往跟chatgpt o1一样。美国公司当然不能直接盗取chatgpt数据，但是现在可以直接使用deepseek，反正盗取数据的不是我。

BDPLX

大约 2 个月

7 楼

到底有多少水分，还很难说，不能全信花街的，让子弹飞一会儿

闲

闲聊几句

大约 2 个月

8 楼

source code 开源，training 模型的数据也开源？不会吧？

罗

罗马军团

大约 2 个月

9 楼

worley 发表评论于 2025-01-28 09:06:36 因为deepseek直接盗取（蒸馏）了chatgpt的数据进行学习。给出的答案往往跟chatgpt o1一样。美国公司当然不能直接盗取chatgpt数据，但是现在可以直接使用deepseek，反正盗取数据的不是我。 - 倒不能说盗取，大模型产生的数据本身并没有版权，至少目前没有。但是，用现有大模型产生的数据去训练自己的大模型，这本质上还是copy/paste，成本当然低。但它只能模仿和跟随，而不能超越。然而这种方法还是有意义的，就和生物学上的子代一样，现在deepseek做的是类似细胞克隆，或者说单性繁殖。最好的方式是杂交，也就是用几个大模型给的数据来产生子代，这样的后代更强壮，具有突破前代自我进化的可能。但是前提是需要许多独立的大模型做亲本，独立的大模型越多越好。原始的数据训练是基础，这不可能绕过。

弯

弯刀月

大约 2 个月

10 楼

在真正技术面前，阿三嘴皮子不好使了？

DANIU_S

大约 2 个月

11 楼

科学领域主要有一点儿进步，就应该鼓励，起码比拍马屁、说得天花乱坠的印度人强。

罗

罗马军团

大约 2 个月

12 楼

用生物学的观点来看，原始的大模型是产生基因，这种子代模型在杂交的过程中可能会产生变异，从而产生新的基因，这是自我进化的基础。生物学上的基因变异最终要靠自然选择来淘汰不适应的变异，保留适应性更强的基因，那么AI这里也必须有一个选择和淘汰机制，合乎逻辑的淘汰机制是用户的选择和反馈。这种方法的确是一条道路，但是产生的机制还需要更多探索。但是不管怎么说，对算力的要求是没有止境的。成本的降低，带来的从来都是索取更多的产出，而不是更少的投入，投入是不会减少的。

DANIU_S

大约 2 个月

13 楼

本城痛恨中国人的，都是些什么人？如果是祖上真被共产党欺负了，还有情可原，如果只是单纯地反华，讨厌中国大陆人，那就没意思啦。

罗

罗马军团

大约 2 个月

14 楼

我刚才说 “但是不管怎么说，对算力的要求是没有止境的。成本的降低，带来的从来都是索取更多的产出，而不是更少的投入，投入是不会减少的。” 这句话不完整，完整的逻辑是：产出多少跟不上不是投入决定的，而是需求决定的，只要有需求就会刺激产出。如果现在对AI的需求饱和了，那么算力成本的降低将会减少对硬件的投入。然而事实是需求还远远远远不能满足，所以算力成本的降低带来的反而会是投入的增长，因为产出的利润变大了。

chinesegod3

大约 2 个月

15 楼

没必要瞎吹，DeepSeek用的蒸馏技术在硅谷很多小公司也都有做，只是这些小公司专注于某个专门领域，而且在这些专门领域非常强了。DeepSeek做成了一个MOE LLM，而且低成本。不算啥革命性的，transformer，chatgpt刚出来才是革命性的创新，现在只是整个时间线的插曲而已。还是谦虚一点。但是大模型在中国是被隔离的，国内出头的大模型以后有市场是真的。

技

技术员

大约 2 个月

16 楼

不愧是VOA。就不想想DeepSeek也能破解美国AI的破坏性创新技术吗？

baijiazhuang

大约 2 个月

17 楼

美国AI成本估计得包括每位高管的起码8个figureUSD薪酬，：）

令

令胡冲

大约 2 个月

18 楼

Deepseek并不知道GPT o1或o3内部数据Softmax准确分布，它不可能distill别人的大模型知识或推理过程。它只能蒸馏自己的大模型，来微调其它小模型。它用GPT来生成训练数据，但直接distill不大可能。 ——————- chinesegod3 发表评论于 2025-01-28 09:37:14 没必要瞎吹，DeepSeek用的蒸馏技术在硅谷很多小公司也都有做，只是这些小公司专注于某个专门领域，而且在这些专门领域非常强了。

tw1234

大约 2 个月

19 楼

其实还是0到1，还是1到9 那个更厉害，更困难！

ln2020

大约 2 个月

20 楼

相比傻呵呵的硬算，这个算法如果能够验证，是个伟大的进步，至少也打开了思路。希望老黄的卡能够因此更亲民一些。

ln2020

大约 2 个月

21 楼

反正过段就能看到有没有第二、三家出来？

Dwclys

大约 2 个月

22 楼

酸憋的偷窥

绝

绝望小狗

大约 2 个月

23 楼

城里有这么些痛恨自己黄皮的畜生

theriver1

大约 2 个月

24 楼

对Deepseek-R1和ChatGPT4进行初步比较后感觉其对中文理解力还是满强的。在某些方面甚至超过ChatGPT4。在解数学题和编程能力上也很强大，已经接近ChatGPT4。但是创意生成和ChatGPT4还有很大差距，毕竟靠做题进行优化培训的强化学习思路必然带来“结构化思维大大高于发散型思维”这个致命缺陷！另外，Deepseek-R1相比ChatGPT4还有个缺点－没有多模态，也就是无法通过整合来自不同模态的数据（图像、文字、音频、视频等）从而增强模型的理解能力和推理能力。其官网上之所以可以上传有文字的图，是因为它在传给大模型之前就做了文字的OCR处理，直接调用API是没有的。还有就是Deepseek-R1对AGI（通用人工智能）基本没啥贡献，所以其未来对于ChatGPT５不会带来任何威胁。个人觉得Deepseek最大的意义在于倒逼各家把大模型的服务价格压下来，面对OpenAI每月200美元的服务费，Deepseek-R1简直就是白菜价（I/O各1元人民币/每百万Token）

theriver1

大约 2 个月

25 楼

昨晚仔细研究了一下DeepSeek-R1,终于冷静下来了。现在基本上倾向于DeepSeek是AI拼多多的说法。因为DeepSeek算法根本就没有什么自己的革命性的创新！它只不过是集成了以下一系列美国人发明（都是美国公司公开发表的论文和技术）的成熟或不太成熟的优化算法的架构模型和创新，最终达到靠压缩整体工作量和压榨每个任务（不让任务闲下来）的路径来最大限度地降低算力资源的成本： 1.MLA多层注意力架构 2.FP8混合精度训练框架 3.DualPipe跨节点通信 4.无辅助损失的负载均衡策略 5.跨节点全对全通信内核 6.MTP技术 7.数据精筛 8.DeepSeek-R1蒸馏其中最重要的是前两个架构，它们都是为了压缩工作量的，也是其与ChatGpt等美国公司大模型的最主要区别。

theriver1

大约 2 个月

26 楼

各种优化算法都有自己的优缺点，不同的公司采取不同的优化思路，说白了就是在性能、价格和结果上达到“符合本公司目标”的平衡。比如Deepseek-R1不同于ChatGPT的架构-FP8混合精度训练框架，这里的FP8就是二进制里8个比特位，位数越多代表精度越高，ChatGPT是32位和16位，Deepseek-R1是8位，这就比ChatGPT少了一半的计算量和内存，由此带来的精度误差用“混合精度”来弥补（对于精度要求高的数据，先用类似四舍五入的方法快速计算，再每128个数的结果交给32位的会计程序精算），最终大大压缩了计算量，但是精度肯定远远不如ChatGPT。这种方法就是DS在平衡了性价比和结果后选择的偏向性价比的优化思路。

城

城头散仙

大约一个月

27 楼

DeepSeek 的創新是絕對真實，有意義的。很多美國AI公司的管理層拿的工資都比這家中國公司AI模型的訓練費用高出幾十倍，搞出的東西還不如中國產品，這在投資人眼裡是絕對說不過去的。。還有就是很多出來矇騙的所謂AI工程師的日子不好混了。DeepSeek 讓所有人使用AI開發，免費使用自己的AI產品的門檻一下子降到最低，動了很多很多人的奶酪，有幾個臭蟲出來酸一下，也算正常。

pcboy888

大约一个月

28 楼

“破坏性技术创新”？

令

令胡冲

大约一个月

29 楼

你可能学习了傅聪的帖子，精神可嘉，总结不错。:)。MLA中文是多头潜注意力，不是多层注意力，确实是DeepSeek人家自己创新。注意力机制一直在创新进化，成功的不多。难说每项创新起多大作用，但这些研究或工程创新每项平均值10M，在每次训练中。巨大创新价值难以估量。 ————— theriver1 发表评论于 2025-01-28 10:36:17 昨晚仔细研究了一下DeepSeek-R1,终于冷静下来了。现在基本上倾向于DeepSeek是AI拼多多的说法。因为DeepSeek算法根本就没有什么自己的革命性的创新！它只不过是集成了以下一系列美国人发明（都是美国公司公开发表的论文和技术）的成熟或不太成熟的优化算法的架构模型和创新，最终达到靠压缩整体工作量和压榨每个任务（不让任务闲下来）的路径来最大限度地降低算力资源的成本： 1.MLA多层注意力架构 2.FP8混合精度训练框架 3.DualPipe跨节点通信 4.无辅助损失的负载均衡策略 5.跨节点全对全通信内核 6.MTP技术 7.数据精筛 8.DeepSeek-R1蒸馏其中最重要的是前两个架构，它们都是为了压缩工作量的，也是其与ChatGpt等美国公司大模型的最主要区别。

TitaniumAtlas

大约一个月

30 楼

作为追赶者开源是一步妙棋，这样可以吸引更多的其他国家的智力来参与发展，加快追赶进度。

BigP

大约一个月

31 楼

luting 发表评论于 2025-01-28 08:55:44难听点就是美国AI公司试图山寨DeepSeek破坏性创新技术 +1 哈哈哈哈资本是最诚实的，五分的观点一文不值，就是一帮臭虫

TitaniumAtlas

大约一个月

32 楼

DS肯定是有水分的，训练数据也没公开，极有可能是利用了其它AI的成果，而且芯片上也撒了谎，这对兲朝不是啥难事。

TitaniumAtlas

大约一个月

33 楼

最搞笑的是DS回答自己是 chat gpt, 这明显是用了人家的数据，所谓数据蒸馏，原始数据的钱人家帮你出了，呵呵