科技战2.0来临?DeepSeek效应接下来的22个可能

今日头条
Toutiao
最新回复:2025年2月1日 10点18分 PT
  返回列表
9285 阅读
7 评论
盘古智库


如果非要用一句话概括当前所处阶段,可能是:星辰大海第一步。DS的探索和贡献都值得肯定,但隐藏的问题以及带来的问题,和取得的进展一样多。

大年初一原本说啥也不干,除夕写到一半的这篇分析暂时搁置了一下,没想到事态发展比预期还快。原本推测的其中三个可能(数据剽窃指责、启动安全调查、指出芯片算力作假)没有隔夜老美就扔出来了。年都不让人好好过了真是,那就直接进入其它部分的沙盘推演。接下来事态发展的22个可能,立贴为证(都只是可能不是事实,不过可能会有一半以上的命中率)。

1.这事与23年的流浪气球事件、某次产品发布相仿,大洋此岸认为是风口上的自然现象,彼岸紧张兮兮如临大敌,貌似过度反应实则有些情绪酝酿已久。有关方面原本尽力舒缓的空气会因此紧张,会放大、提前、加速一些问题的进程。且气球只是隔空影响,短期事件。而AI对老美的冲击却是实实在在,短中长期必将持续。新版中国威胁论近几个月其实明显抬头且正在酝酿和推动新一轮动作,DS这一波正好在特朗普周期的起点与之碰撞发酵,互为燃料。

2. 新冷战经济主战场,从贸易争端回合进入AI争端回合。贸易争端以终极关税收尾,AI争端从芯片算力、数据权利、模型原理开始。AI争端实质上既是科技战2.0、脱钩2.0的发端,也是科技战2.0、脱钩2.0的核心,主权AI与AI主导权的混合体?多极世界,AI浪潮,大洋此岸有自己要走的路,不必唯老美马首是瞻,更不必被彼岸带节奏,但在准确评估的基础上控制进程,预判彼岸的预判,把握好自己的节奏,有更智慧的成本费效比更好的博弈和发展策略,以及务实精进,是必要的。

3.中国背景大模型等AI产品技术服务全面禁绝进入美国市场,对人工智能会采取比TikTok类互联网服务更严厉管制政策,无论开源闭源大小体量均在禁绝之列。

4.用其它模型蒸馏也好,从其它模型获取数据也好,这方面监管政令与立法也会出台。安全、数据、知识产权等是藉口。OpenAI等从数据保护角度可能采取诉讼等方面动作,但大概率因为无法跨境执行会无果而终。从根本上美国AI头部企业这方面的重点会是推动政令、立法。变相蒸馏无法彻底去除痕迹,也会体现在模型output上,构成不利。但OpenAI扒了整个互联网的数据也是问题,全球互联网数据是全人类几千年文明成果,几十亿现存地球人类共同形成的知识信息财富,OpenAI为这些知识付费了吗,为这些数据取得授权了吗。“窃取”全人类、全网、亿万用户数据,恐怕是几乎所有AI基座模型共同的原点、“原罪”。

5. 联合盟友力量禁入全球其它市场是第二步。四五天前讨论过,当时原话是:如果DS这件事能起到这样的作用,让老美意识到AI-芯片-算力脱钩政策失效并且管制还不如不管制,算是DS有重要贡献,这事高调的收益为正,应该更高调才对。但如果DS这事包括AI、智能新能源汽车、机器人等整体上成为新的中国威胁论的重要支点,起到适得其反的作用,让老美意识到更应该进一步收紧上下游更应该生态级遏制,让中国科技难以形成全球循环失去规模效应,因而高成本低收益进而影响到技术迭代能力,那么这事的收益为负。所以,核心问题是评估这事的收益,而不仅是技术水准到底如何。评估清楚这个问题的走向和得失正负,就知道到底是应该高调自信造势,还是低调务实精进。

6.芯片算力必然进一步收紧,这方面拜登禁令大概率不会被撤销,而且会加码到更低阶的AI算力卡比如H20,观察这方面问题的一个标志,是看字节跳动能不能拐弯拿到清单上的英伟达芯片。无论芯片水进来,还是海外自建算力中心,又或者租用第三方算力中心,三条路大概率都会被堵死。中国背景的企业、大模型,最终会被外力内力一起推到国产芯片算力这条道上来,生态分岔点就在2025,利好国产算力但国产算力必须加快迭代速度。

7.消费级算力卡的下限未来可能会从RTX5090下沉,Project DIGITS可能不会在中国上市,AMD、Apple的一些消费级工作站级高算力产品也可能受限。

8.自研通用GPU、ASIC芯片的离岸代工制造,以及委托博通、Marvell等开发ASIC芯片以及这些芯片的海外代工,这些路径接下来可能也会被完全切断。

9.限制代工制造的取向,有从AI大模型训练推理芯片,向汽车、机器人等领域的AI算力-SoC芯片扩大的趋向。

10.AI技术与知识产权保护方案也会有追责或诉讼等动作,相关保护政令甚至法案大概率;更进一步,AI方面会成为中美知识产权问题交涉、博弈的焦点;这方面的实质影响,可能比蒸馏意义上的数据争端要大一点。

11.以上事态加速AI世界更进一步向两个生态体系分裂,对国产芯片算力、国产大模型等相对有利,对国产AI应用开发者利用老美等国AI大模型尤其基座模型不利。因为即使科学上网,因为彼岸禁绝力度加强,注册使用账号、API都变得更为困难。

12.前面第6点说了利好国产算力,不过对国产芯片算力、国产大模型等也有不利,就是前面第5点说的,这事会升级,老美策略重点也在转变。会从科技脱钩转为“科技脱钩+生态遏制”,让中国科技难以形成全球循环,失去规模效应因而高成本低收益,市场造血机能受限,进而影响到技术迭代能力。他的生态要搞得大大的,成为全球基础设施,你的生态边界要给你压缩到小小的,彼岸要以大生态围合压制小生态。一个世界,两套生态。

13.开源世界走向分裂,一个生态的开源进入不到另一个生态,高阶开源模型将纷纷主动被动收紧开放程度,主权AI理念的国家纷纷收紧对开源模型的管制,且AGI千后会进一步加大促使高阶开源模型走向闭源的力度。不过头部大平台,尤其是原来只做闭源的平台,也会纷纷推出开源模型。个中原因,不仅仅在于开源与闭源之争,更在于智能未来的分布形态必然是端云结合公私兼有开源闭源互补,大平台必须从模型体系角度适配未来的生态,尤其是中心化与分布式结合。

14.中美AI 合作越来越没有基础,也不会真的走向深度合作。拜登周期对AI监管对齐相对重视,合作还有些基础。特朗普周期放松监管。“AI军控”基本上会失去最重要的两个AI生态之间的国际协同。在人类共同挑战层面的礼貌性互动大概率。

15. DS到底是不是只用了很少的芯片算力,这方面信息会越来越显露出一些。DS的确在较大程度上节约了算力,相当于上一个阶段同体量模型算力消耗的七八分之一,这也符合这个领域模型量效比的演进规律。训练和推理的单位算力成本实际上在DS现象之前就已经在非常显著的持续下降了,推理成本普遍目前已经降至早期的千分之一不到,训练方面成本效率从A100到B300结合模型技术也有百倍提升。DS的算力节约是这个演进过程的一部分。

不过也不能完全排除夸大、减除、隐藏了一些状况,DS的技术报告和各渠道披露出来的信息,也有的部分。而原因或许是:可能性之一,基于母模型部分成果,训练公开面市的模型产品,隐藏了母模型数据与训练等方面信息。可能性之二,模型数据准备和训练存在几个不同阶段,技术报告只涉及中后段情况。可能性之三,减除训练算力和芯片数量,有以此为亮点的传播考虑,也有不得已而为之的难言之隐。有一定概率FP8之前存在FP16的过程,以及一个隐藏在V3和R1后面的不完全体。

16. 几个常识下的LLM老周期与物理模型等新周期:RL增强学习其实更消耗算力;模型从预训练后训练蒸馏到不同量化程度下的不同体量模型交付,从数据、算法、训练、蒸馏、量化的精度来说,必然是做加法在前做减法在后,FP8训练也不是不可以但大概率FP16过程在前;蒸馏是信息衰减知识衰减能力衰减而不是增益,只不过得失、体量、算力、效率之间会综合权衡;头部大模型整体到了“高可用”阶段,DS的高可用不是独有现象。如果横向使用各类模型较多,会发现在DS上体验到的那些惊艳,在其它模型上也会通过其它问答体验到,一百一千一万个问题问下来,不同模型都会对一些错一些且统计差距不大,表现优异的部分和比较平庸的部分,分布在不同问题上。DS不比其它头部模型整体更差,不过也没比其它头部模型整体更好。DS V3和R1实质上都处于LLM也就是大语言模型这个周期,多模态不具备,而产业整体已经开始进入时空智能、面向现实世界的物理世界模型的新周期。另外,DS今天达到的高度,其它国产大模型之前在不同阶段也曾经从SOTA等角度达到过,只不过是当时的高度,到今天为止各个国产大模型也是差距甚微,不分伯仲,不同问题上互有所长。发布以来,V3的官方版、R1渠道版都已反复使用,700亿参数的R1-Distill-Llama-70B在本机安装使用,手机里的1.5B的8bit蒸馏版也下载体验了,综合质素不错,实感符合以上信息。

17.近期国内在AI其它几个方面的进展,其实才是真正处于前沿且有创新有探索。比如一些视觉理解模型、实时语音智能、基于物理法则的视频生成模型、世界模拟器(尽管距离真正的世界模型其实还差十万八千里)、比如生成与理解双向的多模态模型、AI Agent的一些新探索、具身智能与机器人3.0、传感融合与端到端下的Transformer自动驾驶2.0。避免广告植入嫌疑不提具体企业和模型名称。无论千问、豆包、元宝、文心、Kimi、智谱、MiniMax等,其实哪一家的探索、进展、贡献、成就,都不比DS低。AI中国的崛起是全方位的,不是DS一个单点。

18. DS对芯片算力以及英伟达是不是构成冲击,这事的重要性已经排在末位,但总体事态是因这事而起,所以还不能无视。实际上:预训练算力资源有节约,但算力节约方面是有下限的,后训练R1实际上比PRM+search更消耗资源,推理方面DS的R系列也好OpenAI的o系列也好,未来整体会越来越耗费资源。

前天英伟达大涨时我的反向看法:有一天英伟达PE掉到30-40倍不奇怪,而从目前的五六十倍掉到三四十倍,原因会是至少三个因素的耦合,一是算力需求增长拉动营收业绩成长从而拉低PE,二是虚高的价值预期都会波动回调,这一点会反映在股价上,三是算力尤其推理算力供给走向多元化。但这三个原因里没有一个是:有一天AI不需要那么多算力了。股市以外,同样需要回调的是OpenAI飘了的心态和Pro账户高达200美元的每月金额。

上前天英伟达大跌时我的反向看法:LLM单位训推算力消耗本来就在下降,但LLM周期后面是时空智能、具身智能、物理现实世界模型等新周期,这还不包括三个亿万卡时代。算力存在向上和向下两个曲线,一个曲线拼效率拼成本拼价格,对AI普及贡献大但对AI走向AGI的贡献微乎其微甚至可以忽略,另一个曲线拼算力拼模型原理拼脑能力进化从大语言模型走向物理现实世界模型,过程中力摘一个又一个AI圣杯。算力总体需求依然大幅增长。大跌是多因素耦合,是芯片算力股本身的回调、吐纳、换手需求,不能把所有下跌的账都记到DeepSeek的功劳簿上。不过英伟达惊吓得不轻,惊吓对挤泡沫有帮助。

股市涨跌是市场对PE的重新计算,算力涨跌是各方对AI的重新评估。DS开启了产业市场对芯片算力价值基本面的重新评估,好事。但头部企业因为大多已经同时处于上一个周期的成熟期和下一个周期的前端,所以推理服务需求剧增导致算力投资大增,数据和算力消耗高出几个数量级的新原理模型训练也需要巨额算力基础设施投资,训练更好的新的大模型还是需要更高的算力。所以今年头部企业基础设施投资大都在百亿美金以上甚至五六百亿美金这个水平。

19.有文章说因为CUDA不够高效,DS训练已经绕过CUDA了,有点意思。抛开PTX不说,在另外一个层面,实际上理论上每家开发的大模型,都可以定制专门的ASIC架构芯片来训练,且一定比英伟达的通用算力更高效,但ASIC架构芯片开发成本高迭代周期长,推理可以等但训练往往等不了。只有资金和技术能力更强的大平台才有空间玩这个循环,比如Google自研自用的TPU,也提供给Apple用来训练模型了。

20.中外互联网都有记忆,DS技术报告提到的方法哪些是原创,哪些是采纳整合,哪些是别人也用过,哪些是第一次用,只要深度搜索都能了解到,不一一而足。这方面DS所开启的可能性到底是什么,以及创新到底是什么,时间是最好的答案。

21. DS有没有short做空英伟达,无从考证,这方面的可能性留给大家。

22. 不完全是自然传播,不同推手各自不同考虑,其评估、把握、预设值得商榷。只能说各种情绪都利用到了,引爆感也够强,但可控感差一些,也没有站在更高层面把握走向。

如果非要用一句话概括当前所处阶段,可能是:星辰大海第一步。DS的探索和贡献都值得肯定,但隐藏的问题以及带来的问题,和取得的进展一样多。舆论太希望一个面成功的时候,容易对某一个点寄予过多希望,因为这个点是符号是载体也是心理象征。一些流量操作过度解读也有自身考虑。但这些容易误导各方。实际上应该对人工智能领域的重要方面给予全面关注,对升维竞争的创新前沿予以重点关注。生态创新才能实现可持续创新。这是一个端边云网感算数智多要素互相催化的复杂生态,一蹴而就、一夜变天、单点突破的思维,不符合发展规律,也没好处。

纵观整个事态,山雨欲来的新版中国威胁论及时利用了适时出现的它,有做空和回调需求的金融市场也巧妙地利用了它。渴望崛起的我们有没有被利用先且不论,这件事的背后存在一个隐约可见的产业、科技、社会舆论场等角度相互发酵的动力机制,一切并非偶然。

中国AI必然全方位崛起,老美等必然全力遏制。还是那句话,中国必须走自己的路,不必看老美行事,AI发展的指挥棒和话语权属于全球人类,不属于老美。但过程中要预判他们的预判,这样有助于走好自己的路。此外唯一需要斟酌的是,高调与低调之间,何种策略的收益为正,何种路径对整个产业而不仅是其中一家企业相对更为有利?此外,实事求是、务实精进更有利于发展,还是言过其实、势大于实更有利于发展?所有高出实际价值的信用透支最终都会转化为成本,只不过成本由谁来支付。水到渠成、实至名归的实力出击,一定好过于过早短兵相接,更好过于过早沽名钓誉(这里并非指DS,而是过往存在的个别浮夸现象)。华为式的务实精进,是可以参考的现实模版。

但是从业态、竞争角度,DS给产业市场带来了活力,有希望发挥鲶鱼效应,尤其在影响大厂方面。更多的竞争,是用户的福音。尽管算力节约有下限,未来主要还是靠算力往上走模型原理往前走,但DS在App Store全球免费下载榜跃升为第一,还是一件非常提气的事。从这段时间小米、华为、OV等应用市场的下载量分析,目前DS还是比其它头部AI的App少一两个零。破圈效应在转化为市场实地方面,实效不够,还需加力。尤其慕名而来的网民批量涌入的情况下服务一再出现卡顿问题,对流量转化为用户影响较大。推理服务方面的算力部署,需要及时扩大投资了。

d
dadaxi2
1 楼
遥遥领先就行了
令胡冲
2 楼
满篇胡扯八道。扯淡的本质就是能扯的都扯了,怎么也会有一二条扯点边吧。未必。往往是由于心思不正,胡扯八道,偏偏正路看不到。 而事实是,DeepSeek已在各家开源社区开花结果,生根落地。从Huggingface到AWS Bedrock, 从Nvidia到Meta,各项创新都以融入了所有大模型玩家的基因。美国政府如何,没人关心。OpenAI也得再次偷用学习,否则就无法Survive。
蓝靛厂
3 楼
21. DS有没有short做空英伟达,无从考证,这方面的可能性留给大家。 —— 日。幻方量化遭到大A社会主义铁拳以后搞个DS砸达子赚钱玩?
t
tudoutudou99
4 楼
偷的成本最低,国内很快就有公司挖脚DS的工程师,改几行代码,推出更廉价的类似的产品
真环
5 楼
世界有中国这么个大国真是令人扫兴。人家尽力做生态做研究做高端,偏出这么个大国砸场子就喜欢做白菜,再用白菜换资源。
百家争鸣2012
6 楼
既然出现22个可能,那意味着有更多的可能,也就是说,最后的发展不可意料。其实最可以意料的是使用DeepSeek的公司会越来越多。DeepSeek为人工智能的发展奠定了低成本基础,这是对社会的最大贡献。
会当凌绝顶1
7 楼
網友雷哥評論如下。 為什麼說DeepSeek在1月20日推出的最新R1大模型本質上只是個「山寨」產品?經過近一周各方專業人士對DeepSeek-R1的分析解讀,它驚動世界的「低成本」優勢來源於兩個方面:模型架構設計、算法創新與工程優化,以及它的「數據蒸餾」方法。「蒸餾」方法依賴於對更好的「老師模型」數據的萃取,它省錢且高效,但出來的產品整體上無法超越「老師模型」(局部可以),因此,哪怕它在方法上再有創意,本質上還是個山寨產品。 現在DeepSeek推出的R1語言大模型,雖然以極低的成本(據說只有美國AI大公司的1/10或1/20甚至1/30)訓練出許多指標可以與OpenAI的ChatGPT4相媲美的AI大模型,但DeepSeek現在也只敢說R1的性能指標超越了現有的「開源模型」。對R1深度測試過的專業人士,均確認DeepSeek-R1只是一些常用考評指標與ChatGPT4相當,讓一般使用者覺得「夠用」了,還那麼便宜。但無法從整體上超越它的蒸餾對象ChatGPT4。 因為已經有了類似ChatGPT等成型在先的原創AI大模型,DeepSeek-R1這種低成本山寨版才可能出現。作為一種產品,它本質上是模仿,只是模仿的方法比較巧妙,比較有創意。用DeepSeek自己的話說這叫「站在巨人的肩膀上」。 那DeepSeek有没有“编故事”呢?有!DeepSeek说只用了2048块英伟达H800芯片,仅用55天就完成了大模型训练,一共只花了557.6万美元。训练出来的AI大模型,比美国大公司花多少亿搞出来的一点不差。但DeepSeek说的557.6万美元,实际是R1的前一个版本V 3的预训练GPU小时数折算的花费。而仅2048块H800芯片,价格就超过6000万美元。因此这557.6万显然并不包括训练平台的搭建和其他费用。此外,升级版R1的训练费用根本就没公布,宣传时有点故意用V3版的费用鱼目混珠。笼统地跟美国大公司的数亿美元比,就是编。 有关行为必将遭到限制和惩罚!