Deekseek比想象更炸裂，绕过了英伟达引以为傲的CUDA，使用更底层的编程语言做优化 - 2025年1月30日文学城存档 - 看帖神器

← 下载《看帖神器》官方 iOS App，体验轻松追帖。

成功的洋葱

大约 15 小时

楼主 (文学城)

DeepSeek绕过了英伟达引以为傲的CUDA，使用更底层的编程语言做优化

这一次是DeepSeek-V3论文中的更多细节，被人挖掘出来。

V3的硬件效率之所以能比Meta等高出10倍，可以总结为“他们从头开始重建了一切”。

在使用英伟达的H800 GPU训练DeepSeek-V3时，他们针对自己的需求把132个流式多处理器（SMs）中的20个修改成负责服务器间的通信，而不是计算任务，变相绕过了硬件对通信速度的限制。

这种操作是用英伟达的PTX（Parallel Thread Execution）语言实现的，而不是CUDA。

PTX在接近汇编语言的层级运行，允许进行细粒度的优化，如寄存器分配和Thread/Warp级别的调整。

这种编程非常复杂且难以维护，所以行业通用的做法是使用CUDA这样的高级编程语言。

换句话说，他们把优化做到了极致。

“首先要明确的是，PTX仍然是英伟达GPU架构中的技术，它是CUDA编程模型中的中间表示，用于连接CUDA高级语言代码和GPU底层硬件指令。

CUDA起到了提供高级编程接口和工具链的作用，可以简化开发者的工作。而PTX作为中间层，充当高级语言和底层硬件之间的桥梁。

所以说，DeepSeek做了PTX级别的优化不意味着完全脱离了CUDA生态，但确实代表他们有优化其他GPU的能力。我们不知道DeepSeek内部是否使用AI辅助编写了PTX代码——但是确实刚刚见证DeepSeek-R1编写的代码显著提升大模型推理框架的运行速度。”

也许是DeepSeek团队，先教会Deepseek用PTX，然后引导Deepseek直接用汇编编程，他们只需要监督就行。通过并行部分的程序，再让DeepSeek去蒸馏这个过程，学会如何编PTX重写 numpy, scipy

大约 15 小时

UCB AI研究团队声称以30美元复现DeepSeek核心技术

https://www.tomshardware.com/tech-industry/artificial-intelligence/ai-research-team-claims-to-reproduce-deepseek-core-technologies-for-usd30-relatively-small-r1-zero-model-has-remarkable-problem-solving-abilities

大约 15 小时

用汇编速度肯定快不少

大约 15 小时

英伟达的护城河要崩塌，股价大可能到$60，警惕！

大约 15 小时

趕快short啊

大约 15 小时

哈哈，，，

大约 15 小时

不管用不用cuda，用的都还是nvidia的gpu啊，lol，而且用的也是nvidia提供的底层编程语言

这真没什么大不了的，学过点EE的人都能干。

吹过了。

大约 15 小时

对硬件的依赖没变相当于绕开了Java 直接汇编上

成功的洋葱

大约 15 小时

只要是印度人搞不定的，就好了

大约 15 小时

Sorry! Page not found.

大约 15 小时

那美国公司为什么没干呢？中国靠偷靠抢，美国大中小 startup 有这么好的条件，为啥乖乖让NVDA 蹂躏？

早干出来一个，不就没deepseek什么事了？

大约 15 小时

因为这几年美国的聪明孩子都一窝蜂去学CS，没人学EE了

大约 15 小时

当然，这次nvda大跌我赚的不少

大约 15 小时

中国哪里都不缺聪明的孩子．呵呵

大约 14 小时

太牛了敢玩short

大约 14 小时

Google: AI research team claims to reproduce DeepSeek core

大约 14 小时

如果没有编过高度并行程序的，就不要一惊一乍的扯淡了

大约 14 小时

网上疯传过几天就是印度版的DS了，他们要忽悠钱。LOL

据说印度觉醒了，明白了奥特曼忽悠人的那套，决定自己也照搬一套。放心，奥特曼会输，他们也不会，他们脸皮比奥特曼可厚多了。

大约 14 小时

你们这些不相信DS的人当然不会做

大约 14 小时

哈哈。网上都摸清印度人的思路了。

想做土家人

大约 14 小时

真心觉得犹太印度可以组建最大诈骗集团

大约 11 小时

如果是真的话就是重大工程突破了。再进一步就是ASIC

雾蒙蒙雨霏霏

大约 7 小时

汇编不是关键，关键的是思路的改变。对于DS是不是全新的model，还是抄袭，甚至偷窃。看了几个专家的分析，包括OpenA

汇编不是关键，关键的是思路的改变。对于DS是不是全新的model，还是抄袭，甚至偷窃。看了几个专家的分析，包括OpenAI前资深工程师的分析，我来大概总结一下：DS的确是发明了一种新的model，或者说是在原来的model上有了巨大的改进。用外行能听懂的话来解释，其实很简单，大概的思路是这样的：原来的模型在每一个节点上，先判断出下一步有哪些可能性，然后再逐次对下一步的每一种可能性进行同样的思考和处理，因为每个节点后的可能性是天文数字，所以从深度和广度上看，近乎于无穷无尽。如果按这种思路去探求，对计算机的算力的要求就成了一个天文数字，所以大家都在疯狂的买更强大的芯片，盖更大的数据中心，由此也对电耗产生极大的需求，这种approach实际上是在用brutal force （蛮力）来解决问题。俗话说富人有富人的活法，穷人有穷人的活法。没有那么大的财源，加上芯片的禁运，DS极大地改进了原来的model。DS的model是在许多节点上，不是盲目的把下一步的全部的可能性都罗列出来，逐一去seek，而是做一些逻辑推理和判断，把那些完全不靠谱和不太靠谱的可能性排除，集中精力于那些成功率更大的可能性，这样一来，巨量的下一步的可能性都被筛除了，于是就有了巨大的 performance improvement，成本也就下来了。可以说DS的model是一个smart model。所以AI industry下一步的发展不是急着去买更大更快的芯片，而是follow DS的思路去改进自己的model，使它变得聪明起来。当然这种思路的改变肯定会对AI industry的布局产生重大影响，进而影响股市。