Deekseek比想象更炸裂，绕过了英伟达引以为傲的CUDA，使用更底层的编程语言做优化 - 2025年1月30日文学城存档 - 看帖神器

← 下载《看帖神器》官方 iOS App，体验轻松追帖。

成功的洋葱

大约一个月

楼主 (文学城)

DeepSeek绕过了英伟达引以为傲的CUDA，使用更底层的编程语言做优化

这一次是DeepSeek-V3论文中的更多细节，被人挖掘出来。

V3的硬件效率之所以能比Meta等高出10倍，可以总结为“他们从头开始重建了一切”。

在使用英伟达的H800 GPU训练DeepSeek-V3时，他们针对自己的需求把132个流式多处理器（SMs）中的20个修改成负责服务器间的通信，而不是计算任务，变相绕过了硬件对通信速度的限制。

这种操作是用英伟达的PTX（Parallel Thread Execution）语言实现的，而不是CUDA。

PTX在接近汇编语言的层级运行，允许进行细粒度的优化，如寄存器分配和Thread/Warp级别的调整。

这种编程非常复杂且难以维护，所以行业通用的做法是使用CUDA这样的高级编程语言。

换句话说，他们把优化做到了极致。

“首先要明确的是，PTX仍然是英伟达GPU架构中的技术，它是CUDA编程模型中的中间表示，用于连接CUDA高级语言代码和GPU底层硬件指令。

CUDA起到了提供高级编程接口和工具链的作用，可以简化开发者的工作。而PTX作为中间层，充当高级语言和底层硬件之间的桥梁。

所以说，DeepSeek做了PTX级别的优化不意味着完全脱离了CUDA生态，但确实代表他们有优化其他GPU的能力。我们不知道DeepSeek内部是否使用AI辅助编写了PTX代码——但是确实刚刚见证DeepSeek-R1编写的代码显著提升大模型推理框架的运行速度。”

也许是DeepSeek团队，先教会Deepseek用PTX，然后引导Deepseek直接用汇编编程，他们只需要监督就行。通过并行部分的程序，再让DeepSeek去蒸馏这个过程，学会如何编PTX重写 numpy, scipy

大约一个月

UCB AI研究团队声称以30美元复现DeepSeek核心技术

https://www.tomshardware.com/tech-industry/artificial-intelligence/ai-research-team-claims-to-reproduce-deepseek-core-technologies-for-usd30-relatively-small-r1-zero-model-has-remarkable-problem-solving-abilities

大约一个月

用汇编速度肯定快不少

大约一个月

英伟达的护城河要崩塌，股价大可能到$60，警惕！

大约一个月

趕快short啊

大约一个月

哈哈，，，

大约一个月

不管用不用cuda，用的都还是nvidia的gpu啊，lol，而且用的也是nvidia提供的底层编程语言

这真没什么大不了的，学过点EE的人都能干。

吹过了。

大约一个月

对硬件的依赖没变相当于绕开了Java 直接汇编上

成功的洋葱

大约一个月

只要是印度人搞不定的，就好了

大约一个月

Sorry! Page not found.

大约一个月

那美国公司为什么没干呢？中国靠偷靠抢，美国大中小 startup 有这么好的条件，为啥乖乖让NVDA 蹂躏？

早干出来一个，不就没deepseek什么事了？

大约一个月

因为这几年美国的聪明孩子都一窝蜂去学CS，没人学EE了

大约一个月

当然，这次nvda大跌我赚的不少

大约一个月

中国哪里都不缺聪明的孩子．呵呵

大约一个月

太牛了敢玩short

大约一个月

Google: AI research team claims to reproduce DeepSeek core

大约一个月

如果没有编过高度并行程序的，就不要一惊一乍的扯淡了

大约一个月

网上疯传过几天就是印度版的DS了，他们要忽悠钱。LOL

据说印度觉醒了，明白了奥特曼忽悠人的那套，决定自己也照搬一套。放心，奥特曼会输，他们也不会，他们脸皮比奥特曼可厚多了。

大约一个月

你们这些不相信DS的人当然不会做

大约一个月

哈哈。网上都摸清印度人的思路了。

想做土家人

大约一个月

真心觉得犹太印度可以组建最大诈骗集团

大约一个月

如果是真的话就是重大工程突破了。再进一步就是ASIC

雾蒙蒙雨霏霏

大约一个月

汇编不是关键，关键的是思路的改变。对于DS是不是全新的model，还是抄袭，甚至偷窃。看了几个专家的分析，包括OpenA

汇编不是关键，关键的是思路的改变。对于DS是不是全新的model，还是抄袭，甚至偷窃。看了几个专家的分析，包括OpenAI前资深工程师的分析，我来大概总结一下：DS的确是发明了一种新的model，或者说是在原来的model上有了巨大的改进。用外行能听懂的话来解释，其实很简单，大概的思路是这样的：原来的模型在每一个节点上，先判断出下一步有哪些可能性，然后再逐次对下一步的每一种可能性进行同样的思考和处理，因为每个节点后的可能性是天文数字，所以从深度和广度上看，近乎于无穷无尽。如果按这种思路去探求，对计算机的算力的要求就成了一个天文数字，所以大家都在疯狂的买更强大的芯片，盖更大的数据中心，由此也对电耗产生极大的需求，这种approach实际上是在用brutal force （蛮力）来解决问题。俗话说富人有富人的活法，穷人有穷人的活法。没有那么大的财源，加上芯片的禁运，DS极大地改进了原来的model。DS的model是在许多节点上，不是盲目的把下一步的全部的可能性都罗列出来，逐一去seek，而是做一些逻辑推理和判断，把那些完全不靠谱和不太靠谱的可能性排除，集中精力于那些成功率更大的可能性，这样一来，巨量的下一步的可能性都被筛除了，于是就有了巨大的 performance improvement，成本也就下来了。可以说DS的model是一个smart model。所以AI industry下一步的发展不是急着去买更大更快的芯片，而是follow DS的思路去改进自己的model，使它变得聪明起来。当然这种思路的改变肯定会对AI industry的布局产生重大影响，进而影响股市。