DeepSeek绕过了英伟达引以为傲的CUDA,使用更底层的编程语言做优化
这一次是DeepSeek-V3论文中的更多细节,被人挖掘出来。
V3的硬件效率之所以能比Meta等高出10倍,可以总结为“他们从头开始重建了一切”。
在使用英伟达的H800 GPU训练DeepSeek-V3时,他们针对自己的需求把132个流式多处理器(SMs)中的20个修改成负责服务器间的通信,而不是计算任务,变相绕过了硬件对通信速度的限制。
这种操作是用英伟达的PTX(Parallel Thread Execution)语言实现的,而不是CUDA。
PTX在接近汇编语言的层级运行,允许进行细粒度的优化,如寄存器分配和Thread/Warp级别的调整。
这种编程非常复杂且难以维护,所以行业通用的做法是使用CUDA这样的高级编程语言。
换句话说,他们把优化做到了极致。
“首先要明确的是,PTX仍然是英伟达GPU架构中的技术,它是CUDA编程模型中的中间表示,用于连接CUDA高级语言代码和GPU底层硬件指令。
CUDA起到了提供高级编程接口和工具链的作用,可以简化开发者的工作。而PTX作为中间层,充当高级语言和底层硬件之间的桥梁。
所以说,DeepSeek做了PTX级别的优化不意味着完全脱离了CUDA生态,但确实代表他们有优化其他GPU的能力。我们不知道DeepSeek内部是否使用AI辅助编写了PTX代码——但是确实刚刚见证DeepSeek-R1编写的代码显著提升大模型推理框架的运行速度。”
也许是DeepSeek团队,先教会Deepseek用PTX,然后引导Deepseek直接用汇编编程, 他们只需要监督就行。 通过并行部分的程序,再让DeepSeek去蒸馏这个过程,学会如何编PTX重写 numpy, scipy
这真没什么大不了的,学过点EE的人都能干。
吹过了。
早干出来一个,不就没deepseek什么事了?
据说印度觉醒了,明白了奥特曼忽悠人的那套,决定自己也照搬一套。放心,奥特曼会输,他们也不会,他们脸皮比奥特曼可厚多了。
汇编不是关键,关键的是思路的改变。对于DS是不是全新的model,还是抄袭,甚至偷窃。看了几个专家的分析,包括OpenAI前资深工程师的分析,我来大概总结一下:DS的确是发明了一种新的model,或者说是在原来的model上有了巨大的改进。用外行能听懂的话来解释,其实很简单,大概的思路是这样的: 原来的模型在每一个节点上,先判断出下一步有哪些可能性,然后再逐次对下一步的每一种可能性进行同样的思考和处理,因为每个节点后的可能性是天文数字,所以从深度和广度上看,近乎于无穷无尽。如果按这种思路去探求,对计算机的算力的要求就成了一个天文数字,所以大家都在疯狂的买更强大的芯片,盖更大的数据中心,由此也对电耗产生极大的需求,这种approach实际上是在用brutal force (蛮力) 来解决问题。俗话说富人有富人的活法,穷人有穷人的活法。没有那么大的财源,加上芯片的禁运,DS极大地改进了原来的model。DS的model是在许多节点上,不是盲目的把下一步的全部的可能性都罗列出来,逐一去seek,而是做一些逻辑推理和判断,把那些完全不靠谱和不太靠谱的可能性排除,集中精力于那些成功率更大的可能性,这样一来,巨量的下一步的可能性都被筛除了,于是就有了巨大的 performance improvement,成本也就下来了。可以说DS的model是一个smart model。所以AI industry下一步的发展不是急着去买更大更快的芯片,而是follow DS的思路去改进自己的model,使它变得聪明起来。当然这种思路的改变肯定会对AI industry的布局产生重大影响,进而影响股市。
DeepSeek绕过了英伟达引以为傲的CUDA,使用更底层的编程语言做优化
这一次是DeepSeek-V3论文中的更多细节,被人挖掘出来。
V3的硬件效率之所以能比Meta等高出10倍,可以总结为“他们从头开始重建了一切”。
在使用英伟达的H800 GPU训练DeepSeek-V3时,他们针对自己的需求把132个流式多处理器(SMs)中的20个修改成负责服务器间的通信,而不是计算任务,变相绕过了硬件对通信速度的限制。
这种操作是用英伟达的PTX(Parallel Thread Execution)语言实现的,而不是CUDA。
PTX在接近汇编语言的层级运行,允许进行细粒度的优化,如寄存器分配和Thread/Warp级别的调整。
这种编程非常复杂且难以维护,所以行业通用的做法是使用CUDA这样的高级编程语言。
换句话说,他们把优化做到了极致。
“首先要明确的是,PTX仍然是英伟达GPU架构中的技术,它是CUDA编程模型中的中间表示,用于连接CUDA高级语言代码和GPU底层硬件指令。
CUDA起到了提供高级编程接口和工具链的作用,可以简化开发者的工作。而PTX作为中间层,充当高级语言和底层硬件之间的桥梁。
所以说,DeepSeek做了PTX级别的优化不意味着完全脱离了CUDA生态,但确实代表他们有优化其他GPU的能力。我们不知道DeepSeek内部是否使用AI辅助编写了PTX代码——但是确实刚刚见证DeepSeek-R1编写的代码显著提升大模型推理框架的运行速度。”
也许是DeepSeek团队,先教会Deepseek用PTX,然后引导Deepseek直接用汇编编程, 他们只需要监督就行。 通过并行部分的程序,再让DeepSeek去蒸馏这个过程,学会如何编PTX重写 numpy, scipy
https://www.tomshardware.com/tech-industry/artificial-intelligence/ai-research-team-claims-to-reproduce-deepseek-core-technologies-for-usd30-relatively-small-r1-zero-model-has-remarkable-problem-solving-abilities
这真没什么大不了的,学过点EE的人都能干。
吹过了。
早干出来一个,不就没deepseek什么事了?
据说印度觉醒了,明白了奥特曼忽悠人的那套,决定自己也照搬一套。放心,奥特曼会输,他们也不会,他们脸皮比奥特曼可厚多了。
汇编不是关键,关键的是思路的改变。对于DS是不是全新的model,还是抄袭,甚至偷窃。看了几个专家的分析,包括OpenAI前资深工程师的分析,我来大概总结一下:DS的确是发明了一种新的model,或者说是在原来的model上有了巨大的改进。用外行能听懂的话来解释,其实很简单,大概的思路是这样的: 原来的模型在每一个节点上,先判断出下一步有哪些可能性,然后再逐次对下一步的每一种可能性进行同样的思考和处理,因为每个节点后的可能性是天文数字,所以从深度和广度上看,近乎于无穷无尽。如果按这种思路去探求,对计算机的算力的要求就成了一个天文数字,所以大家都在疯狂的买更强大的芯片,盖更大的数据中心,由此也对电耗产生极大的需求,这种approach实际上是在用brutal force (蛮力) 来解决问题。俗话说富人有富人的活法,穷人有穷人的活法。没有那么大的财源,加上芯片的禁运,DS极大地改进了原来的model。DS的model是在许多节点上,不是盲目的把下一步的全部的可能性都罗列出来,逐一去seek,而是做一些逻辑推理和判断,把那些完全不靠谱和不太靠谱的可能性排除,集中精力于那些成功率更大的可能性,这样一来,巨量的下一步的可能性都被筛除了,于是就有了巨大的 performance improvement,成本也就下来了。可以说DS的model是一个smart model。所以AI industry下一步的发展不是急着去买更大更快的芯片,而是follow DS的思路去改进自己的model,使它变得聪明起来。当然这种思路的改变肯定会对AI industry的布局产生重大影响,进而影响股市。