Deekseek比想象更炸裂，英伟达护城河不再

大约 17 小时

楼主 (北美华人网)

DeepSeek绕过了英伟达引以为傲的CUDA，使用更底层的编程语言做优化
DeepSeek's AI breakthrough bypasses industry-standard CUDA for some functions, uses Nvidia's assembly-like PTX program

V3的硬件效率之所以能比Meta等高出10倍，可以总结为“他们从头开始重建了一切”。在使用英伟达的H800 GPU训练DeepSeek-V3时，他们针对自己的需求把132个流式多处理器（SMs）中的20个修改成负责服务器间的通信，而不是计算任务，变相绕过了硬件对通信速度的限制。 这种操作是用英伟达的PTX（Parallel Thread Execution）语言实现的，而不是CUDA。 PTX在接近汇编语言的层级运行，允许进行细粒度的优化，如寄存器分配和Thread/Warp级别的调整。这种编程非常复杂且难以维护，所以行业通用的做法是使用CUDA这样的高级编程语言。换句话说，他们把优化做到了极致。

olivia0216

大约 17 小时

感觉就算meta抄也真抄不出来了，还真就是上乘武功和下乘武功的区别

贝

贝贝妈2008

大约 17 小时

这是啥？相当于计算机语言的c or c++么？是不是很复杂很硬核很难学？
行家说说

gocaigo8421

大约 17 小时

quant/HF folks use PTX. No one found PTX in the git repository?

mtwash

大约 17 小时

这我觉得要客观看待对吧？打个比方说，在C语言里嵌入汇编来做最需要效率的部分，也不奇怪啊，不代表全部要用汇编。那么同理，部分使用更底层的PTX，跟完全不用CUDA，应该两回事吧？不代表CUDA的护城河属性受到威胁了。

minqidev

大约 17 小时

回复 5楼的帖子
Deepseek确实绕过了Cuda，我几天前就说了呀，没什么很惊讶的。所以这次华为和AMD显卡可以很容易接入
对于显卡来说，PTX有点像汇编，AMD也有类似的。
其实就是并行计算影响速度的部分并没有在cuda 上执行
他们一开始就是考虑会被制裁的，要做都是全套的。他们自己也适配了华为的显卡

bigxianzun

大约 17 小时

PTX不还是要在英伟达的gpu实现么？不管怎么烹饪，肉还是烂在英伟达这口锅里了

Anotherfacet

大约 17 小时

SM是通用的计算单元何来修改之说只是说给有些SM分配了不同任务吧
另外cuda内嵌PTX也是正常操作 profile出来的hotspot手改写成汇编也是常见的优化
如果全PTX手写，工作量就大了

mtwash

大约 17 小时

minqidev 发表于 2025-01-30 08:16
回复 5楼的帖子
Deepseek确实绕过了Cuda，我几天前就说了呀，没什么很惊讶的。所以这次华为和AMD显卡可以很容易接入
对于显卡来说，PTX有点像汇编，AMD也有类似的。
其实就是并行计算影响速度的部分并没有在cuda 上执行

即便deepseek全部使用底层硬件语言的话，也不代表其它公司有这个本事这么做，
全部用底层语言手搓大项目这需要牛逼工程师，这种工程师不是给工资就可以随便找到的。

shushan

大约 17 小时

贝贝妈2008 发表于 2025-01-30 08:10
这是啥？相当于计算机语言的c or c++么？是不是很复杂很硬核很难学？
行家说说

比C C++更靠近机器
CUDA最后就是被NVCC转换成PTX，然后GPU来执行

shushan

大约 16 小时

回复 1楼 olivia0216 的帖子

楼主难道不知道，PTX本来就是Nvidia 开发出来的啊？

olivia0216

大约 16 小时

mtwash 发表于 2025-01-30 08:13
这我觉得要客观看待对吧？打个比方说，在C语言里嵌入汇编来做最需要效率的部分，也不奇怪啊，不代表全部要用汇编。那么同理，部分使用更底层的PTX，跟完全不用CUDA，应该两回事吧？不代表CUDA的护城河属性受到威胁了。

以下是引用
“首先要明确的是，PTX仍然是英伟达GPU架构中的技术，它是CUDA编程模型中的中间表示，用于连接CUDA高级语言代码和GPU底层硬件指令。
CUDA起到了提供高级编程接口和工具链的作用，可以简化开发者的工作。而PTX作为中间层，充当高级语言和底层硬件之间的桥梁。
所以说，DeepSeek做了PTX级别的优化不意味着完全脱离了CUDA生态，但确实代表他们有优化其他GPU的能力。我们不知道DeepSeek内部是否使用AI辅助编写了PTX代码——但是确实刚刚见证DeepSeek-R1编写的代码显著提升大模型推理框架的运行速度。”

BeHappy78

大约 16 小时

那不还是用了NVDA的PTX汇编语言嘛，怎么就绕过了护城河呢？的确编程会难和繁琐，但是NVDA肯定一大把这样的工程师。
看来底层工程师又开始吃香了，为了追求速度， AI从PYTHON->C++->CUDA->PTX了

shushan

大约 16 小时

mtwash 发表于 2025-01-30 08:13
这我觉得要客观看待对吧？打个比方说，在C语言里嵌入汇编来做最需要效率的部分，也不奇怪啊，不代表全部要用汇编。那么同理，部分使用更底层的PTX，跟完全不用CUDA，应该两回事吧？不代表CUDA的护城河属性受到威胁了。

你应该没用PTX，PTX本来就是Nvidia弄出来的东西

minqidev

大约 16 小时

回复 13楼 BeHappy78 的帖子
汇编都是差不多的

BeHappy78

大约 16 小时

minqidev 发表于 2025-01-30 08:24
回复 13楼 BeHappy78 的帖子
汇编都是差不多的

看了一下PTX是个virtual machine,可能比一般汇编更加容易debug

mtwash

大约 16 小时

minqidev 发表于 2025-01-30 08:24
回复 13楼 BeHappy78 的帖子
汇编都是差不多的

是的，你的逻辑是对的。如果大家都用从底层硬件指令手搓项目，那用谁家的硬件是没啥差别的，隔夜就搬家换供应商了。但我怀疑有多少家想、或者会这么做，这样对人的要求高到不可控的地步了，是违反潮流的。

olivia0216

大约 16 小时

那不还是用了NVDA的PTX汇编语言嘛，怎么就绕过了护城河呢？的确编程会难和繁琐，但是NVDA肯定一大把这样的工程师。
看来底层工程师又开始吃香了，为了追求速度， AI从PYTHON->C++->CUDA->PTX了
BeHappy78 发表于 2025-01-30 08:23

华为也有gpu
理论上ds可以用来提高华为的GPU性能，如果已经做到这么底层的话
也就是说如果进一步连低端NVIDIA GPU也禁了的话，中国突破也只是时间问题
并且狠狠打脸scale ai 小黄和奥特曼，只要功夫深，完全可以不靠堆GPU，就跟有个网友说的，挖金子不需要金铲子，铁铲子也行

BeHappy78

大约 16 小时

华为也有gpu
理论上ds可以用来提高华为的GPU性能，如果已经做到这么底层的话
也就是说如果进一步连低端NVIDIA GPU也禁了的话，中国突破也只是时间问题
并且狠狠打脸scale ai 小黄和奥特曼，只要功夫深，完全可以不靠堆GPU，就跟有个网友说的，挖金子不需要金铲子，铁铲子也行
olivia0216 发表于 2025-01-30 08:32

以后是不是AI直接binary编程了，没人什么事了，人类需要AI翻译它到底干了什么，彻底失控

Harenough

大约 16 小时

bigxianzun 发表于 2025-01-30 08:17
PTX不还是要在英伟达的gpu实现么？不管怎么烹饪，肉还是烂在英伟达这口锅里了

也有其他锅。
CUDA是女大的moat,如果deepseek几十个人就能绕过的话，微软，AMD等等是很高兴的。

shushan

大约 16 小时

mtwash 发表于 2025-01-30 08:32
是的，你的逻辑是对的。如果大家都用从底层硬件指令手搓项目，那用谁家的硬件是没啥差别的，隔夜就搬家换供应商了。但我怀疑有多少家想、或者会这么做，这样对人的要求高到不可控的地步了，是违反潮流的。

现在用AI，至少高级计算机语言的翻译比之前简单了不少

adorp

大约 16 小时

shushan 发表于 2025-01-30 08:24

你应该没用PTX，PTX本来就是Nvidia弄出来的东西

AMD的汇编中间语言几乎是照抄辉达的PTX, 所以DeepSeek只要稍加修改就可移植到AMD的GPU上去

minqidev

大约 16 小时

回复 17楼的帖子
😄，你就没想过，deep seek团队，先教会Deepseek用PTX，然后引导Deepseek直接用汇编编程，他们只需要监督就行。通过并行部分的程序，再让deep seek去蒸馏这个过程，学会如何编PTX重写。numpy, scipy
我觉得，我都想到了，他们估计都实践了好久。问题只是，DeepSeek能不能直接化生编译器，借给你binary去验证

HalloweenKanga

大约 16 小时

mtwash 发表于 2025-01-30 08:20
即便deepseek全部使用底层硬件语言的话，也不代表其它公司有这个本事这么做，
全部用底层语言手搓大项目这需要牛逼工程师，这种工程师不是给工资就可以随便找到的。

能用汇编语言编程的都是牛人。

ecnanif

大约 15 小时

这个帖子炸出好多码工。

Wanfeiche

大约 15 小时

minqidev 发表于 2025-01-30 09:16
回复 17楼的帖子
😄，你就没想过，deep seek团队，先教会Deepseek用PTX，然后引导Deepseek直接用汇编编程，他们只需要监督就行。通过并行部分的程序，再让deep seek去蒸馏这个过程，学会如何编PTX重写。numpy, scipy
我觉得，我都想到了，他们估计都实践了好久。问题只是，DeepSeek能不能直接化生编译器，借给你binary去验证

你就是deepseek的吧怎么违反规定把这个技巧公开出来论文里面故意没写的

olivia0216

大约 15 小时

你就是deepseek的吧怎么违反规定把这个技巧公开出来论文里面故意没写的
Wanfeiche 发表于 2025-01-30 09:46

哈哈哈，果然公开的都是没用的
黑科技都是自己的
小扎强力要求这部分也得开源，不然不能replicable

honeybunch

大约 14 小时

HalloweenKanga 发表于 2025-01-30 09:16
能用汇编语言编程的都是牛人。

天哪。当年我上学的时候就是用汇编语言教的。那时候还觉得有java，c还要学这个机器语言干嘛

pureaqua

大约 14 小时

回复 5楼的帖子
Deepseek确实绕过了Cuda，我几天前就说了呀，没什么很惊讶的。所以这次华为和AMD显卡可以很容易接入
对于显卡来说，PTX有点像汇编，AMD也有类似的。
其实就是并行计算影响速度的部分并没有在cuda 上执行
他们一开始就是考虑会被制裁的，要做都是全套的。他们自己也适配了华为的显卡
minqidev 发表于 2025-01-30 08:16

deepseek不止怼了openAI而且怼了CUDA呀 CUDA的风评不太好但是大家都花钱买简单，还打算吹个大泡泡结果被不怕麻烦就想省钱的中国人…… 护城河没有了，真像是大象进了瓷器店……
Eric schmidt said“ I like to think of CUDA as the C programming language for GPUs. That''''s the way I like to think of it. It was founded in 2008. I always thought it was a terrible language and yet it''''s become dominant. “ 曾经觉得英伟达的CUDA是很蠢的编程语言，但现在CUDA是英伟达最牛逼的护城河，所有的大模型都要在CUDA上运行，而只有英伟达的GPU支持CUDA，这是其他芯片撼动不了的组合。
https://github.com/ociubotaru/transcripts/blob/main/Stanford_ECON295%E2%A7%B8CS323_I_2024_I_The_Age_of_AI%2C_Eric_Schmidt.txt https://www.youtube.com/embed/ltfiLJ76Ofo

wfmlover

大约 14 小时

一群20多岁的年轻人会懂底层的这些汇编？有些不可思议或者他们团队里有老码农没露脸

minqidev

大约 14 小时

回复 30楼 wfmlover 的帖子
国内科班出生的电子系的都要熟悉汇编

tiantianfadai

大约 14 小时

mtwash 发表于 2025-01-30 08:13
这我觉得要客观看待对吧？打个比方说，在C语言里嵌入汇编来做最需要效率的部分，也不奇怪啊，不代表全部要用汇编。那么同理，部分使用更底层的PTX，跟完全不用CUDA，应该两回事吧？不代表CUDA的护城河属性受到威胁了。

还真不太一样。如果只用cuda，基本上NVDA芯片相对别的厂牌有绝对的优势。一旦绕过cuda，能加入针对不同芯片的优化，那么NVDA的这个优势就没了。

maaagiaaa2004

大约 14 小时

不明觉厉。 NVDA是不是应该清仓了？

墨

墨染云烟

大约 14 小时

minqidev 发表于 2025-01-30 08:16
回复 5楼的帖子
Deepseek确实绕过了Cuda，我几天前就说了呀，没什么很惊讶的。所以这次华为和AMD显卡可以很容易接入
对于显卡来说，PTX有点像汇编，AMD也有类似的。
其实就是并行计算影响速度的部分并没有在cuda 上执行
他们一开始就是考虑会被制裁的，要做都是全套的。他们自己也适配了华为的显卡

对的。这个绕行和优化的工程量真的不小。太厉害了。

minqidev

大约 13 小时

回复 33楼 maaagiaaa2004 的帖子
各方面的信息、国内已经有专门针对AI的训练卡，今年会发布

122021

大约 13 小时

回复 19楼 BeHappy78 的帖子
手动点赞😆😆

Grace302

大约 13 小时

不懂，但是为技术的百花齐放高兴。最讨厌垄断了。

白

白河之子

大约 13 小时

minqidev 发表于 2025-01-30 10:57
回复 30楼 wfmlover 的帖子
国内科班出生的电子系的都要熟悉汇编

国内基础课非常扎实

OLOAHA

大约 13 小时

这里好多半桶水叮当响的，什么用汇编语言就和硬件无关，汇编恰恰和硬件是深度绑定的，在N卡上工作的汇编程序不能直接在A卡上跑，反之亦然。

realFakeNews

大约 13 小时

回复 39楼 OLOAHA 的帖子
只要测试做的好，用AI把英伟达的汇编翻成AMD或者华为的应该不是特难事。

OLOAHA

大约 13 小时

realFakeNews 发表于 2025-01-30 11:56
回复 39楼 OLOAHA 的帖子
只要测试做的好，用AI把英伟达的汇编翻成AMD或者华为的应该不是特难事。

“应该不是特难事” 呵呵，做了就知道了

minqidev

大约 13 小时

回复 41楼的帖子
你觉得，只有我们会用Deepseek，Deepseek的人不会用？而是一行一行敲代码。
基本上我觉得他们只要一个PTX思路对，转换一下，验证就行，甚至不需要自己验证，训练Deepseek验证就好了
我让他，算一下向量相加，不出意外。转换很容易。懂汇编的应该很容易验证
.version 7.0  // PTX 版本 .target sm_70 // 目标架构 (sm_70 代表 NVIDIA Volta 架构) .address_size 64 // 64 位地址空间
// 定义向量加法的 GPU 入口函数 .visible .entry vectorAdd(   .param .u64 A, // 传入的指针参数 A   .param .u64 B, // 传入的指针参数 B   .param .u64 C, // 传入的指针参数 C   .param .u32 N) // 传入的数组大小 N {   .reg .u32 tid, idx, Nval; // 定义 32 位寄存器   .reg .u64 Aptr, Bptr, Cptr;   .reg .f32 Aval, Bval;   // 定义 32 位浮点寄存器
  // 获取线程索引（blockIdx.x * blockDim.x + threadIdx.x）   mov.u32 tid, %tid.x;   mov.u32 idx, %ctaid.x;   mad.lo.u32 idx, idx, %ntid.x, tid; // idx = blockIdx.x * blockDim.x + threadIdx.x
  // 加载参数   ld.param.u64 Aptr, [A]; // 读取 A 的指针   ld.param.u64 Bptr, ; // 读取 B 的指针   ld.param.u64 Cptr, [C]; // 读取 C 的指针   ld.param.u32 Nval, [N]; // 读取向量大小
  // 仅当索引在范围内时执行   setp.ge.u32 %p1, idx, Nval;   @%p1 ret;
  // 计算指针偏移量   mul.wide.u32 Aptr, idx, 4;   mul.wide.u32 Bptr, idx, 4;   mul.wide.u32 Cptr, idx, 4;
  // 读取 A 和 B 的值   ld.global.f32 Aval, [Aptr];   ld.global.f32 Bval, [Bptr];
  // 计算 C = A + B   add.f32 Aval, Aval, Bval;       // 存储结果   st.global.f32 [Cptr], Aval;
  ret; }
// AMD GCN 指令集示例   .amd_kernel vector_add // 定义一个 GPU 内核
  s_load_dwordx2 s[0:1], s[4:5], 0x00 // 读取指针 A   s_load_dwordx2 s[2:3], s[4:5], 0x08 // 读取指针 B   s_load_dwordx2 s[6:7], s[4:5], 0x10 // 读取指针 C   s_load_dword  s8, s[4:5], 0x18   // 读取 N
  v_mov_b32   v0, s8         // 将 N 赋值给 v0   v_add_u32   v1, vcc, v0, v0    // 计算索引   v_mul_lo_u32 v2, v1, 4       // 计算偏移量 (index * 4)
  v_add_u32   v3, vcc, s0, v2    // A + index   v_add_u32   v4, vcc, s2, v2    // B + index   v_add_u32   v5, vcc, s6, v2    // C + index
  flat_load_dword v6, v3        // 读取 A   flat_load_dword v7, v4        // 读取 B
  v_add_f32   v8, v6, v7       // C = A + B
  flat_store_dword v5, v8        // 写入 C
  s_endpgm               // 结束

freebubble

大约 12 小时

行业内的人请给指个方向，NVDA的股票会是怎么个走向？

wfmlover

大约 12 小时

回复 31楼 minqidev 的帖子
美国做AI的大部分也是国内EECS毕业的基本上是他们的师兄师姐

olivia0216

大约 12 小时

freebubble 发表于 2025-01-30 12:23
行业内的人请给指个方向，NVDA的股票会是怎么个走向？

要看amd华为等等多久开发出替代芯片了
女大利润率极高，其他公司很有动力去开发替代产品

MegMegMeg

大约 12 小时

有自动编译器的吧，都不用AI编程。20年前我们老留本科玩FPGA的时候，就有一个c语言转汇编的自动编译器，错误挺多就是了。不过汇编很容易debug的，因为全是最底层一步挪一步的指令，哪一行卡住了跑不动，一眼就能看出来问题。
只要是国内读过EE本科，肯定上过计算机基础原理这门课，基本的汇编肯定要学的，不存在小年轻就不懂汇编的情况。但是美本就玄学了，因为美本选课自由度太大，可能正好就把这门课错过了。我同学是做硬件的，跟我说新来的小年轻听都没听说过verilog（这不是汇编，是高级一点的硬件语言），啥都得他自己做。。。

Chatdeep

大约 12 小时

olivia0216 发表于 2025-01-30 12:36
要看amd华为等等多久开发出替代芯片了
女大利润率极高，其他公司很有动力去开发替代产品

女大在cuda上浸淫了多久？小20年。看看这个帖子就可笑。信这个还不如信母猪会飞。

meraviglia

大约 12 小时

Chatdeep 发表于 2025-01-30 12:38
女大在cuda上浸淫了多久？小20年。看看这个帖子就可笑。信这个还不如信母猪会飞。

科技的发展日新月异，千万别说不可能。

olivia0216

大约 12 小时

meraviglia 发表于 2025-01-30 12:42
科技的发展日新月异，千万别说不可能。

AI来了，经验那一套已经不管用了，ai就是乱拳打死老师傅

Chatdeep

大约 12 小时

meraviglia 发表于 2025-01-30 12:42
科技的发展日新月异，千万别说不可能。

要是信，就应该真金白银做空女大。看看按摩店、intel跌倒多惨，女大也一样。

Harenough

大约 12 小时

olivia0216 发表于 2025-01-30 12:36
要看amd华为等等多久开发出替代芯片了
女大利润率极高，其他公司很有动力去开发替代产品

微软，Amazon，meta等苦女大好几年了。
Apple和女大不对付更久了。

cloudy

大约 12 小时

olivia0216 发表于 2025-01-30 08:05
DeepSeek绕过了英伟达引以为傲的CUDA，使用更底层的编程语言做优化
DeepSeek's AI breakthrough bypasses industry-standard CUDA for some functions, uses Nvidia's assembly-like PTX program

V3的硬件效率之所以能比Meta等高出10倍，可以总结为“他们从头开始重建了一切”。在使用英伟达的H800 GPU训练DeepSeek-V3时，他们针对自己的需求把132个流式多处理器（SMs）中的20个修改成负责服务器间的通信，而不是计算任务，变相绕过了硬件对通信速度的限制。 这种操作是用英伟达的PTX（Parallel Thread Execution）语言实现的，而不是CUDA。 PTX在接近汇编语言的层级运行，允许进行细粒度的优化，如寄存器分配和Thread/Warp级别的调整。这种编程非常复杂且难以维护，所以行业通用的做法是使用CUDA这样的高级编程语言。换句话说，他们把优化做到了极致。

应验了我前几天说的话

hehemie2

大约 12 小时

女大以后会怎么样不知道，但是看发言能看出哪些是重仓女大股票的哪些是没啥女大股票的。

cynthiahuang

大约 11 小时

直接用底层语言进程局部优化一直都是有的。但用高级语言的好处是有很多可以直接重新利用的模块，应用编程效率高。编程效率高和performance高很多情况下是不可兼得的。用底层语言提高硬件效率并不能完全取代硬件设计。另一个需要考虑的因素是cost。。。

alama

大约 11 小时

mtwash 发表于 2025-01-30 08:32
是的，你的逻辑是对的。如果大家都用从底层硬件指令手搓项目，那用谁家的硬件是没啥差别的，隔夜就搬家换供应商了。但我怀疑有多少家想、或者会这么做，这样对人的要求高到不可控的地步了，是违反潮流的。

没有美国的禁运，DS可能也不会这么优化到极致吧，还不是逼出来的

kkkst

大约 11 小时

nvda 今天股票继续跌，amd已经用上了deepseek，预计会涨

calrose

大约 11 小时

HalloweenKanga 发表于 2025-01-30 09:16
能用汇编语言编程的都是牛人。

Re，现在CS专业就根本不设汇编语言的课程了，不知道ee专业有没设

helloterran4

大约 11 小时

即便deepseek全部使用底层硬件语言的话，也不代表其它公司有这个本事这么做，
全部用底层语言手搓大项目这需要牛逼工程师，这种工程师不是给工资就可以随便找到的。
mtwash 发表于 2025-01-30 08:20

大哥，时代变了
如果你不知道gerganov是谁，你总知道ggml吧
如果你不知道ggml，你总知道llama.cpp吧
gerganov就是ggml和llama.cpp的作者，一个晚上把初代llama模型移植到c++，在raspberryPi上跑起来的狠人。
结果前两天有人用deepseek写汇编，把他ggml里的核心代码加速了2倍
下图就是他的评论：

pack it up boys, it's over pic.twitter.com/Qg9HZuBg3a — Georgi Gerganov (@ggerganov) January 27, 2025

系统提示：若遇到视频无法播放请点击下方链接
https://x.com/ggerganov/status/1883888097185927311

helloterran4

大约 11 小时

OLOAHA 发表于 2025-01-30 11:46
这里好多半桶水叮当响的，什么用汇编语言就和硬件无关，汇编恰恰和硬件是深度绑定的，在N卡上工作的汇编程序不能直接在A卡上跑，反之亦然。

汇编的底层逻辑都是高度类似的。这叫ISA
到了CUDA runtime层，才会因为编程模型和执行模型的区别，差异变得更大起来。
这就好比不管你什么汽车，你的发动机，变速箱，结构都大同小异。

maggie001

大约 11 小时

我真的非常为他们骄傲！太牛了！厉害！

msilence

大约 10 小时

OLOAHA 发表于 2025-01-30 15:04
手工汇编进行优化的确是需要过硬的编程功力，但是标题的“英伟达护城河不再” 就是搞笑，用PTX进行优化，只会更深度绑定N卡，让护城河加宽。

没错，过去为了一个关键的performance会直接用汇编跟机器直接打交道，随着机器指令运行越来越快，这部分的工作已经没有多大意义。现在的机器代码只能在系统启动中还能看到

mmmfffccc

大约 9 小时

不是说data泄露吗？

tohyukny

大约 9 小时

olivia0216 发表于 2025-01-30 08:05
DeepSeek绕过了英伟达引以为傲的CUDA，使用更底层的编程语言做优化
DeepSeek's AI breakthrough bypasses industry-standard CUDA for some functions, uses Nvidia's assembly-like PTX program

V3的硬件效率之所以能比Meta等高出10倍，可以总结为“他们从头开始重建了一切”。在使用英伟达的H800 GPU训练DeepSeek-V3时，他们针对自己的需求把132个流式多处理器（SMs）中的20个修改成负责服务器间的通信，而不是计算任务，变相绕过了硬件对通信速度的限制。 这种操作是用英伟达的PTX（Parallel Thread Execution）语言实现的，而不是CUDA。 PTX在接近汇编语言的层级运行，允许进行细粒度的优化，如寄存器分配和Thread/Warp级别的调整。这种编程非常复杂且难以维护，所以行业通用的做法是使用CUDA这样的高级编程语言。换句话说，他们把优化做到了极致。

哈哈哈本科的时候汇编语言课老师就告诉我们了，越底层的编程语言越高效。只不过我没有做到deepseek团队这么顶尖，现在还没在工作上用上汇编语言。

goodluckall

大约 9 小时

汇编语言不会编

gocaigo8421

大约 9 小时

OLOAHA 发表于 2025-01-30 15:04
手工汇编进行优化的确是需要过硬的编程功力，但是标题的“英伟达护城河不再” 就是搞笑，用PTX进行优化，只会更深度绑定N卡，让护城河加宽。

每类卡一个汇编，还是可控的，特别是很多可以自动化。

brotherband

大约 9 小时

现在想想usaco 刷到gold以上用python根本不可能，java也不推荐，基本都得学C/C++。考的都是如何最优解，test case 2秒得过一个case要不就是fail。把一群从USACO刷到IOI金牌的人用到了刀刃上啊。做AI的大部分其实背景都是数学，data science，在python environment上躺的平的不能再平了。

OLOAHA

大约 9 小时

gocaigo8421 发表于 2025-01-30 15:33
每类卡一个汇编，还是可控的，特别是很多可以自动化。

我的点在于用PTX优化程序不仅不会像标题说的“英伟达护城河不再”，反而会进一步让程序依赖英伟达。打个比方，一个c程序，如果没有嵌入汇编，可以编译成x86或者amr的executable，不需要改源代码。但是现在把这c程序用arm的汇编实现一遍，这个汇编只能在arm上跑，要在x86上跑还得从头做一遍。至于ai翻译不同架构的汇编语言，将来如何不清楚，至少现在不行（不要拿个hello world程序来证明可行性）

eda2k4

大约 9 小时

olivia0216 发表于 2025-01-30 08:32
华为也有gpu
理论上ds可以用来提高华为的GPU性能，如果已经做到这么底层的话
也就是说如果进一步连低端NVIDIA GPU也禁了的话，中国突破也只是时间问题
并且狠狠打脸scale ai 小黄和奥特曼，只要功夫深，完全可以不靠堆GPU，就跟有个网友说的，挖金子不需要金铲子，铁铲子也行

牙膏厂虽然奸猾，cpu性能提高价格下降还是实实在在的，人力相比cpu贵，所以语言越来越高级，方便了码农。GPU 太贵投入太大，相对而言人力便宜了，手搓说不定会流行起来

eda2k4

大约 9 小时

minqidev 发表于 2025-01-30 11:31
回复 33楼 maaagiaaa2004 的帖子
各方面的信息、国内已经有专门针对AI的训练卡，今年会发布

什么叫专门针对ai的训练卡？难道还有不针对ai的训练卡？训练不就是ai/ml的一8部分？

eda2k4

大约 9 小时

MegMegMeg 发表于 2025-01-30 12:37
有自动编译器的吧，都不用AI编程。20年前我们老留本科玩FPGA的时候，就有一个c语言转汇编的自动编译器，错误挺多就是了。不过汇编很容易debug的，因为全是最底层一步挪一步的指令，哪一行卡住了跑不动，一眼就能看出来问题。
只要是国内读过EE本科，肯定上过计算机基础原理这门课，基本的汇编肯定要学的，不存在小年轻就不懂汇编的情况。但是美本就玄学了，因为美本选课自由度太大，可能正好就把这门课错过了。我同学是做硬件的，跟我说新来的小年轻听都没听说过verilog（这不是汇编，是高级一点的硬件语言），啥都得他自己做。。。

汇编容易debug又是什么鬼？

bhuahua

大约 8 小时

shushan 发表于 2025-01-30 08:22
回复 1楼 olivia0216 的帖子

楼主难道不知道，PTX本来就是Nvidia 开发出来的啊？

每个显卡都有自己的PTX来进行和显卡物理层面的互动。所以，能够在nvidea上做到这一点就可以在其他的显卡上做到，除非PTX之类的工具也处于禁用范围，当然这么做的麻烦就是具体的执行转移到其他的显卡上要整个重新编程和调试，不知道是不是ai可以帮助这一点。

minqidev

大约 8 小时

什么叫专门针对ai的训练卡？难道还有不针对ai的训练卡？训练不就是ai/ml的一8部分？
eda2k4 发表于 2025-01-30 16:09

，好听的名字嘛。其实是，因为架构改了，能够等效AI训练的CPU,不是真正的GPU. 但是国内的信息都非常乐观。

diamondhat

大约 7 小时

轻点吹吧，大家已经开始把deep seek 叫成deep steal，清者自清浊者自浊，让子弹再飞一会。

minqidev

大约 7 小时

回复 83楼的帖子
微软最诚实，😄，看看他们今天做了啥别人叫什么你在乎吗？重要的是 open source。
OpenAI还不open呢

OroMedonte

大约 5 小时

这几天的 DS 体验真是过山车，由开始的兴奋到目前的鸡肋。最大的问题就是无法判断哪次给出的是对哪次是错的。
仅举一例，刚才用英文问你是谁，答openai的AI tool。接着用中文又问了一便，答Deepseek R1。又转回英文，你是不是Deep seek。自我分析了一番，也明白了前后不一致给我造成了困惑，最后总结根据最新指示是deepseek R1。太无语了。
如果答案改来改去，作为辅助工具没有了可靠性consistency。
我赞成科学造福人类，减少政治干扰，也希望尊重前辈的努力付出，最好有个平衡。

snowdrift

大约 5 小时

你去问下 Tesla, Meta,有能力的谁不是早就绕过CUDA自己写低层 assembly优化，这己经不是秘密了。当然对于绝大多数没能力的，还只能在应用层折腾的，还是要用cuda。

eda2k4

大约 4 小时

diamondhat 发表于 2025-01-30 17:27
轻点吹吧，大家已经开始把deep seek 叫成deep steal，清者自清浊者自浊，让子弹再飞一会。

大家是谁？

JaneLee3737

大约 4 小时

回复 86楼 OroMedonte 的帖子
我用英文问他是谁，说的是deepseek啊

dodgers

大约 4 小时

OroMedonte 发表于 2025-01-30 19:58
这几天的 DS 体验真是过山车，由开始的兴奋到目前的鸡肋。最大的问题就是无法判断哪次给出的是对哪次是错的。
仅举一例，刚才用英文问你是谁，答openai的AI tool。接着用中文又问了一便，答Deepseek R1。又转回英文，你是不是Deep seek。自我分析了一番，也明白了前后不一致给我造成了困惑，最后总结根据最新指示是deepseek R1。太无语了。
如果答案改来改去，作为辅助工具没有了可靠性consistency。
我赞成科学造福人类，减少政治干扰，也希望尊重前辈的努力付出，最好有个平衡。

Who cares?

只要便宜，稍微差一点，但免费，对大多数人够了。

谁愿意付200刀一个月，随便。市场最实在，爱用不用。