DeepSeek甚至绕过了CUDA 英伟达的护城河还在吗

今日头条
Toutiao
最新回复:2025年1月30日 0点23分 PT
  返回列表
27087 阅读
16 评论
量子位

英伟达刚刚从DeepSeek-R1引发的4万亿元暴跌中缓过劲来,又面临新的压力?

硬件媒体Tom‘s Hardware带来开年最新热议:

DeepSeek甚至绕过了CUDA,使用更底层的编程语言做优化。

这一次是DeepSeek-V3论文中的更多细节,被人挖掘出来。

来自Mirae Asset Securities Research(韩国未来资产证券)的分析称,V3的硬件效率之所以能比Meta等高出10倍,可以总结为“他们从头开始重建了一切”。

在使用英伟达的H800 GPU训练DeepSeek-V3时,他们针对自己的需求把132个流式多处理器(SMs)中的20个修改成负责服务器间的通信,而不是计算任务。

变相绕过了硬件对通信速度的限制。

△ DeepSeek-V3 Technical Report

这种操作是用英伟达的PTX(Parallel Thread Execution)语言实现的,而不是CUDA。

PTX在接近汇编语言的层级运行,允许进行细粒度的优化,如寄存器分配和Thread/Warp级别的调整。

这种编程非常复杂且难以维护,所以行业通用的做法是使用CUDA这样的高级编程语言。

换句话说,他们把优化做到了极致。

有网友表示,如果有一群人嫌CUDA太慢而使用PTX,那一定是前量化交易员。

一位亚马逊工程师提出灵魂质问:CUDA是否还是护城河?这种顶尖实验室可以有效利用任何GPU。

甚至有网友开始畅想,如果“新源神”DeepSeek开源了一个CUDA替代方案……

那么事情是否真会如此?

01 DeepSeek真的绕过了CUDA?

首先要明确的是,PTX仍然是英伟达GPU架构中的技术,它是CUDA编程模型中的中间表示,用于连接CUDA高级语言代码和GPU底层硬件指令。

PTX类似汇编语言,代码大概长这样:

△来自tinkerd.net

在实际编译流程中,CUDA代码首先被编译为PTX代码,PTX代码再被编译为目标GPU架构的机器码(SASS,Streaming ASSembler)。

CUDA起到了提供高级编程接口和工具链的作用,可以简化开发者的工作。而PTX作为中间层,充当高级语言和底层硬件之间的桥梁。

另外,这种两步编译流程也使得CUDA程序具有跨架构的兼容性和可移植性。

反过来说,像DeepSeek这种直接编写PTX代码的做法,首先不仅非常复杂,也很难移植到不同型号的GPU。

有从业者表示,针对H100优化的代码迁移到其他型号上可能效果打折扣,也可能根本不工作了。

所以说,DeepSeek做了PTX级别的优化不意味着完全脱离了CUDA生态,但确实代表他们有优化其他GPU的能力。

事实上,我们也能看到DeekSeek已经与AMD、华为等团队紧密合作,第一时间提供了对其他硬件生态的支持。

02 One More Thing

还有人提出,如此一来,让AI擅长编写汇编语言是AI自我改进的一个方向。

我们不知道DeepSeek内部是否使用AI辅助编写了PTX代码——

但是确实刚刚见证DeepSeek-R1编写的代码显著提升大模型推理框架的运行速度。

Llama.cpp项目中的一个新PR请求,使用SIMD指令(允许一条指令同时处理多个数据)显著提升WebAssembly在特定点积函数上的运行速度,提交者表示:

这个PR中的99%的代码都是由DeekSeek-R1编写的。我唯一做的就是开发测试和编写提示(经过一些尝试和错误)。

是的,这个PR旨在证明大模型现在能够编写良好的底层代码,甚至能够优化自己的代码。

llama.cpp项目的创始人检查了这段代码后表示“比预期的更爆炸”。

w
wasabi20071127
1 楼
这丫要是真是完了猫腻,那可是欺君罔上凌迟处死加诛灭九族。 [1评]
B
Belphegor
2 楼
狗粮:操,这个领域完全不会舔啊……还是老老实实骂对方领导吧!
B
Belphegor
3 楼
是不是,刚刚说完,同一时间发布的,就知道把狗粮整不会了,哈哈哈哈哈哈!
灯塔路
4 楼
别在光盯着“DeepSeek”了 更具威力的阿里巴巴“核弹Qwen2.5-Max”要投放了 欧洲蛮子 准备好了吗
潜水7年多
5 楼
作为一个不懂技术的曾经的IT从业者,这是不是和早期的嵌入式原理类似,大神们给解释一下 [1评]
小日子坏的很
6 楼
不是说是偷偷用了高端显卡吗?
r
renanxing3390
7 楼
哈哈苦逼的台弯人☺️
E
Edmondon
8 楼
狗粮赶紧喷
E
Edmondon
9 楼
对的,在牛逼一点就直接敲2进制进去了
s
santan
10 楼
傻逼五毛蛆又高潮了,大口吃屎, 哈哈哈
i
iwill
11 楼
和当年炒作5G套路,权,全媒热炒,最后也是一个结果
a
asdasffdag
12 楼
只要ChatGPT不能阻止其他软件的规模性访问 那任何一个所谓的人工智能软件 都能用极低的成本 寄生在ChatGPT上 用大量集中性的问题 询问ChatGPT然后再根据 自己的客户的提问 进行回答 结果就是ChatGPT的寄生AI 如此而已 利用ChatGPT的算力 完成自己的所谓AI其实还是ChatGPT 并没有创新 只是抄袭 [1评]
w
wtf6park
13 楼
你這傻叉,連最基本的it知識都沒有就露個頭狗吠,真是不怕被人笑死!讀多點書再說!現在做狗糧是要講資質的。讀書少的不行。說的就是你這種人
g
googlebot
14 楼
nvidia是躺赢,openAI是真输
爱美神
15 楼
这事 你们殖畜真理解不上去,别丢人现眼了
脑袋大思路广
16 楼
不懂ai模型,但我懂国内科技圈的浮躁,静观其变,让时间来验证吧