Deepseek把GPU上的fp8的汇编代码开源了, 展现如何绕开所有特定硬件限制

x
xiaohaot
楼主 (北美华人网)
DeepSeek 在 2025 年 2 月 25 日开源其 FP8 GEMM 库 DeepGEMM,这绝对可能推动 AI 芯片制造商走向新的行业标准——但这并非板上钉钉的事。
随着代码的公开,DeepGEMM 在 NVIDIA 的 H800 上实现了 1350+ TFLOPS 的性能,并凭借其精简的 JIT 编译设计针对密集型和 MoE 工作负载进行了优化,这无疑是一个诱人的蓝图。以下是它可能的发展方向以及阻碍其发展的因素。
这为 AMD、Intel 甚至 Cerebras 等芯片制造商提供了一把现成的武器。
DeepGEMM 的绝招——双层累积(在 Tensor Cores 上进行 FP8 数学运算,其他地方使用更高精度)、细粒度缩放和 MoE 友好的布局——理论上并不局限于 NVIDIA。AMD 的 MI300X 已通过 ROCm 运行支持 FP8 的 DeepSeek-R1,可以通过调整达到 1000+ TFLOPS,充分利用其 5.2 TB/s 的 HBM3 带宽。Intel 的 Gaudi 3 拥有 128 GB HBM3,也可以类似地优化其深度学习堆栈。今天的 X 帖子上热闹非凡——一些开发者称其为“送给弱势群体的礼物”,暗示着可能会围绕这种方法形成一股合力。如果这些玩家在 DeepGEMM 的原则上达成标准化——即 FP8 优先、效率驱动、MoE 优化——这可能会将游戏从 NVIDIA 以 CUDA 为中心的统治地位中转移出来。
这一推动有其道理,因为它既实用又廉价。
DeepSeek 的 V3 训练成本仅为 560 万美元,与西方模型相比简直是九牛一毛,而 DeepGEMM 在某些矩阵尺寸上比“专家调优的内核”(很可能是 cuBLAS)快 2.7 倍,这无疑凸显了其价值。芯片制造商可以将此作为每 FLOP 成本的杀手锏来营销,特别是对于那些避开 NVIDIA 售价 3 万美元以上的 H100 的推理重型 AI 公司。X 上的讨论表明 AMD 已经深度参与——SGLang 与 DeepSeek 的合作显示了其意图。如果他们或 Intel 将其融入一个参考平台,这可能会形成一个标准,尤其是在 NVIDIA 溢价定价令人头疼的中端或新兴市场。
但这绝非易事。
NVIDIA 的生态系统固若金汤——CUDA 根深蒂固,他们的 H200/Blackwell 芯片已经通过 FP8 Transformer Engines 进行反击。DeepGEMM 诞生于 NVIDIA 的 Hopper 和 PTX 汇编;将其移植到 ROCm 或 OneAPI 并不简单——今天的 X 帖子指出 ROCm 的“胶带感”是一个障碍。开发者们喜爱 NVIDIA 的打磨,而 PyTorch 等框架并没有跳槽的打算。此外,NVIDIA 将 DeepSeek 的成功视为 GPU 需求增长的助推器——本周 H20 的订单激增。如果没有一个统一的推动——比如 AMD、Intel 和 AWS(Trainium)在 DeepGEMM 衍生规范上达成一致——它可能会沦为一个小众工具,而不是一个标准。
这会发生吗?
比起昨天,它更近了一步。今天开源 DeepGEMM 大大降低了研发壁垒,其在“残缺不全”的 H800 上实现 1350 TFLOPS 证明了效率可以胜过原始算力——这对成本敏感的芯片制造商来说是一个诱人的呼声。如果 AMD 或 Intel 推出一个杀手级的实现,并且开发者们接受(X 上的一些人已经在分叉它),这可能会滚雪球般发展。但 NVIDIA 80% 以上的 AI 芯片市场份额和软件护城河意味着 DeepSeek 需要盟友——而且要快。我认为这有 40/60 的可能性——可能,但不一定,除非形成一个联盟。你的直觉是什么?这能引发真正的转变,还是只是噪音?

R
Riverss
nvda又要大跌了吗
x
xiaohaot
Deepseek展现了一个方向,加一层简单的适配,绕开所有特定硬件限制。
这些开源的软件当然可以用不同的硬件或者算法。Linux可以在Intel, m, amd 上跑,也可以在华为CPU上跑。llama和pytorch可以在mac, windows, Linux上跑,mac上面没有Nvidia的gpu,跑AI也不慢,当然是和其他rtx比。
在服务器上跑,那些开源软件自己就可以改算法,改用的硬件,deepseek已经做出来不是最好的证明?而且国内用华为的AI服务器910B,920B,甚至现在开始用910C都是改开源软件来支持这些华为AI硬件。改完以后起码国内自己可以用。
最近小孩帮我在家里Nvidia游戏卡的电脑上装了wsl跑了一些GitHub的AI软件, 包括deepseek,算是玩一下。本来是用Windows,后来发现vllm不支持windows,然后才装wsl. 大概二十年没碰NN,真是日新月异,现在代码都不需要写几行,全都是framework和configuration file.
m
minqidev
回复 2楼 Riverss 的帖子
会跌也会涨。 这里其实都是Deepseek自己的一个局。
你可以不停的看到英伟达股价上上下下。DeepSeek他们本身也可以靠这个赚很多
樱桃猫
谁知道呢
昨夜小樓聽雨
這小伙子要幹嘛?在砸美國的碗嗎?
l
layjohns
哈哈哈哈。deepseek这是副业当浑水公司,以便母公司割英伟达韭菜?
b
brama
layjohns 发表于 2025-02-27 00:49
哈哈哈哈。deepseek这是副业当浑水公司,以便母公司割英伟达韭菜?

应该是这个意思,这是一个创新的股票玩法,看着哪家公司不顺眼,自己投资搞一个新的技术,再公开这个技术让全世界的公司都能够copy这个技术,然后打压目标股票,这比在股票上买空卖空要强100倍,而且还找不到他们操纵市场的法律规定,获利后再继续这样投资操作,比寻找大批的资金倒卖要强很多,突然性很强,而且只有自己公司知道,那些股市大鳄无法预测,天才!
人生赢家_
睿 发表于 2025-02-26 22:53
这些开源的软件当然可以用不同的硬件或者算法。Linux可以在Intel, m, amd 上跑,也可以在华为CPU上跑。llama和pytorch可以在mac, windows, Linux上跑,mac上面没有Nvidia的gpu,跑AI也不慢,当然是和其他rtx比。
在服务器上跑,那些开源软件自己就可以改算法,改用的硬件,deepseek已经做出来不是最好的证明?而且国内用华为的AI服务器910B,920B,甚至现在开始用910C都是改开源软件来支持这些华为AI硬件。改完以后起码国内自己可以用。
最近小孩帮我在家里Nvidia游戏卡的电脑上装了wsl跑了一些GitHub的AI软件, 包括deepseek,算是玩一下。本来是用Windows,后来发现vllm不支持windows,然后才装wsl. 大概二十年没碰NN,真是日新月异,现在代码都不需要写几行,全都是framework和configuration file.

用framework安全啊,写得也快还规范🤣
A
Anotherfacet
拜托直接发英文原版,这里的人又不是不认识英文。那个蹩脚翻译看得那叫难受
g
goodluckall
这两天nvda还涨了啊,为啥?
m
minqidev
回复 12楼 goodluckall 的帖子
不涨怎么赚钱。 很多东西降低的是入门AI门槛会有更多人买显卡