DeepSeek 在 2025 年 2 月 25 日开源其 FP8 GEMM 库 DeepGEMM,这绝对可能推动 AI 芯片制造商走向新的行业标准——但这并非板上钉钉的事。
随着代码的公开,DeepGEMM 在 NVIDIA 的 H800 上实现了 1350+ TFLOPS 的性能,并凭借其精简的 JIT 编译设计针对密集型和 MoE 工作负载进行了优化,这无疑是一个诱人的蓝图。以下是它可能的发展方向以及阻碍其发展的因素。
DeepGEMM 的绝招——双层累积(在 Tensor Cores 上进行 FP8 数学运算,其他地方使用更高精度)、细粒度缩放和 MoE 友好的布局——理论上并不局限于 NVIDIA。AMD 的 MI300X 已通过 ROCm 运行支持 FP8 的 DeepSeek-R1,可以通过调整达到 1000+ TFLOPS,充分利用其 5.2 TB/s 的 HBM3 带宽。Intel 的 Gaudi 3 拥有 128 GB HBM3,也可以类似地优化其深度学习堆栈。今天的 X 帖子上热闹非凡——一些开发者称其为“送给弱势群体的礼物”,暗示着可能会围绕这种方法形成一股合力。如果这些玩家在 DeepGEMM 的原则上达成标准化——即 FP8 优先、效率驱动、MoE 优化——这可能会将游戏从 NVIDIA 以 CUDA 为中心的统治地位中转移出来。
DeepSeek 的 V3 训练成本仅为 560 万美元,与西方模型相比简直是九牛一毛,而 DeepGEMM 在某些矩阵尺寸上比“专家调优的内核”(很可能是 cuBLAS)快 2.7 倍,这无疑凸显了其价值。芯片制造商可以将此作为每 FLOP 成本的杀手锏来营销,特别是对于那些避开 NVIDIA 售价 3 万美元以上的 H100 的推理重型 AI 公司。X 上的讨论表明 AMD 已经深度参与——SGLang 与 DeepSeek 的合作显示了其意图。如果他们或 Intel 将其融入一个参考平台,这可能会形成一个标准,尤其是在 NVIDIA 溢价定价令人头疼的中端或新兴市场。
NVIDIA 的生态系统固若金汤——CUDA 根深蒂固,他们的 H200/Blackwell 芯片已经通过 FP8 Transformer Engines 进行反击。DeepGEMM 诞生于 NVIDIA 的 Hopper 和 PTX 汇编;将其移植到 ROCm 或 OneAPI 并不简单——今天的 X 帖子指出 ROCm 的“胶带感”是一个障碍。开发者们喜爱 NVIDIA 的打磨,而 PyTorch 等框架并没有跳槽的打算。此外,NVIDIA 将 DeepSeek 的成功视为 GPU 需求增长的助推器——本周 H20 的订单激增。如果没有一个统一的推动——比如 AMD、Intel 和 AWS(Trainium)在 DeepGEMM 衍生规范上达成一致——它可能会沦为一个小众工具,而不是一个标准。
比起昨天,它更近了一步。今天开源 DeepGEMM 大大降低了研发壁垒,其在“残缺不全”的 H800 上实现 1350 TFLOPS 证明了效率可以胜过原始算力——这对成本敏感的芯片制造商来说是一个诱人的呼声。如果 AMD 或 Intel 推出一个杀手级的实现,并且开发者们接受(X 上的一些人已经在分叉它),这可能会滚雪球般发展。但 NVIDIA 80% 以上的 AI 芯片市场份额和软件护城河意味着 DeepSeek 需要盟友——而且要快。我认为这有 40/60 的可能性——可能,但不一定,除非形成一个联盟。你的直觉是什么?这能引发真正的转变,还是只是噪音?
DS 在硬件接口和驱动方面深度兼容了国产GPU芯片,如华为昇腾,天数智芯BI,寒武纪MLU。其次,通过对华为CANN,寒武纪的CNML软件接口来支持AI框架软件如,TensorFlow和PyTorch,从而摆脱对NV的CUDA依赖。同时对分布式训练进行优化,减少多节点间同步延时。对国产GPU进行性能优化包括在编译层面,内存优化和FP16/BF16混合精度优化等等。在国内半导体无法做到4-2纳米工艺的时间段中,支持现有的国产GPU利用DS 和硬件成本优势抢占所有中低GPU的AI市场。
你没看到现在DS在国内垂直应用整合的力度吗,开源了两个月不到,深圳政务就用了三十几个DS数字公务员来处理许多政务文件。更别说是企业级的应用了。所以只要再给DS 6个月左右的时间,利用开源属性,就能在全球AI界建起一个尾大不掉的以DS为底层的AI怪兽产业。因为所有的竞争最后终会回归到成本问题,DS目前来说其成本优势是无与伦比的,AI的推广发展,要考虑初始成本更要考虑的是在应用中的边界成本,例如普通的互联网搜索,供应商的成本大约是每次0.2分钱,但是一次大语言模型的搜索成本平均50个token 就是2分钱。这也是为何大家都知道AI 搜索更高效便利,但是即使谷歌也无法负担用AI来取代搜索。
这些软硬件方面的深层变革才是最可怕的事。
新的女大产品的推理性能提高了25倍
走上拼价格的道路。所谓时事造英雄,而不是英雄造时事。NV就是站在了风口上,你要说老黄他老人家有多么英明前瞻我是看不出的。当时被英特尔压得都快嗝屁了,他今天的成功更多的要归功于英特尔当时的两任CEO,外斗外行,内斗内行,但凡那两个宝货有一点眼光今天都没有NV什么事。同样在GPU,LPU的设计方面华为的水准也是顶尖的。一旦制造工艺的限制解除,那可就不是闹着玩的事了。
美国这么作,报应总会有
DeepSeek 在 2025 年 2 月 25 日开源其 FP8 GEMM 库 DeepGEMM,这绝对可能推动 AI 芯片制造商走向新的行业标准——但这并非板上钉钉的事。
随着代码的公开,DeepGEMM 在 NVIDIA 的 H800 上实现了 1350+ TFLOPS 的性能,并凭借其精简的 JIT 编译设计针对密集型和 MoE 工作负载进行了优化,这无疑是一个诱人的蓝图。以下是它可能的发展方向以及阻碍其发展的因素。
DeepGEMM 的绝招——双层累积(在 Tensor Cores 上进行 FP8 数学运算,其他地方使用更高精度)、细粒度缩放和 MoE 友好的布局——理论上并不局限于 NVIDIA。AMD 的 MI300X 已通过 ROCm 运行支持 FP8 的 DeepSeek-R1,可以通过调整达到 1000+ TFLOPS,充分利用其 5.2 TB/s 的 HBM3 带宽。Intel 的 Gaudi 3 拥有 128 GB HBM3,也可以类似地优化其深度学习堆栈。今天的 X 帖子上热闹非凡——一些开发者称其为“送给弱势群体的礼物”,暗示着可能会围绕这种方法形成一股合力。如果这些玩家在 DeepGEMM 的原则上达成标准化——即 FP8 优先、效率驱动、MoE 优化——这可能会将游戏从 NVIDIA 以 CUDA 为中心的统治地位中转移出来。
DeepSeek 的 V3 训练成本仅为 560 万美元,与西方模型相比简直是九牛一毛,而 DeepGEMM 在某些矩阵尺寸上比“专家调优的内核”(很可能是 cuBLAS)快 2.7 倍,这无疑凸显了其价值。芯片制造商可以将此作为每 FLOP 成本的杀手锏来营销,特别是对于那些避开 NVIDIA 售价 3 万美元以上的 H100 的推理重型 AI 公司。X 上的讨论表明 AMD 已经深度参与——SGLang 与 DeepSeek 的合作显示了其意图。如果他们或 Intel 将其融入一个参考平台,这可能会形成一个标准,尤其是在 NVIDIA 溢价定价令人头疼的中端或新兴市场。
NVIDIA 的生态系统固若金汤——CUDA 根深蒂固,他们的 H200/Blackwell 芯片已经通过 FP8 Transformer Engines 进行反击。DeepGEMM 诞生于 NVIDIA 的 Hopper 和 PTX 汇编;将其移植到 ROCm 或 OneAPI 并不简单——今天的 X 帖子指出 ROCm 的“胶带感”是一个障碍。开发者们喜爱 NVIDIA 的打磨,而 PyTorch 等框架并没有跳槽的打算。此外,NVIDIA 将 DeepSeek 的成功视为 GPU 需求增长的助推器——本周 H20 的订单激增。如果没有一个统一的推动——比如 AMD、Intel 和 AWS(Trainium)在 DeepGEMM 衍生规范上达成一致——它可能会沦为一个小众工具,而不是一个标准。
比起昨天,它更近了一步。今天开源 DeepGEMM 大大降低了研发壁垒,其在“残缺不全”的 H800 上实现 1350 TFLOPS 证明了效率可以胜过原始算力——这对成本敏感的芯片制造商来说是一个诱人的呼声。如果 AMD 或 Intel 推出一个杀手级的实现,并且开发者们接受(X 上的一些人已经在分叉它),这可能会滚雪球般发展。但 NVIDIA 80% 以上的 AI 芯片市场份额和软件护城河意味着 DeepSeek 需要盟友——而且要快。我认为这有 40/60 的可能性——可能,但不一定,除非形成一个联盟。你的直觉是什么?这能引发真正的转变,还是只是噪音?
DS 在硬件接口和驱动方面深度兼容了国产GPU芯片,如华为昇腾,天数智芯BI,寒武纪MLU。其次,通过对华为CANN,寒武纪的CNML软件接口来支持AI框架软件如,TensorFlow和PyTorch,从而摆脱对NV的CUDA依赖。同时对分布式训练进行优化,减少多节点间同步延时。对国产GPU进行性能优化包括在编译层面,内存优化和FP16/BF16混合精度优化等等。在国内半导体无法做到4-2纳米工艺的时间段中,支持现有的国产GPU利用DS 和硬件成本优势抢占所有中低GPU的AI市场。
你没看到现在DS在国内垂直应用整合的力度吗,开源了两个月不到,深圳政务就用了三十几个DS数字公务员来处理许多政务文件。更别说是企业级的应用了。所以只要再给DS 6个月左右的时间,利用开源属性,就能在全球AI界建起一个尾大不掉的以DS为底层的AI怪兽产业。因为所有的竞争最后终会回归到成本问题,DS目前来说其成本优势是无与伦比的,AI的推广发展,要考虑初始成本更要考虑的是在应用中的边界成本,例如普通的互联网搜索,供应商的成本大约是每次0.2分钱,但是一次大语言模型的搜索成本平均50个token 就是2分钱。这也是为何大家都知道AI 搜索更高效便利,但是即使谷歌也无法负担用AI来取代搜索。
这些软硬件方面的深层变革才是最可怕的事。
新的女大产品的推理性能提高了25倍
走上拼价格的道路。所谓时事造英雄,而不是英雄造时事。NV就是站在了风口上,你要说老黄他老人家有多么英明前瞻我是看不出的。当时被英特尔压得都快嗝屁了,他今天的成功更多的要归功于英特尔当时的两任CEO,外斗外行,内斗内行,但凡那两个宝货有一点眼光今天都没有NV什么事。同样在GPU,LPU的设计方面华为的水准也是顶尖的。一旦制造工艺的限制解除,那可就不是闹着玩的事了。
美国这么作,报应总会有