黄仁勋GTC喊话：全世界误判了，推理所需算力是原以为的百倍 - 2025年3月19日北美华人网存档

5 个月

楼主 (北美华人网)

图片来源：视觉中国
蓝鲸新闻 3 月 19 日讯（记者朱俊熹）在 DeepSeek 引发市场对 GPU 需求的担忧后，英伟达创始人兼首席执行官黄仁勋总是会抓住各种亮相机会大谈其 AI 畅想，希望提振投资者对英伟达的信心。这次的舞台是 3 月 17 日起在美国加州举办的英伟达 GTC 大会。随着近年来英伟达在 AI 浪潮中地位的不断提升，GTC 大会也从原先单纯的开发者活动成为全球瞩目的科技盛会。当地时间 3 月 18 日，黄仁勋在主题演讲中将今年的 GTC 描述为 "AI 的超级碗 "。他表示，唯一的区别是，每个人都能在这场超级碗中获胜，" 每个人都是赢家 "。AI 能够为更多行业和公司解决问题，因此每年都有更多的人前来加入。 AI 芯片路线图的更新依然是本届 GTC 的重头戏，但英伟达的野心已不仅于此。它剑指 AI 时代基础设施层的大一统，布局横跨软、硬件，希望为更多企业提供以英伟达为核心的数据中心解决方案。正如黄仁勋在演讲中提到的，AI 始于云端，云数据中心的基础设施为 AI 的腾飞提供了环境。今年以来，英伟达已向美国四大云巨头出货 360 万块 Blackwell 芯片。但 AI 不会局限在云端，它将无处不在。事实上，英伟达正在构建三类 AI 基础设施：面向云端的、面向企业的、面向机器人的。

图片来源：英伟达
推理将成未来十年核心工作负载 DeepSeek 爆火并一度重创英伟达股价后，黄仁勋多次公开回应称，投资者对 DeepSeek 取得的进展存在误解。它不代表 AI 公司不再需要任何计算，相反推理模型仍然依赖于大量的计算资源。
在 GTC 演讲中，黄仁勋再度直言道，" 在过去一年里，几乎全世界在这个问题上都犯了错误。AI 的计算需求及其扩展定律实际上更具韧性，甚至呈现出超加速的趋势。由于代理型 AI（Agentic AI）和推理能力的发展，目前所需的计算量轻松达到了去年同期我们以为所需的 100 倍。"
对于这一论点，他给出了更详细的阐释。黄仁勋表示，具备推理能力的 AI 会对问题进行逐步拆解，并以各种不同方式得出最佳答案，而不是一次性地随意给出一个结果。模型变得更加复杂，生成的 token 数量显著增加了 10 倍。为了保证模型的响应速度、使其具备交互性，避免用户在等待思考的过程中失去耐心，计算速度也得提高 10 倍。" 因此，最终所需的计算量轻松达到原来的 100 倍。"
另一家芯片巨头 AMD 也在释放类似的态度。3 月 18 日，AMD 董事会主席兼 CEO 苏姿丰亮相在北京举办的 AMD AI PC 创新峰会。她在发言中表示，AMD 最新发布的 Ryzen AI Max 处理器能够高效运行推理模型，以期解决更复杂的问题、实现更深入的理解以及更自然的交互。苏姿丰称，"AMD 的软件开发人员一直专注于优化 DeepSeek，每隔几天就能看到性能的提升，这充分说明了推理技术还处于非常早期的阶段。"
在黄仁勋看来，随着人工智能的扩展，推理将成为未来十年最重要的工作负载之一。他认为很多人忽视了推理背后的计算问题：一方面，想让 AI 生成更多的 token，使其更智能；另一方面，又要平衡回答问题的时间，以防用户因等待过长而离开。黄仁勋将新时代的计算机视作 AI 工厂，是 token 的生成器。这个工厂必须以极高的效率和性能运作，因为一切都将直接影响 AI 服务质量、收入和盈利能力。
芯片路线图再更新，却带不动股价黄仁勋有套经典的计算理论，即在 AI 和加速计算领域，" 买得越多，省得越多 "，因为采用英伟达的技术能够帮助企业节省成本。当推理成为模型进化的新范式，黄仁勋又在最新演讲中添上了后半句，" 现在甚至更好，买得越多，赚得越多 "。以此次预告将在今年下半年推出的下一代 Blackwell Ultra 芯片为例，英伟达明确表示该系列产品是为了 AI 推理时代铺平道路。据其介绍，集成了 Blackwell Ultra 的 GB300 服务器在运行 DeepSeek-R1 模型时，每秒可以处理 1000 个 tokens，而使用 Hopper 芯片的前一代服务器每秒仅能处理 100 个 tokens。由于 Blackwell Ultra 单位时间内能够生成更多内容，这让 AI 工厂的收入机会也增加了 50 倍。

在 GTC 大会上，黄仁勋还披露了更多未来几代 GPU 的性能细节。其中，以暗物质发现先驱、天文学家命名的 Vera Rubin 芯片将在 2026 年下半年发布。Vera Rubin 由名为 Vera 的 CPU 和名为 Rubin 的 GPU 组成，而 Rubin 又是由两块 GPU 组成的单独 GPU。当和 Vera 搭配使用时，Rubin 可以在运行模型时处理每秒 50 千万亿次浮点运算，比当前 Blackwell 芯片每秒 20 千万亿次浮点运算的速度要高出 1.5 倍。
根据英伟达路线图，2027 年下半年将继续推出下一代 Vera Rubin Ultra 芯片。该芯片实际将包含两个连接在一起的 Rubin GPU，性能翻倍提升至每秒 100 千万亿次浮点运算。黄仁勋还首次公开了 Vera Rubin 之后的下一代架构 Feynman，计划将在 2028 年面世，但未给出关于 Feynman 的更多技术细节。

为了进一步证明在后 DeepSeek 的推理模型时代，英伟达也将占据领先地位，在 GTC 上还释出了一款开源的推理服务软件 Dynamo。黄仁勋表示，这个名字象征着工业革命时代的 " 发电机 "，希望在推理成为 AI 主流的背景下，该软件能用最低的成本和最高的效率加速 AI 推理模型，为部署此类模型的 AI 工厂最大程度地创造收入。英伟达举例称，在 GB200 上运行 DeepSeek 推理模型时，Dynamo 可以帮助将每个 GPU 生成的 token 数量提高 30 倍。
然而，受累于对关税、经济衰退等不利因素的担忧，黄仁勋近两小时的畅谈还是没能挽回投资者的信心。英伟达当日股票收报 115.43 美元 / 股，较前一日下跌 3.43%。今年以来，该股已累跌 16.54%。
这样的市场反应或许也在黄仁勋的意料之中。他在演讲中介绍芯片路线图时提到，大家的常见反应都是，" 嗯好的，接下来呢？" 他强调，对 AI 基础设施的建设不像买一台笔记本电脑那样，这涉及到土地、电力、资本支出、工程团队，需要多年的规划和布局。因此会对外公布英伟达在未来两三年内的路线图，而不是突然发布给市场一个惊喜。