大厂如何从“训练优先”转向“推理优化”?ChatGPT answer

B
BrightLine
楼主 (文学城)
大厂如何从“训练优先”转向“推理优化”?

随着 AI 模型(特别是大语言模型 LLM 和端到端神经网络)的规模持续增长,推理阶段的 计算需求、成本和能耗问题 逐步显现,因此大厂正在调整 AI 计算架构,逐渐向推理优化方向发展。

他们主要采取 两条路径

继续采购 NVIDIA 高效推理 GPU(如 H100/H200/B200) 研发自家定制 ASIC(专用推理芯片)降低长期推理成本 1. 继续使用 NVIDIA GPU(短期主流方案)

尽管大厂希望降低对 NVIDIA 的依赖,但在 短期内(1-2年内),他们仍然大量采购 NVIDIA 高性能 GPU 来支持推理计算。

为何继续用 NVIDIA? 最成熟的 AI 计算生态:CUDA + TensorRT + Transformer Engine,开发者习惯于 NVIDIA 平台。 H100 / H200 / B200 具备高效推理能力:支持 FP8、INT8 等低精度计算,显著降低推理成本。 NVLink + NVSwitch 使得 NVIDIA AI 超算集群仍然是 最高效的选择大厂的 NVIDIA GPU 采购情况 Meta:正在采购 H100H200,主要用于 Llama 3、AI 广告推荐、Reels 等推理任务。 Microsoft:Azure 云提供 H100/H200 作为推理主力,并与 NVIDIA 合作构建 AI 云计算服务。 Tesla:目前仍依赖 NVIDIA H100 进行 FSD V12 的推理训练,但 Dojo 未来会承担部分推理工作。 2. 自研 ASIC 专用推理芯片(长期降本趋势)

虽然 NVIDIA GPU 目前仍是主流,但大厂都在加速研发 自家的 ASIC(Application-Specific Integrated Circuit)推理芯片,以降低推理成本和功耗。

自研 ASIC 推理芯片的优势 极端优化的计算效率:相比通用 GPU,ASIC 仅为特定 AI 任务优化,能效更高。 显著降低推理功耗:相比 GPU,ASIC 推理芯片功耗通常降低 2-5 倍,适合大规模推理部署。 长期减少对 NVIDIA 依赖:避免被 GPU 价格波动影响,控制 AI 计算的 CAPEX 和 OPEX。 大厂的自研 ASIC 进展 公司 自研推理芯片 主要用途 现状
Google TPU v5 LLM 推理(Gemini) 已大规模部署于 Google Cloud
Amazon AWS Inferentia 2 AWS AI 云服务 AWS 内部推理成本比 GPU 低 40%
Meta MTIA(Meta Training & Inference Accelerator) AI 推理(推荐系统 & Llama) 预计 2025 年开始大规模部署
Microsoft Azure Cobalt 云端 LLM 推理 2024 年测试阶段,配合 NVIDIA GPU
Tesla Dojo D1 自动驾驶 AI 推理 主要用于 FSD 推理,仍需 NVIDIA GPU 作为补充
Apple M3 神经引擎 端侧 AI 推理 适合低功耗 AI 计算,无法挑战数据中心
3. 未来 AI 推理市场趋势

短期内(2024-2025):NVIDIA GPU 仍是推理主力

H100 / H200 / B200 继续占据市场,CUDA 生态强大,大厂无法完全绕开。 Azure、AWS、Google Cloud 仍然采购 NVIDIA GPU 作为云推理方案。

中期(2025-2027):ASIC 渗透率上升

Meta、Microsoft、Tesla、Amazon 的自研推理 ASIC 开始大规模部署。 NVIDIA 可能会通过软件(TensorRT、Transformer Engine)优化推理成本,以应对 ASIC 竞争。

长期(2027+):推理芯片市场碎片化

大厂会采用“ASIC + GPU 混合计算”架构: 训练用 NVIDIA + 自研 ASIC 推理主要用 ASIC,GPU 仅作补充 专用 AI 服务器架构可能重构,减少对 NVIDIA NVLink、CUDA 的依赖。 最终结论 目前 大厂仍然需要 NVIDIA 的 GPU(H100/H200) 作为主要推理算力来源,但它们正在积极研发 自家 ASIC 来减少长期依赖。 未来 3-5 年,AI 推理市场会从“以 NVIDIA 为主”过渡到“GPU + ASIC 混合架构”NVIDIA 并不会被 ASIC 取代,但它会面临更激烈的竞争,特别是在推理端的成本控制上。

短期:NVIDIA 继续统治 中期:ASIC 逐步崛起 长期:推理架构进入“GPU + ASIC”共存时代

m
mobius
看来都要TSMC啊, 也利好苹果.
青裁
博通今天涨 4.+%
a
amarie
亮线,对英伟达估值和股票的影响?股票是看未来,你分析一下嘛
B
BrightLine
NVIDIA Blackwell 与 AWS Inferentia 推理芯片对比

NVIDIA Blackwell 与 AWS Inferentia 推理芯片对比

NVIDIA 的 Blackwell 架构和 Amazon Web Services(AWS)的 Inferentia 芯片代表了两种不同的 AI 推理加速方案,各自针对特定的性能需求和应用场景进行了优化。

NVIDIA Blackwell 架构

性能
Blackwell GPU(如 B100 和 B200)旨在提供卓越的 AI 训练和推理性能。在最新的基准测试中,Blackwell 在推理任务上比上一代 Hopper(H100)提升了 4 倍的性能
(来源:Fierce Electronics

适用场景
Blackwell GPU 适用于 大语言模型(LLM)、计算机视觉、高性能计算(HPC) 等广泛的 AI 任务。

部署方式
Blackwell GPU 可用于各种服务器配置,全球 12 家以上的服务器制造商提供 200 多种不同配置,适用于不同的数据中心环境。
(来源:Tom’s Hardware

AWS Inferentia 推理芯片

性能
AWS Inferentia 芯片专门为 AI 推理任务 设计。Inferentia2(第二代) 在某些基准测试中,推理延迟比 NVIDIA A10G 快 4.5 倍
(来源:Hugging Face

适用场景
Inferentia 芯片专门针对 机器学习模型推理 进行优化,特别适用于自然语言处理(NLP)任务和高推理负载的 AI 应用。

部署方式
仅可通过 AWS 云服务 使用,提供大规模、低成本的 AI 推理计算能力,适合 AWS 生态系统用户。

核心区别 对比项 NVIDIA Blackwell(B100/B200)AWS Inferentia(Inferentia2)
设计目标 适用于 训练+推理,高通用性 仅优化 推理,高效低成本
性能 极高计算能力,支持大模型 推理性能更优,延迟更低
部署方式 广泛适配,支持多家云厂商和本地数据中心 AWS 专属,无法在 AWS 之外使用
成本 高昂,适合大规模 AI 计算 推理成本低 40%,适合预算敏感用户
结论 如果企业 需要同时进行 AI 训练和推理,并且希望拥有广泛的部署灵活性,那么 NVIDIA Blackwell GPU(B100/B200) 是更好的选择。 如果企业 主要关注 AI 推理,并且 依赖 AWS 云生态,那么 Inferentia2 提供了更高效、更具成本优势的方案。

两种技术都代表了 AI 硬件的最新进展,但它们适用于不同的 AI 计算需求和市场方向。AWS 表示,他们的 Inferentia 芯片虽然不如 NVIDIA Blackwell GPU 强大,但希望能够作为补充,提供更具成本效益的推理解决方案。

B
BrightLine
That is a Million dollar question, lol

B
BrightLine
I bought some AVGO too.
未知
以后大厂的策略会是:大模型“训练优化”,然后由大模型“生下”一堆各有专长的“推理优化”小模型

两头通吃,两边赚便宜。

B
BrightLine
Very likely...
a
amarie
我不要看那些技术分析,大众明白的不多。说说你的想法吧
天气晚来秋
以后大模型一统江湖
英勇不屈张排长
NVDA 也可以进入ASIC业务。。。