随着 AI 模型(特别是大语言模型 LLM 和端到端神经网络)的规模持续增长,推理阶段的 计算需求、成本和能耗问题 逐步显现,因此大厂正在调整 AI 计算架构,逐渐向推理优化方向发展。
他们主要采取 两条路径:
尽管大厂希望降低对 NVIDIA 的依赖,但在 短期内(1-2年内),他们仍然大量采购 NVIDIA 高性能 GPU 来支持推理计算。
虽然 NVIDIA GPU 目前仍是主流,但大厂都在加速研发 自家的 ASIC(Application-Specific Integrated Circuit)推理芯片,以降低推理成本和功耗。
短期内(2024-2025):NVIDIA GPU 仍是推理主力
中期(2025-2027):ASIC 渗透率上升
长期(2027+):推理芯片市场碎片化
短期:NVIDIA 继续统治 中期:ASIC 逐步崛起 长期:推理架构进入“GPU + ASIC”共存时代
NVIDIA 的 Blackwell 架构和 Amazon Web Services(AWS)的 Inferentia 芯片代表了两种不同的 AI 推理加速方案,各自针对特定的性能需求和应用场景进行了优化。
性能: Blackwell GPU(如 B100 和 B200)旨在提供卓越的 AI 训练和推理性能。在最新的基准测试中,Blackwell 在推理任务上比上一代 Hopper(H100)提升了 4 倍的性能。 (来源:Fierce Electronics)
适用场景: Blackwell GPU 适用于 大语言模型(LLM)、计算机视觉、高性能计算(HPC) 等广泛的 AI 任务。
部署方式: Blackwell GPU 可用于各种服务器配置,全球 12 家以上的服务器制造商提供 200 多种不同配置,适用于不同的数据中心环境。 (来源:Tom’s Hardware)
性能: AWS Inferentia 芯片专门为 AI 推理任务 设计。Inferentia2(第二代) 在某些基准测试中,推理延迟比 NVIDIA A10G 快 4.5 倍。 (来源:Hugging Face)
适用场景: Inferentia 芯片专门针对 机器学习模型推理 进行优化,特别适用于自然语言处理(NLP)任务和高推理负载的 AI 应用。
部署方式: 仅可通过 AWS 云服务 使用,提供大规模、低成本的 AI 推理计算能力,适合 AWS 生态系统用户。
两种技术都代表了 AI 硬件的最新进展,但它们适用于不同的 AI 计算需求和市场方向。AWS 表示,他们的 Inferentia 芯片虽然不如 NVIDIA Blackwell GPU 强大,但希望能够作为补充,提供更具成本效益的推理解决方案。
两头通吃,两边赚便宜。
随着 AI 模型(特别是大语言模型 LLM 和端到端神经网络)的规模持续增长,推理阶段的 计算需求、成本和能耗问题 逐步显现,因此大厂正在调整 AI 计算架构,逐渐向推理优化方向发展。
他们主要采取 两条路径:
继续采购 NVIDIA 高效推理 GPU(如 H100/H200/B200) 研发自家定制 ASIC(专用推理芯片)降低长期推理成本 1. 继续使用 NVIDIA GPU(短期主流方案)尽管大厂希望降低对 NVIDIA 的依赖,但在 短期内(1-2年内),他们仍然大量采购 NVIDIA 高性能 GPU 来支持推理计算。
为何继续用 NVIDIA? 最成熟的 AI 计算生态:CUDA + TensorRT + Transformer Engine,开发者习惯于 NVIDIA 平台。 H100 / H200 / B200 具备高效推理能力:支持 FP8、INT8 等低精度计算,显著降低推理成本。 NVLink + NVSwitch 使得 NVIDIA AI 超算集群仍然是 最高效的选择。 大厂的 NVIDIA GPU 采购情况 Meta:正在采购 H100 及 H200,主要用于 Llama 3、AI 广告推荐、Reels 等推理任务。 Microsoft:Azure 云提供 H100/H200 作为推理主力,并与 NVIDIA 合作构建 AI 云计算服务。 Tesla:目前仍依赖 NVIDIA H100 进行 FSD V12 的推理训练,但 Dojo 未来会承担部分推理工作。 2. 自研 ASIC 专用推理芯片(长期降本趋势)虽然 NVIDIA GPU 目前仍是主流,但大厂都在加速研发 自家的 ASIC(Application-Specific Integrated Circuit)推理芯片,以降低推理成本和功耗。
自研 ASIC 推理芯片的优势 极端优化的计算效率:相比通用 GPU,ASIC 仅为特定 AI 任务优化,能效更高。 显著降低推理功耗:相比 GPU,ASIC 推理芯片功耗通常降低 2-5 倍,适合大规模推理部署。 长期减少对 NVIDIA 依赖:避免被 GPU 价格波动影响,控制 AI 计算的 CAPEX 和 OPEX。 大厂的自研 ASIC 进展短期内(2024-2025):NVIDIA GPU 仍是推理主力
H100 / H200 / B200 继续占据市场,CUDA 生态强大,大厂无法完全绕开。 Azure、AWS、Google Cloud 仍然采购 NVIDIA GPU 作为云推理方案。中期(2025-2027):ASIC 渗透率上升
Meta、Microsoft、Tesla、Amazon 的自研推理 ASIC 开始大规模部署。 NVIDIA 可能会通过软件(TensorRT、Transformer Engine)优化推理成本,以应对 ASIC 竞争。长期(2027+):推理芯片市场碎片化
大厂会采用“ASIC + GPU 混合计算”架构: 训练用 NVIDIA + 自研 ASIC 推理主要用 ASIC,GPU 仅作补充 专用 AI 服务器架构可能重构,减少对 NVIDIA NVLink、CUDA 的依赖。 最终结论 目前 大厂仍然需要 NVIDIA 的 GPU(H100/H200) 作为主要推理算力来源,但它们正在积极研发 自家 ASIC 来减少长期依赖。 未来 3-5 年,AI 推理市场会从“以 NVIDIA 为主”过渡到“GPU + ASIC 混合架构”。 NVIDIA 并不会被 ASIC 取代,但它会面临更激烈的竞争,特别是在推理端的成本控制上。短期:NVIDIA 继续统治 中期:ASIC 逐步崛起 长期:推理架构进入“GPU + ASIC”共存时代
NVIDIA Blackwell 与 AWS Inferentia 推理芯片对比
NVIDIA 的 Blackwell 架构和 Amazon Web Services(AWS)的 Inferentia 芯片代表了两种不同的 AI 推理加速方案,各自针对特定的性能需求和应用场景进行了优化。
NVIDIA Blackwell 架构性能:
Blackwell GPU(如 B100 和 B200)旨在提供卓越的 AI 训练和推理性能。在最新的基准测试中,Blackwell 在推理任务上比上一代 Hopper(H100)提升了 4 倍的性能。
(来源:Fierce Electronics)
适用场景:
Blackwell GPU 适用于 大语言模型(LLM)、计算机视觉、高性能计算(HPC) 等广泛的 AI 任务。
部署方式:
AWS Inferentia 推理芯片Blackwell GPU 可用于各种服务器配置,全球 12 家以上的服务器制造商提供 200 多种不同配置,适用于不同的数据中心环境。
(来源:Tom’s Hardware)
性能:
AWS Inferentia 芯片专门为 AI 推理任务 设计。Inferentia2(第二代) 在某些基准测试中,推理延迟比 NVIDIA A10G 快 4.5 倍。
(来源:Hugging Face)
适用场景:
Inferentia 芯片专门针对 机器学习模型推理 进行优化,特别适用于自然语言处理(NLP)任务和高推理负载的 AI 应用。
部署方式:
核心区别仅可通过 AWS 云服务 使用,提供大规模、低成本的 AI 推理计算能力,适合 AWS 生态系统用户。
两种技术都代表了 AI 硬件的最新进展,但它们适用于不同的 AI 计算需求和市场方向。AWS 表示,他们的 Inferentia 芯片虽然不如 NVIDIA Blackwell GPU 强大,但希望能够作为补充,提供更具成本效益的推理解决方案。
两头通吃,两边赚便宜。