微软,OpenAI欲砸千亿美元打造AI超算,挑战英伟达 - 2024年3月31日 / 头条新闻

华尔街见闻

一年多前

1000亿美元、百万AI芯片、5千兆瓦电力......星际之门（Stargate）蓝图曝光，堪称地表最强超算！

据The infomation周五报道，微软和OpenAI正规划一个雄心勃勃的数据中心项目，建造一台名为“星际之门”的AI超级计算机。

这个巨无霸超算将配备数百万专用AI芯片，旨在为OpenAI提供强大算力支持。

当然，该项目耗资巨大，成本预计高达1000亿美元，是目前最大数据中心成本的100倍，“吃电”规模也十分夸张，将需要5000兆瓦电力。

巨大投资规模下，芯片采购、电力供应、冷却技术和网络基础设施成为焦点。

分析指出，对于芯片需求增加可能会加快芯片行业创新和竞争，若微软不再采取英伟达芯片，将对其主导地位构成挑战；

电力供应方面，核能将成为解决电力供应问题的首选；网络基础设施方面，OpenAI倾向于使用开放Ethernet协议替换掉英伟达InfiniBand。

其他技术难题方面，由于需要安装比目前更多的GPU，需要开发更先进的冷却系统。

报道指出，“星际之门”最快也要等到2028年才能亮相，而且还要取决于OpenAI后续大模型能力能否显著提高。

这台AI超算将拥有比现有计算资源高出几个数量级的算力，而且星际之门也将成为公司未来六年内计划建造的最大项目之一，展现了微软对推动AI技术发展的坚定信心。

巨无霸超算——星际之门

AI正以前所未有的速度迅猛发展，对算力的需求也在与日俱增。

即使背靠微软的算力，OpenAI CEO Altman也常常抱怨，算力不够用......

事实上，自2019年向OpenAI投资以来，微软数据中心一直不停进化，但奈何还是满足不了AI进化的需要。

为了加速大模型开发，微软计划重金“狂砸”数据中心。根据设想，“星际之门”超级计算机是一个选址在美国的数据中心，将容纳数百万个专用人工智能芯片，这是微软五阶段计划的最终目标。

消息人士透露，微软和OpenAI的合作分为五个阶段，目前处于第三阶段。

两家正开发一台较小规模超算，耗资100亿美元，预计2026年投入使用，这是第四阶段。

如果此后OpenAI大模型取得突破，他们将大手笔推进第五阶段计划，也就是“星际之门”。

星际之门最早将于2028年投入使用，在2030年之前逐步扩大项目规模和范围。

所有即将实施的项目加在可能耗资约1150亿美元，这是目前一些最大数据中心成本的100倍，花费将由微软买单。目前微软每年在Azure数据中心、芯片和网络设备上的花费约为500亿美元。

对此，有网友感叹，这些家伙真的想接管世界啊！

也有网友喊话对家，谷歌、亚马逊快跟进。

此前，媒体报道称，亚马逊正计划在未来15年内投入约1500亿美元用于全球数据中心的建设与运营。

芯片巨兽、吃电狂魔

要实现这一宏大的设想，微软和OpenAI待解决的问题不少，包括大量芯片采购、冷却要求和网络基础设施，以及最重要的电力供应问题。

购买众多AI芯片的费用，就将是整个项目预算的重头戏。

星际之门的芯片尚未确定，参与者透露微软计划在该项目中使用继续使用英伟达AI芯片；除英伟达之外也还有其他选择，如AMD的GPU，或者微软最近推出的自研AI芯片。

随着人工智能芯片需求激增，英伟达登顶当之无愧的“芯片之王”，OpenAI则一直在努力摆脱对英伟达依赖。

OpenAI表示，希望建立一个全球芯片工厂基础设施来解决这一问题，确保星际之门项目专用AI芯片的稳定供应。

微软也推出自研AI加速器Azure Maia，并可能考虑作为该项目使用替代芯片，以减少对第三方供应商的依赖。

进一步来看，要运行这样一个巨无霸超算，电力供给是大问题。

星际之门将需要消耗至少数千兆瓦的电力，相当于几个大型数据中心所需的电力总和。

参与讨论的人士指出，到项目最终阶段，这台超级计算机可能需要多达5000兆瓦的电力。

考虑到巨大的电力需求，微软和OpenAI已经考虑了包括核电在内的替代能源，以确保为该项目提供充足和可持续的电力供应。

最近，亚马逊购买了宾夕法尼亚州一座核电站旁的数据中心，媒体指出微软曾讨论过竞购该核电站。

今年早些时候，微软开始招募核电技术人才，其聘请Archie Manoharan 担任核技术总监，Erin Henderson 担任核开发加速主管。去年，微软宣布和核聚变初创公司Helion Energy签署了购电协议。

Altman还支持了一家小型核反应堆公司Oklo，该公司计划将目标瞄准数据中心。

此外，冷却、机架密度优化、网络解决方案和基础设施等其他技术难题也有待解决。

为了最大限度地提高星际之门芯片的性能，微软需要想办法在一个机架上安装比目前更多的GPU，同时还要防止芯片过热。这可能需要开发更先进的冷却系统，如液体冷却或浸入式冷却，并优化机架布局和气流管理，以确保高效散热。

至于网络，The Infomation报道称OpenAI避免在星际之门中使用英伟达InfiniBand电缆，相反他们倾向于使用开放Ethernet协议进行联网。这可能需要对网络基础设施进行大量投资，并开发定制的网络解决方案，以支持星际之门大规模运算。

通往AGI的里程碑

虽然星际之门许多细节尚未敲定，但该项目有可能改变人工智能行业，并推动半导体市场的创新。

由于OpenAI和微软是AI计算机和数据中心的大客户之一，它们对该项目的投资可能会推动对各种元件的需求：

包括英伟达、AMD或其他制造商的GPU、微软自研、SK海力士和三星电子的HBM存储，需求增加可能会加快人工智能芯片市场的创新和竞争。需要注意的是，随着微软和 OpenAI 寻求减少对英伟达产品的依赖，星际之门项目也可能对英伟达在人工智能芯片市场的主导地位构成挑战。另一方面，星际之门也是通往AGI的一个关键里程碑。

知情人士称，AI前景难以预测，即使强大如OpenAI去年也未能交付其向微软承诺的新模型。

此前Altman表示，限制AI发展的主要瓶颈是缺乏足够的服务器资源。

数据中心运营商Digital Realty的首席技术官Chris Sharp表示：

这样的项目对于实现AGI是“绝对必需的”，虽然按照当前的标准，星际之门项目的规模似乎难以想象，但我认为，一旦这样一台超级计算机建成，其规模和性能所代表的数字将不再让人感到震惊。