坚持不用GPU！Meta又要All in自研AI芯片？ - 2023年5月21日北美华人网存档

大约 2 年

楼主 (北美华人网)

就在整个硅谷都在以自家公司拿到多少块英伟达的AI芯片（A100 GPU）为傲时，有这么一家倔强的公司，坚持不用英伟达的GPU，决定自研AI芯片。这家公司就是Facebook的母公司Meta。
5月18日本周四，Meta披露了旗下数据中心项目支持AI工作的细节，提到已经打造一款定制芯片，简称MTIA，用于加快生成式AI模型的训练。这是Meta首次推出AI定制芯片。Meta称，MTIA是加快AI训练和推理工作负载的芯片“家族”的一分子。
MTIA全称为Meta训练和推理加速器。MTIA是一种ASIC，也就是将不同电路集成在一块板上的芯片，可以将它进行编程，执行一项或多项任务。看起来和GPU的功能类似，对不对？和现在全球都在抢着用的英伟达A100 GPU相比，Meta自称这款芯片也有优势。Meta称，MTIA采用开源芯片架构RISC-V，它的功耗仅有25瓦，远低于英伟达等主流芯片厂商的产品功耗。而且，为了凸显自己在AI领域早有布局，Meta称，第一代MTIA芯片在2020年就已经设计完成，采用的是7纳米工艺。Meta说，打造第一代MTIA芯片的目的是提高内容推荐模型的效率，以便更精准地为用户推荐广告等内容。此外，第一代MTIA可以将内部128MB的内存扩展到高达128GB。在Meta设计的基准测试中，它处理了低等和中等复杂度的AI模型，效率高于GPU。
对于投资者关于Meta为什么不直接采用GPU的质疑，Meta的软件工程师Joel Cohurn特别介绍称，Meta并非不是没有尝试过GPU，而是在最初使用GPU执行推理任务时，发现GPU不太适合这种工作。用GPU固然可以大幅优化软件，但对真实模型的效率很低，现实配置时难度大、成本高。所以Meta认为，靠人不如靠己，需要搞个MTIA。
不过，Meta也承认，尽管在处理中低复杂程度模型时效率更高，但MTIA芯片在处理高复杂度AI模型时却问题多多。
Meta间接承认，要想让MTIA达到英伟达A100的水平，尚有差距。Meta表示，这款芯片在内存和网络领域的工作还未完成，随着AI模型发展，这些工作会出现瓶颈。目前，MTIA 的重点放在Meta应用家族的推理方面，而不是训练。不过Meta强调，MTIA“大大”提高了单位瓦特的推荐负载运行效率，让公司能运行加强版的、更尖端的AI工作负载。
Meta本周四并未披露配置新芯片的时间表，也未说明具体有什么计划开发可能训练模型的芯片。
去年底ChatGPT大火之后，AI成为全球科技界最热门的话题。AI芯片的主流制造商英伟达赚得盆满钵满，一度被视为已经落伍的微软借着投资OpenAI成功逆袭，向来宣称在AI领域投资诸多的谷歌仓促发布Bard应战，以及一众互联网大厂面对英伟达的“霸权”纷纷宣布要自研AI芯片……
这中间，独独没有Meta的踪影。上个月，有媒体爆出一个大瓜，Meta如今居然还在用CPU来跑AI！这不仅仅是因为英伟达的A100定价颇高，更是因为Meta之前All in元宇宙留下的后遗症。扎克伯格决定把全部身家赌在元宇宙上这一战略，直接榨干了Meta的算力。不管是AI的部署，还是对竞争对手威胁的应对上，Meta的潜力都遭到了极大的削弱。更不要说去年以来，Meta连续不断的裁员，让整个公司人心惶惶，丝毫没有战斗力应对突如其来的AI大潮。
这些失误，引起了前Meta董事会成员Peter Thiel的注意，随后，他于2022年初辞职。据内部人士透露，在离开前的一次董事会会议上，Thiel告诉扎克伯格和其他高管们，他们对Meta的社交媒体业务太自满，并且过分关注元宇宙了，这让公司很容易被竞争对手撼动。
在去年夏末，扎克伯格曾召集高管们，花了五个小时，对Meta的计算能力进行分析。他们需要知道，在开发尖端的AI方面，Meta有多大的能力？出来的结果，让所有人倒吸一口凉气。
根据去年9月20日的公司备忘录显示，尽管Meta对AI研究进行了大笔高调的投资，然而主要业务需要的AI友好型硬件和软件系统都非常昂贵，在这些方面公司的进展相当缓慢。缓慢到，已经阻碍了Meta跟上大规模创新的步伐。哪怕是Meta All in的元宇宙，要想维持增长，也必须越来越多地依靠AI。
Meta基础设施负责人Santosh Janardhan强调，无论是开发AI的工具，还是工作流程，Meta都已经远远落后于其他对手。
想要搞AI自研芯片的科技大厂不止Meta一家，但是想要做到英伟达这么成功、达到与之比肩的地位，还有很多路要走。
目前AI领域最常见的芯片是英伟达的A100。根据New Street Research的数据，英伟达占据了可用于机器学习的图形处理器市场的95%。
A100非常适合支持ChatGPT、Bing AI或Stable Diffusion等工具的机器学习模型，它能够同时执行许多简单的计算，这对于训练和使用神经网络模型非常重要。
A100背后的技术最初用于在游戏中渲染复杂的3D图形，它通常被称为图形处理器（GPU），但如今A100配置和目标是机器学习任务，并在数据中心运行，而不是在个人电脑中运行。市场对A100的需求可谓巨大。对AI公司来说，一块A100是难以支撑起他们的AI梦想的。许多数据中心使用一个包含八个A100的协同工作系统。该系统是英伟达的DGX A100，建议售价接近 20万美元。
New Street Research的一项估计认为，Bing搜索和ChatGPT的模型可能需要8个A100 GPU才能在不到一秒的时间内响应用户问题。这意味着，微软将需要超过2万个DGX系统，这意味着微软在AI基础设施建设上的支出就可能高达40亿美元的基础设施支出。如果谷歌想实现同样的AI转型，那么将在DGX上花费800亿美元。
更让硅谷其他公司不敢有所懈怠的是，英伟达并不因为A100的巨大成功而自满。
当前，英伟达已经开始开始量产下一代AI芯片H100。A100在2020年推出，H100则在2022年开始量产，当然，价格也高于A100。英伟达表示，H100是其第一款针对变压器进行优化的数据中心GPU，这是许多最新和顶级人工智能应用程序使用的一项越来越重要的技术。
面对当前英伟达在AI芯片领域一家独大的局面，当前在自研AI芯片领域步子迈得最大的是微软。
本月早些时候，微软正在提供财务支持以加强AMD研发AI芯片的努力，并与之合作开发代号为Athena的自研AI芯片，这是微软在自研AI芯片方面多管齐下、多重下注的一部分。
有分析认为，此举反映了微软对芯片行业的介入持续深化。在过去几年里，该公司一直在英特尔前高管Rani Borkar的领导下建立一个芯片部门，该部门目前拥有近1000名员工。据其中一位知情人士称，其中数百名员工正在从事Athena项目，微软已在该项目上投入了约20亿美元。
但这并不预示着微软和英伟达的分裂。微软打算与英伟达保持密切合作，该公司的芯片是训练和运行AI系统的主力军。微软还试图获得更多英伟达芯片，这进一步凸显了微软和其他公司面临的AI芯片的紧迫短缺。
4月中旬，据媒体援引两位知情人士的话说，微软早在2019年就开始开发内部代号为Athena的AI芯片。其中一位知情人士称，一些微软和OpenAI的员工已经开始测试并使用这些芯片。微软希望该芯片的性能优于目前从其他供应商处购买的芯片，从而节省其在昂贵的AI业务上的时间和成本。
如此看来，Meta想要赶上英伟达，甚至赶上其他硅谷同行的步伐，还有很长的路要走。