深夜炸场!世界最强AI芯片H200震撼发布!性能飙升

今日头条
Toutiao
最新回复:2023年11月14日 8点45分 PT
  返回列表
89361 阅读
32 评论
新智元

刚刚,英伟达发布了目前世界最强的AI芯片H200,性能较H100提升了60%到90%,还能和H100兼容。算力荒下,大科技公司们又要开始疯狂囤货了。

英伟达的节奏,越来越可怕了。

就在刚刚,老黄又一次在深夜炸场——发布目前世界最强的AI芯片H200!

较前任霸主H100,H200的性能直接提升了60%到90%。

不仅如此,这两款芯片还是互相兼容的。这意味着,使用H100训练/推理模型的企业,可以无缝更换成最新的H200。

全世界的AI公司都陷入算力荒,英伟达的GPU已经千金难求。英伟达此前也表示,两年一发布的架构节奏将转变为一年一发布。

就在英伟达宣布这一消息之际,AI公司们正为寻找更多H100而焦头烂额。

英伟达的高端芯片价值连城,已经成为贷款的抵押品。

谁拥有H100,是硅谷最引人注目的顶级八卦

至于H200系统,英伟达表示预计将于明年二季度上市。

同在明年,英伟达还会发布基于Blackwell架构的B100,并计划在2024年将H100的产量增加两倍,目标是生产200多万块H100。

而在发布会上,英伟达甚至全程没有提任何竞争对手,只是不断强调「英伟达的AI超级计算平台,能够更快地解决世界上一些最重要的挑战。」

随着生成式AI的大爆炸,需求只会更大,而且,这还没算上H200呢。赢麻了,老黄真的赢麻了!

141GB超大显存,性能直接翻倍!

H200,将为全球领先的AI计算平台增添动力。

它基于Hopper架构,配备英伟达H200 Tensor Core GPU和先进的显存,因此可以为生成式AI和高性能计算工作负载处理海量数据。

英伟达H200是首款采用HBM3e的GPU,拥有高达141GB的显存。

与A100相比,H200的容量几乎翻了一番,带宽也增加了2.4倍。与H100相比,H200的带宽则从3.35TB/s增加到了4.8TB/s。

英伟达大规模与高性能计算副总裁Ian Buck表示——

要利用生成式人工智能和高性能计算应用创造智能,必须使用大型、快速的GPU显存,来高速高效地处理海量数据。借助H200,业界领先的端到端人工智能超算平台的速度会变得更快,一些世界上最重要的挑战,都可以被解决。

Llama 2推理速度提升近100%

跟前代架构相比,Hopper架构已经实现了前所未有的性能飞跃,而H100持续的升级,和TensorRT-LLM强大的开源库,都在不断提高性能标准。

H200的发布,让性能飞跃又升了一级,直接让Llama2 70B模型的推理速度比H100提高近一倍!

H200基于与H100相同的Hopper架构。这就意味着,除了新的显存功能外,H200还具有与H100相同的功能,例如Transformer Engine,它可以加速基于Transformer架构的LLM和其他深度学习模型。

HGX H200采用英伟达NVLink和NVSwitch高速互连技术,8路HGX H200可提供超过32 Petaflops的FP8深度学习计算能力和1.1TB的超高显存带宽。

当用H200代替H100,与英伟达Grace CPU搭配使用时,就组成了性能更加强劲的GH200 Grace Hopper超级芯片——专为大型HPC和AI应用而设计的计算模块。

下面我们就来具体看看,相较于H100,H200的性能提升到底体现在哪些地方。

首先,H200的性能提升最主要体现在大模型的推理性能表现上。

如上所说,在处理Llama 2等大语言模型时,H200的推理速度比H100提高了接近1倍。

因为计算核心更新幅度不大,如果以训练175B大小的GPT-3为例,性能提升大概在10%左右。

显存带宽对于高性能计算(HPC)应用程序至关重要,因为它可以实现更快的数据传输,减少复杂任务的处理瓶颈。

对于模拟、科学研究和人工智能等显存密集型HPC应用,H200更高的显存带宽可确保高效地访问和操作数据,与CPU相比,获得结果的时间最多可加快110倍。

相较于H100,H200在处理高性能计算的应用程序上也有20%以上的提升。

而对于用户来说非常重要的推理能耗,H200相比H100直接腰斩。

这样,H200能大幅降低用户的使用成本,继续让用户「买的越多,省的越多」!

上个月,外媒SemiAnalysis曾曝出一份英伟达未来几年的硬件路线图,包括万众瞩目的H200、B100和「X100」GPU。

而英伟达官方,也公布了官方的产品路线图,将使用同一构架设计三款芯片,在明年和后年会继续推出B100和X100。

B100,性能已经望不到头了

这次,英伟达更是在官方公告中宣布了全新的H200和B100,将过去数据中心芯片两年一更新的速率直接翻倍。

以推理1750亿参数的GPT-3为例,今年刚发布的H100是前代A100性能的11倍,明年即将上市的H200相对于H100则有超过60%的提升,而再之后的B100,性能更是望不到头。

至此,H100也成为了目前在位最短的「旗舰级」GPU。

如果说H100现在就是科技行业的「黄金」,那么英伟达又成功制造了「铂金」和「钻石」。

H200加持,新一代AI超算中心大批来袭

云服务方面,除了英伟达自己投资的CoreWeave、Lambda和Vultr之外,亚马逊云科技、谷歌云、微软Azure和甲骨文云基础设施,都将成为首批部署基于H200实例的供应商。

此外,在新的H200加持之下,GH200超级芯片也将为全球各地的超级计算中心提供总计约200 Exaflops的AI算力,用以推动科学创新。

在SC23大会上,多家顶级超算中心纷纷宣布,即将使用GH200系统构建自己的超级计算机。

德国尤里希超级计算中心将在超算JUPITER中使用GH200超级芯片。

这台超级计算机将成为欧洲第一台超大规模超级计算机,是欧洲高性能计算联合项目(EuroHPC Joint Undertaking)的一部分。

Jupiter超级计算机基于Eviden的BullSequana XH3000,采用全液冷架构。

它总共拥有24000个英伟达GH200 Grace Hopper超级芯片,通过Quantum-2 Infiniband互联。

每个Grace CPU包含288个Neoverse内核, Jupiter的CPU就有近700万个ARM核心。

它能提供93 Exaflops的低精度AI算力和1 Exaflop的高精度(FP64)算力。这台超级计算机预计将于2024年安装完毕。

由筑波大学和东京大学共同成立的日本先进高性能计算联合中心,将在下一代超级计算机中采用英伟达GH200 Grace Hopper超级芯片构建。

作为世界最大超算中心之一的德克萨斯高级计算中心,也将采用英伟达的GH200构建超级计算机Vista。

伊利诺伊大学香槟分校的美国国家超级计算应用中心,将利用英伟达GH200超级芯片来构建他们的超算DeltaAI,把AI计算能力提高两倍。

此外,布里斯托大学将在英国政府的资助下,负责建造英国最强大的超级计算机Isambard-AI——将配备5000多颗英伟达GH200超级芯片,提供21 Exaflops的AI计算能力。

英伟达、AMD、英特尔:三巨头决战AI芯片

GPU竞赛,也进入了白热化。

面对H200,而老对手AMD的计划是,利用即将推出的大杀器——Instinct MI300X来提升显存性能。

MI300X将配备192GB的HBM3和5.2TB/s的显存带宽,这将使其在容量和带宽上远超H200。

而英特尔也摩拳擦掌,计划提升Gaudi AI芯片的HBM容量,并表示明年推出的第三代Gaudi AI芯片将从上一代的 96GB HBM2e增加到144GB。

英特尔Max系列目前的HBM2容量最高为128GB,英特尔计划在未来几代产品中,还要增加Max系列芯片的容量。

H200价格未知

所以,H200卖多少钱?英伟达暂时还未公布。

要知道,一块H100的售价,在25000美元到40000美元之间。训练AI模型,至少需要数千块。

此前,AI社区曾广为流传这张图片《我们需要多少个GPU》。

GPT-4大约是在10000-25000块A100上训练的;Meta需要大约21000块A100;Stability AI用了大概5000块A100;Falcon-40B的训练,用了384块A100。

根据马斯克的说法,GPT-5可能需要30000-50000块H100。摩根士丹利的说法是25000个GPU。

Sam Altman否认了在训练GPT-5,但却提过「OpenAI的GPU严重短缺,使用我们产品的人越少越好」。

沙拉维
1 楼
遥遥领先~~ 苏联就是赶不上第三次工业革命这趟车,沦为二流国家。 中国处在最关键的时候,跟上了就变成一流国家,跟不上就是第二个苏联。
明日之星
2 楼
美国靠打压和华人暂时领先 [2评]
人面桃花相映红
3 楼
明年二季度才能发布的东西现在就在吹,实际上就是告诉拜登H100别禁了,我以后有更好的给你.也是告诉中国企业,别买华为910,以后你还能买到H100.
S
Sinoroc
4 楼
好吧~~看你能卖多少.....
h
huaibaba
5 楼
不打压中国也造不出来。因为有外行领导内行。另外,英伟达老板黄仁勋就是华人。中国不缺人才,但是你看现在,大佬们纷纷退休,称臣。人心惶惶。这样的环境能吸引人才留下吗? [2评]
s
slimane
6 楼
人家是彎彎,大陸的根本沒這水平,大陸的就是炒股票的
s
slimane
7 楼
關強國屁事,以後強國電動車都死了,無人駕駛以後是基本配置,這也是比亞迪一直貶低無人駕駛的原因。 居然還有人在意淫強國的未來,國運破了,至少需要三十年才能緩過來。當然了ccp超不過元朝
N
Nexs
8 楼
中国官媒都是越打压越好,好自力更生发展。你这五毛有点不听话。
意见没
9 楼
有啥造不出来的?!只不过占了由于西方先发而获得的技术优势而已!中国在这方面虽仍落后,但也不过是两三代(而不是1-20年甚至有或没有)以内的差距,并且在AI专用芯片方面差距更小。 NVIDIA能在AI方面领先,是因为它的显卡的传统产品正好比比如CPU等更适合AI所需要的矩阵运算。现在NVIDIA在其显卡基础上增加芯片性能的办法主要应该是利用最新工艺、增加规模以及尽量从系统上减小信息的存取速度等,但一是现在硅基的半导体工艺基本已到物理极限,二是这种由于数字计算架构的限制,这种芯片随着规模的增加能耗会非常的大。很难想象将来具有通识性人工智能的机器人会背个大电池头顶个大风扇。 真正的未来的AI芯片应该是不管是算法还是物理实现都尽量贴近人脑,这方面中国也已有了突破: China Unveils Groundbreaking All-Analog Photoelectronic Chip 中国推出突破性全模拟光电芯片 11/05/2023 https://www.msn.com/en-us/news/technology/china-unveils-groundbreaking-all-analog-photoelectronic-chip/ar-AA1jpjtK?ocid=msedgntp&cvid=26b6ea245b6041ed94999b8c483dfbb3&ei=17 对 ACCEL 进行的测试证明了其卓越的功能。 该芯片可以准确地识别和分类物体,其精度可与数字神经网络相媲美。 此外,在处理日常场景的高分辨率图像时,ACCEL 的运行速度比顶级图形处理单元 (GPU) 快 3,000 多倍,消耗的能源却少了 4,000,000 倍。 能源效率和处理速度的显着飞跃使 ACCEL 成为人工智能和图像处理领域的游戏规则改变者。
h
huaibaba
10 楼
说了半天不就是没造出来吗?技术优势为啥不在中国这边?因为中国吸引不了人才。中国的人才都在往外跑。留下的都是不懂政治的书呆子。 [2评]
e
elseye
11 楼
你开心就好,真的,看你这种人,真的有可笑又可恨,真不知道什么经历让你们如此扭曲,就好下能你们骂五毛,我觉得,你真这么不喜欢中国,滚蛋就是。
意见没
12 楼
做不出啥?傻逼看不懂俺的中文?!只要你长了点脑子,眼睛没长在裤裆,就能知道、看到中国尽-30年来不管是经济还是科技、军事的巨大进步,还他奶奶的“留下的都是不懂政治的书呆子”!你是在捧中国人吗?🙄 [1评]
h
huaibaba
13 楼
做不出H200啊?您是弱智?对,就中国进步,外国都在原地踏步。如果满意了就这样吧。中国遥遥领先。欧美奋力追赶。OK? [1评]
意见没
14 楼
tnnd谁给你在争辩H200?我说的是中国差距2-3代以内的显卡已作出来了,性能可以媲美的AI专用芯片也做出来了! 当然都会有进步,但现在实际情况是靠半导体工艺提升芯片性能的物理极限已经基本到头了,因为单原子的直径也就在0.1nm左右,到了1-2nm的工艺半导体器件的量子效应已非常显著了,体现在漏电、管子稳定性方面已经非常严重了。所以这反而给了中国追赶上的机会!
g
g2sank
15 楼
中国的人才都在往外跑。。。你不会是在说自己吧?噗,不好意思,我不想笑可实在憋不住
w
wilburwang
16 楼
人家是弯弯你是啥?全家快死光了才换回繁体字后悔不?现身说法警告下其他繁华狗早点用繁体不然死全家
d
djtg
17 楼
都不知道你看懂这个文章没有, 这个是ACCEL (All-Analog Chip Combining Electronic and Light Computing), 这个的主要用途是光学识别,就是高效处理光学信号,而且其中还有用到digital NN,也就是特殊用途的芯片加处理。这个离现在最热的通用大模型,生成式模型,还有通用GPU都扯不上边。 论文原文在这里; https://www.nature.com/articles/s41586-023-06558-8 [1评]
j
jujubi
18 楼
不见世面的傻逼。
意见没
19 楼
我没细看那篇文章只扫了一遍,但文章中提到了是用的“all analog chip",提到digital NN是说常规的做法。其实只要看起题目及报道中的性能数据也可以猜出来(我知道因我对这方面深层的专业知识较了解),因为如果是用的数字来进行计算及/或存储,它的能耗不可能会比现行最先进的同类产品少4百万倍,速度快3000倍。我上帖中就是强调这种实现方法才是AI芯片的未来,不管是用于光学识别(后面处理),还是通识的AI芯片。另,通用大模型或生成式模型,与GPU不是一类东西。不管是通用大模型还是生成式模型,这只是利用巨量的数据训练出来的一个AI模型 (可看成是软件),而GPU特别是为AI应用目的特出设计的GPU,只是可以用来训练或实现上述模型的硬件。 [1评]
h
huaibaba
20 楼
操,没看懂你回我干啥?我说东你非要说西,你咋不说造爱呐? [1评]
媚眼瞟瞟
21 楼
别上当。 每次都是股价升过了才发消息。 等你买了股票, 就跌了下来。
意见没
22 楼
Whatever!🙄
d
djtg
23 楼
这个是用模拟的方式来实现数字神经网络,看它的实现方式本质上还是最基本的神经网络形式,不过它用的是模拟信号的diffractive optical computing module代替数字的神经网路的节点和激活函数。这种应用最大的问题就是通用性差,而且没有能力处理更复杂的模型结构,不排除将来可能会有通用性的模拟芯片,但在近期肯定不可能,这还差很远。 我知道通用大模型或生成式模型是AI的结构,GPU是用于计算这些模型的, 我要表达的是这些东西的基础,通用性。
b
bignoseyan
24 楼
哈哈哈哈,美国鬼子的东西确实不错,值得国内科技公司学习,有了追赶方向,还怕超车不了?
6
6parkmon
25 楼
just upgraded HBM memory from HBM3 to HBM3e.
意见没
26 楼
无所谓的“用模拟的方式来实现数字神经网络”,因为模拟才是人脑里神经元真正的实现方式。那篇文章加了前几级的光学衍射层是因为它要处理的是光学信号也就顺便多加了几层进行特征识别,但后面是用光电二极管转换成了纯模拟电信号在模拟领域进行的神经元的行为模拟,所以它不像传统的需先将光信号转换成模拟电信号,然后再通过模数转换到数字与进行传统的数字神经网络处理。撇开其前端的光处理及光电转换(可把此看作人的眼睛),后面这种在纯模拟域的神经网络才更接近人脑的处理方式,它当然可以适用于建构大规模的神经网络芯片,并且它的功耗会极低速度也会快(因没有像数字多位且复杂的加减乘除及存取等)。 [2评]
d
djtg
27 楼
最关键的是“光电二极管转换成了纯模拟电信号在模拟领域进行的神经元的行为模拟”, 你如果知道机器学习,你这段就是最基本的FFNN的描述,一般都是用数字方式来表达和计算(论文的图1也有说明)。而FFNN只是现在人工智能里面最最基础的一个结构,虽然重要,但是他只是大型模型的很小一个部分。 就拿里面的例子说吧,里面用来处理的是MNIST 数据集,有几万张黑白数字图。你如果需要处理更复杂的彩色图集,就必须要重新设计制造那个electronic analog computing (EAC)来增加里面的光电二极管阵列数。而数字的模型只是几行代码,更改模型参数就可以解决了。更不要说除了基本的FFNN,还有更多需要考虑的计算和结构问题需要解决。
d
djtg
28 楼
而且你要知道,现在本身就是数字社会,大部分的训练数据本身就是数字的,并不需要从模拟转化成数字。那些光电二极管矩阵本质就是用更物理的方式再现数字的神经网络,在数学本质上其实是基本相同的,在某些特定的领域会有更高的效率。现在没有人了解大脑的具体的运行机制,不知道所谓模拟是大脑神经元的实现方式这个说法从哪来的。
H
HHer
29 楼
我缺这个嘛?!我缺的是机器佣人,都2024了,家用机器人还是一堆弱智。
M
Mnwang
30 楼
弯弯这么下贱?
p
potatohead
31 楼
什么叫中国“跟上”?? 在这次AI革命中,中国是引领者之一! 是美国和世界需要跟上中国的脚步。
p
potatohead
32 楼
老黄急了呗。 就跟中美之间的造舰竞赛一样, 美国最新型的驱逐舰还在PPT阶段, 就已经大大落后于中国已经下水入列的驱逐舰了。 - 现在问题就是如果老黄继续以之前的节奏开发芯片, 等他的最新型号正式拿出来, 就已经落后华为的芯片了。 所以, 他不得不把尚在设计阶段的东西拿出来应急。 - 这就等于告诉世界,华为已经超越了。 而且速度比nVidia快,老美根本赶不上。