史上最快大模型炸场!Groq一夜爆红,碾压英伟达GPU

今日头条
Toutiao
最新回复:2024年2月21日 3点35分 PT
  返回列表
80484 阅读
40 评论
华尔街见闻

一觉醒来,AI圈又变天了。

还没消化完Sora带来的震撼,又一家硅谷初创企业带着史上最快的大模型和自研芯片LPU霸占了热搜。

就在昨天,AI芯片创企Groq(不是马斯克的Gork)开放了自家产品的免费试用。相比其他AI聊天机器人,Groq闪电般的响应速度迅速引爆互联网讨论。经过网友测试,Groq每秒生成速度接近500 tok/s,碾压GPT-4的40 tok/s。

有网友震惊地说:

它回复的速度比我眨眼还快。

不过,需要强调的是,Groq并没有研发新模型,它只是一个模型启动器,主页上运行的是开源模型Mixtral 8x7B-32k和Llama 270B-4k。

冠绝大模型圈子的响应速度,来自驱动模型的硬件——Groq并未使用英伟达的GPU,而是自研了新型AI芯片——LPU(Language Processing Units)。

每秒500 tokens,写论文比你眨眼还快

LPU最突出的特点就是快。

根据2024年一月的测试结果,由Groq LPU驱动Meta Llama 2模型,推理性能遥遥领先,是顶级云计算供应商的18倍。

图片来源:GIT HUB

华尔街见闻此前文章提及,Groq LPU搭配Meta Llama 2 70B能在7分钟内就能生成与莎士比亚《哈姆雷特》相同数量的单词,比普通人的打字速度快75倍。

如下图所示,有推特网友问了一个和营销有关的专业问题,Groq在四秒钟之内就输出了上千词的长篇大论。

还有网友测试同时用Gemini、GPT-4和Groq完成一个代码调试问题。

结果,Groq的输出速度比Gemini快10倍,比GPT-4快18倍。

Groq在速度上对其他AI模型的降维打击,让网友直呼,“AI推理界的美国队长来了”。

LPU,英伟达GPU的挑战者?

再强调一遍,Groq没有开发新的模型,它只是用了不一样的芯片。

根据Groq官网的介绍,LPU是一种专为AI推理所设计的芯片。驱动包括GPT等主流大模型的GPU,是一种为图形渲染而设计的并行处理器,有数百个内核,而LPU架构则与GPU使用的SIMD(单指令,多数据)不同,这种设计可以让芯片更有效地利用每个时钟周期,确保一致的延迟和吞吐量,也降低了复杂调度硬件的需求:

Groq的LPU推理引擎不是普通的处理单元;它是一个端到端系统,专为需要大量计算和连续处理的应用(如LLM)提供最快的推理而设计。通过消除外部内存瓶颈,LPU推理引擎的性能比传统GPU高出几个数量级。

简单来说,对用户而言,最直观的体验就是“快”。

使用过GPT的读者一定知道,痛苦地等待大模型一个一个地吐出字符是一种怎样痛苦的体验,而LPU驱动下的大模型,基本可以做到实时响应。

比如下图,华尔街见闻向Groq询问LPU和GPU的区别,Groq生成这个回答用时不到3秒,完全不会像GPT、Gemini那样出现显著的延迟。如果以英文提问,生成速度还会更快。

Groq官方的介绍还显示,创新的芯片架构可以把多个张量流处理器(Tensor Streaming Processor,简称TSP)连接在一起,而不会出现GPU集群中的传统瓶颈,因此具有极高的可扩展性,简化了大规模AI模型的硬件要求。

能效也是LPU的另一个亮点。通过减少管理多个线程的开销和避免内核的利用率不足,LPU每瓦特可以提供更多的算力。

Groq创始人兼首席执行官Jonathan Ross在采访中,时时不忘给英伟达上眼药。

他此前对媒体表示,在大模型推理场景,Groq LPU芯片的速度比英伟达GPU快10倍,但价格和耗电量都仅为后者的十分之一。

实时推理是通过经过训练的AI模型运行数据的计算过程,以提供AI应用的即时结果,从而实现流畅的最终用户体验。随着AI大模型的发展,实时推理的需求激增。

Ross认为,对于在产品中使用人工智能的公司来说,推理成本正在成为一个问题,因为随着使用这些产品的客户数量增加,运行模型的成本也在迅速增加。与英伟达GPU相比,Groq LPU集群将为大模型推理提供更高的吞吐量、更低的延迟和更低的成本。

他还强调,Groq的芯片,由于技术路径不同,在供应方面比英伟达更充足,不会被台积电或者SK海力士等供应商卡脖子:

GroqChip LPU的独特之处在于,它不依赖于三星或SK海力士的HBM,也不依赖于台积电将外部HBM焊接到芯片上的CoWoS封装技术。

不过,另有一些AI专家在社交媒体上表示,Groq芯片的实际成本并不低。

如人工智能专家贾扬清分析称,Groq综合成本相当于英伟达GPU的30多倍。

考虑到每张Groq芯片的内存容量为230MB,实际运行模型需要572张芯片,总成本高达1144万美元。

相比之下,8张H100的系统在性能上与Groq系统相当,但硬件成本仅为30万美元,年度电费约2.4万美元。三年总运营成本对比显示,Groq系统的运营成本远高于H100系统,

而且,更关键的是,LPU目前仅用于推理,要训练大模型,仍然需要购买英伟达GPU。

创始人为谷歌TPU设计者之一 相信未来2年能卖出100万个LPU

在今天互联网上一炮而红之前,Groq已经低调埋头研发7年多的时间。

公开资料显示,Groq成立于2016年,总部位于美国加州圣塔克拉拉山景城。公司创始人Jonathan Ross是前谷歌高级工程师,是谷歌自研AI芯片TPU的设计者之一。产品主管John Barrus曾在谷歌及亚马逊担任产品高管。

高管内唯一一位华裔面孔、副总裁Estelle Hong,在公司任职已有四年,此前曾供职于美国军队及英特尔。

就在去年8月,Groq也宣布了和三星的合作计划,表示其下一代芯片将在美国德克萨斯州三星芯片工厂采用4纳米工艺生产,预计量产时间为24年下半年。

展望下一代LPU,Ross相信GroqChip的能效将提高15到20倍,可以在相同的功率范围内为设备增加更多的矩阵计算和SRAM存储器。

在去年底的采访中,Ross表示,考虑到GPU的短缺和高昂的成本,他相信Groq未来的发展潜力:

在12个月内,我们可以部署10万个LPU,在24个月内,我们可以部署100万个LPU。

w
wilburwang
1 楼
真要关它们啥事也就罢了,问题是关它们屌事,昂撒当它们是狗,我们也当它们是狗,这尼玛难得的意见一致 [2评]
你说不说
2 楼
这些狗粮在现实中当狗遭歧视,自称“宁当美国狗,不当中国人”,就只能在网上找找优越感了
j
jujubi
3 楼
可以预想一下,由于AI迭代速度非常快,如果现在美中科技的差距是现代人和近代人的差别,5年后就是现代人和猿人的差别,10年后就是现代人和猴子的差别。 [1评]
j
jujubi
4 楼
可以预想一下,由于AI迭代速度非常快,如果现在美中科技的差距是现代人和近代人的差别,5年后就是现代人和猿人的差别,10年后就是现代人和狗的差别。 [1评]
意见没
5 楼
看文章这是一款专用于语言文字处理的芯片Language Processing Units,即根据大语言人工智能系统结构研制出的,当然会比用于主要是图像处理的GPU快。处理语言必须考虑比如说话时的短长期的文字记忆,也就是很多时候要根据之前说过的文字才能准确定义现在要说或写什么,这些考虑在GPU的设计中都不用考虑,所以只能依赖软件算法,比起直接在硬件中实现慢多了
b
buleguy
6 楼
你一只傻屌狗就别操心人的命了
你说不说
7 楼
傻逼狗玩意,你懂什么是AI吗? 先不说中美科技差别, 你网上搜索,多少著名科学家担心科技的进步可能导致人类文明的毁灭。 没文化,就不要装这个逼 [1评]
意见没
8 楼
不需将这想得太邪乎,此芯片也只是一款擅长语音文字处理的专用AI芯片,因为物理实现的限制,现在的人工智能比起人脑的能力还差远了
j
jujubi
9 楼
: 如果没有政府介入,将来美中科技差距会成指数形式拉开。人和狗的差距几年内就会实现。 [1评]
q
qwerty
10 楼
只有自由的市场竞争才是创新的根本动力。那种靠政府举国之力搞运动式企图弯道超车,逞的了一时,终是昙花一现
h
headfoot
11 楼
初创公司的特点就是华裔没有阿三,公司走下坡路的标志就是阿三增加华裔被挤走
后稷
12 楼
美国这几个AI,就像美国GDP玩金融一样,净来虚的。像智能矿山,智能制造,智能城市这些一样没有。社会难道靠你编几篇文章来生存? [4评]
系统又不忙了
13 楼
这速度天朝连PPT都来不及做
你说不说
14 楼
人和狗的差距现在就实现了,哪里需要几年? 留园多位狗粮早就直言“宁当美国狗” 这跟科技发展有毛的关系?
学术大湿
15 楼
ChatGPT不是全世界都在用吗,怎么就虚了。非要开工厂才叫“实的”,是吗?你难道不知道,越是发达的经济体,第三产业占比越高吗。遍地工厂的都是些穷国。
j
jujubi
16 楼
: 送你一句话,贫穷限制了你的想象! [1评]
j
jujubi
17 楼
送你一句话,贫穷限制了你的想象!
j
jeffinvade
18 楼
Alphafold预测蛋白质4级结构成功率都31%了,你知道X光衍射或者核磁共振要多少钱吗?以前一个博士论文能搞定一个蛋白质晶体结构就了不起了,还瞧不起AI呢 人家都在用AI筛选药物了,还说AI没用呢
你说不说
19 楼
行,你最“富有”了,富有得都不需要有文化 希望你的后代跟你一样“富有”,千万不要去读书
潜水7年多
20 楼
AI除了拍毛片和做个AI娘们还能干吗?能帮我做饭洗衣服吗?
j
jeffinvade
21 楼
Alphafold预测蛋白质4级结构成功率都31%了,你知道X光衍射或者核磁共振要多少钱吗?以前一个博士论文能搞定一个蛋白质晶体结构就了不起了,还瞧不起AI呢 人家都在用AI筛选药物了,还说AI没用呢 [1评]
l
lids
22 楼
全球互联网都是美国殖民地,必定遥遥领先,五毛都舔不到脚趾
二公子
23 楼
五毛们又不高兴了
随意岁月
24 楼
能在拜登死掉前,治好他的老年痴呆吗,牛逼谁不会吹 [1评]
s
summerheater
25 楼
这是想说明天英伟达财报会好 但照样会大跌吗?
j
jeffinvade
26 楼
: .......老年痴呆症全世界只有两种FDA approved的药,都是美国公司开发生产 继续掩耳盗铃吧
后稷
27 楼
AI 有多条路,大模型也是发展方向之一,但美国这两家好像只是哗众取宠。而且数据来源良莠不齐。很多都是骗子的信息。这就是进步,先进?是先进到你没法分辨骗子。
j
jujubi
28 楼
: 嗨,你真是缺乏想象力啊!贫穷并非只有指钱财。精神,知识也可能贫穷。呵呵。
m
min3scott
29 楼
美国设计最快的处理器,台积电生产体积最小的晶片,大陆呢?烂尾的楼市和晶片。
小肥圆嫌二
30 楼
说到点子上了,这就是一个专门针对语言开发的芯片。正如当年电脑没有GPU只有CPU的时候。后来才专门弄出个GPU对图像进行专门处理。现在这个原理是一样的,并不是什么新技术爆发了。
y
youmyyou2016
31 楼
- 反中傻逼除了网络喷粪一无是处 - 可以肯定你这傻逼什么都不懂,更不用说了解中国的情况了
德国丹
32 楼
看看这些炒作的模式,几年前的元宇宙,去年的常温超导……全他妈是一个套路。这玩意要是真的是历史性突破技术,欧美的GDP就应该至少涨10%。
无所谓惧
33 楼
这速度搞得墙国连弯道都找不着了,哈哈
桑拿
34 楼
墙国:有墙啥都不怕,再不行物理断网,看哪个屁民还敢 BB