数学论证GPT-4不是随机鹦鹉:真如此整个宇宙将坍缩

今日头条
Toutiao
最新回复:2023年5月28日 10点38分 PT
  返回列表
79848 阅读
16 评论
量子位

对于 ChatGPT 的工作原理,一个常见的解释是根据统计学规律预测下一个词。

但最近一位叫 Jacob Bayless 的工程师用数学方法得出惊人结论:

若是如此,所需的信息量足以让整个宇宙都坍塌成黑洞

这一数据量是500008000,根据贝肯斯坦上限( Bekenstein bound ) 原理,如果把这些信息分配到空间当中,所需要的信息密度已经远超宇宙能承受的最大值。

而这仅仅是把数据存储起来的消耗,更不必说还要进行运算了。

而 ChatGPT 与单纯统计预测的区别,可以做这样的类比:

如果天文学家通过历史观测记录推算出月食的周期,这可以算是统计学。

但当他们总结出牛顿万有引力定律的时候,就已经超越了统计学。

什么是 " 随机鹦鹉 "

一个流传很广的说法,所谓大语言模型实际上相当于一个 " 随机鹦鹉 " ——

与我们观察其输出时的情况相反,语言模型只是将其在庞大的训练数据中观察到的语素胡乱拼接在一起,根据概率生成文本,但不清楚文字背后的任何含义,就像一个随机的鹦鹉。

出自论文 On The Dangers of Stochastic Parrots: Can Language Models Be Too Big

这对过去的语言模型,或许确实成立。

比如曾经流行的 n-gram 算法。

比如当我们在搜索引擎中进行搜索时,出现的联想词就能用此方法实现。

具体来说,下面的三行文本中,第一行纯粹是随机生成,第二行考虑了单词在英语中整体的出现概率,第三行则考虑了单词在前一个词后面出现的概率。

n = 0: RECEIVE FALL SURPRISED FRIDAY INGREDIENT …

n = 1: REPRESENTING AND SPEEDILY IS AN GOOD …

n = 2: THE CHARACTER OF THIS POINT IS THEREFORE …

不难看出,随着 n 值的升高,文本越来越接近人类语言。

而 n-gram 模型根本不需要掌握其中的语义或理解其中的抽象概念,就能生成像模像样的句子。

据此有人猜想,GPT-4 会不会也只是一种高级的 n-gram 呢?

Bayless 提出,GPT 必须学会抽象才能有如今的效果,至少 GPT-4 肯定如此。

GPT-4 不只是 " 随机鹦鹉 "

要证明这一点,可以先看下棋机器人的例子。

如果有一种下棋机器人,存储了巨量棋谱数据,对于每个棋局都能推荐下一步。

那它就能通过 " 背谱法 " 模仿其他任何棋手或程序的下法。

比如 Stockfish 是最先进的国际象棋程序,如果仅通过对战而不看源码,是无法确定 Stockfish 是否在背谱。

但实际上,包含所有情形和步骤的棋谱数据量可能超到 2154。

而 Stockfish 的程序只占用了不到 50MB 的空间,根本不可能存下需要的所有棋谱。

所以 Stockfish 肯定是通过更高级的方法来实现下棋的。

人类语言的复杂度远超过棋类游戏,因此 GPT 的数据量更是同理。

仅在是上一代的 GPT-3 的 token 字典中就有超过 5 万 token。

如果对每个词都逐一建立统计信息,n-gram 模型中 n 值将高达 8000。

届时,需要存储的情景数量将达到 500008000。

正如文章开头所提到,这简直是天文数字,足以让整个宇宙坍缩。

因此,GPT 是 " 随机鹦鹉 " 的猜测在理论上得到了一定程度的批驳。

" 随机鹦鹉 " 达不到的高度

仅在理论上进行说明是不充分的,因此研究人员还进行了两个实验,意图证明大模型在学习过程中已经抽象出了算法。

第一个实验关于一道经典的农夫过河问题。

一个农夫有一条船,和狼、羊、菜,农夫要把这 3 样东西运到河到另一边,农夫每次最多只能通过这个船运一样东西,要防止狼吃羊、羊吃白菜(即不能在没有农夫在的情况下同时在同一岸边),该怎么过?

研究人员将这个问题中的农夫、船、河分别替换成地球人、虫洞和银河系。

狼、羊和菜则分别换成火星人、金星人和月球人。

替换的目的是因为互联网上不太可能出现类似语料,可以判断大语言模型是不是真的掌握了通用方法。

如果 GPT 不是 " 随机鹦鹉 ",那么它至少不会犯下只有 " 随机鹦鹉 " 才会犯的错误。

GPT-4 针对替换后的问题给出了正确的回答,GPT-3.5 则没有。

但它们并没有犯研究人员预想的 " 鹦鹉 " 错误——即在回答中出现狼、船、河等已被替换掉的词语。

回答中使用的句子,也无法在互联网中被检索到。

这些现象都证明了现在的大语言模型的生成方式已经超越了 " 概率预测 "。

第二个实验则是数字排序。

如果让 GPT 学习数字排序,它们究竟是只会记住给出过的数字顺序,还是真的研究出排序算法呢?

其实只要从 GPT 的输出当中就可以看出来了。

假如从 1-100 中随机选择 10 个数字,并将其顺序打乱,将一共有这么多种情形:

如果再考虑数字的重复出现,又或者数字的数量发生变化,根本不可能存储如此之多的情形。

因此,只要 GPT 能够针对未知的排序问题给出正确的回答,便可以说明它们是真的研究出了排序算法。

研究人员训练了一款特斯拉前 AI 总监 Andrej Kaparthy 发明的语言模型 nanoGPT,专门让它做数字排序。

结果显示,随着训练步数的增加,模型给出的数字顺序越来越完美。

虽然在训练步数达到 16 万左右时突然出现了大量错误,但也很快得到了纠正。

这说明这款模型并不是仅仅根据学习的素材对未知的数字进行排序,而是已经掌握了背后的方法。

这个测试只是在一台笔记本电脑、算力非常有限的 GPU 上进行的。

更不必说 GPT-4 了。

整个浪儿
1 楼
坍缩/? 大言不惭!人类在基础理论方面只是先前了一小步,有些需要补充,纠正。更多的是等待挖掘,发现。只是某一方面有些成绩就觉得自己如何如何了。 大家可以提出自己疑问,看看有多少方面需要更正,需要新理论支持。 如:石油真的只是有机物--沉积--? 氧气只是植物光合效果--? 为什么生命底层逻辑没有找到? 。 。 。
僵太公钓愚
2 楼
这是想套出GPT-4的真实算法,结果是没人搭理他。。。
P
ProgrammerA
3 楼
可不要偷梁换柱啊。那个工程师并没有证明,GPT-4已经 超出了统计模型,Kapathy 最近自己也说,所有的这些最基本的概念就是预测下一个词,无他。另外,本人几乎每天试用 ChatGPT,出错率还是蛮高的,仔细看一下解答,同样的东西,换了一个角度,感觉它并没有调整到对立面,还是拷贝的网上的主流作为答案,这不就是典型的鹦鹉学舌吗?而且 ChatGPT 和 Bard 出错一摸一样,有意思吧。本人感觉大语言模型本质还是压缩了的统计模型,保真度比较高而已,这跟2017年 attention 开始火起来的时候比,并没有革新性的进步。这不是 AGI,不要被错觉给迷惑了。
弯刀月
4 楼
这位是不是技术比较水的那种?
不允许的笔名
5 楼
ProgrammerA 发表评论于 2023-05-27 19:32:06 另外,本人几乎每天试用 ChatGPT ======== 花20块钱,用GTP4,和ChatGPT云泥之别。
F
FollowNature
6 楼
胡说八道
弟兄
7 楼
其实人也不过是一个语言模型,人云亦云,会说点车骨录话而已
P
ProgrammerA
8 楼
GPT-4, 比如你可以问一下,钻个1/8英寸的洞需要配多大的螺丝钉?它会说 #6 和 #8, 实际情况是,#8 凑合,#6 绝对太细了,正确应该是 #8 或者 #10。它给的解释竟然是 #6 号钉比洞要细,所以合适。 为啥这样呢,我猜网上占多数的内容是反过来问的:#10 的螺丝钉,我需要用多粗的钻头。
P
ProgrammerA
9 楼
GPT-4,有必要提醒一下大家,如果你自己具备一定的知识,work with it,它会是个很好的帮手,但是任何时候都不要轻易相信它,自己一定反复核对。其实它的风险就在于,它给出错误信息,你未必能知道是错误的。
v
voiceofme
10 楼
不知道在说什么
衡山老道
11 楼
GPT is just a smart plagiarist.
a
aluminiums
12 楼
按这个学渣的破数学推理,阿尔法狗下嘉
不允许的笔名
13 楼
ProgrammerA 发表评论于 2023-05-27 20:36:24 GPT-4, 比如你可以问一下,钻个1/8英寸的洞需要配多大的螺丝钉?它会说 #6 和 #8, 实际情况是,#8 凑合,#6 绝对太细了 ====== 洞配螺丝看你干什么用,不是什么情况都要卡进螺纹里。正确的用法是,问它什么情况下用#8,什么情况用#6
不允许的笔名
14 楼
再说你也没说是什么样的洞,有螺纹的?铁皮上的?胶合板上的?drywall上的?螺丝干什么用的?把别的东西固定到这个上面?把这个东西固定到别的上面?是挂东西?是自攻螺丝吗?是自锁螺丝吗?有washer吗?实际情况是,你说的越具体,答案越靠谱。
z
zzbb-bzbz
15 楼
ChatGPT的确是在胡说八道,验证也不会
v
voiceofme
16 楼
谁能理解这段话吗?为什么时8000,为什么是500008000,而不是50000*49999*49998*...? 而50008000就是天文数字?作者对天文数字是否有误解。 仅在是上一代的 GPT-3 的 token 字典中就有超过 5 万 token。 如果对每个词都逐一建立统计信息,n-gram 模型中 n 值将高达 8000。 届时,需要存储的情景数量将达到 500008000。 正如文章开头所提到,这简直是天文数字,足以让整个宇宙坍缩。