别吹啦!9.11和9.9哪个大?AI大模型几乎全翻车了

今日头条
Toutiao
最新回复:2024年7月16日 19点37分 PT
  返回列表
78491 阅读
26 评论
量子位

没眼看……“9.11 和 9.9 哪个大”这样简单的问题,居然把主流大模型都难倒了??

强如 GPT-4o,都坚定地认为 9.11 更大。

谷歌 Gemini Advanced 付费版,同样的口径。

新王 Claude 3.5 Sonnet,还一本正经的给出离谱的计算方法。

9.11 = 9 + 1/10 + 1/100

9.9 = 9 + 9/10

到这一步还是对的,但下一步突然就不讲道理了

如上所示,9.11 比 9.90 大 0.01。

你想让我进一步详细解释小数的比较吗?

这你还解释啥啊解释,简直要怀疑是全世界 AI 联合起来欺骗人类了。

艾伦 AI 研究所成员林禹臣换了个数字测试,GPT-4o 依旧翻车,他表示:

一方面 AI 越来越擅长做数学奥赛题,但另一方面常识依旧很难。

也有网友发现了华点,如果是说软件版本号,那么 9.11 版本确实比 9.9 版本更大(更新)。

而 AI 都是软件工程师开发的,所以……

那么,究竟是怎么回事?

先进大模型集体翻车

一觉醒来,一众响当当的大模型开始认为“9.11>9.9”了?

发现这个问题的是 Riley Goodside,有史以来第一个全职提示词工程师。

简单介绍下,他目前是硅谷独角兽 Scale AI 的高级提示工程师,也是大模型提示应用方面的专家。

最近他在使用 GPT-4o 时偶然发现,当提问:

9.11 and 9.9——which is bigger?

GPT-4o 竟毫不犹豫回答前者更大。

面对这一常识性“错误”,他不死心地又去问了其他大模型,结果几乎全军覆没。

好家伙,身为一名提示工程师,他敏锐意识到可能是“打开方式有误”。

于是他又换了个问法,将提问限定在“实数”,结果还是翻车了。

不过,有网友试着给提问换了个顺序,没想到这下 AI 竟反应过来了。

看到 AI 对词序如此“敏感”,该网友进一步推测:

先问哪个更大,AI 会沿着明确路径开始比较数字。

但如果只是随便说说数字,没有明确目的,AI 可能会开始“胡思乱想”。

看到这里,其他网友也纷纷拿相同提示试了一把,结果翻车的不在少数。

面对这一个诡异的问题,国产大模型表现如何呢?

我们简单测试一番,问题也换成中文提问,结果翻车率也比较高,选取几个有代表性的展示:

Kimi 也是不加解释就直接给出错误结论。

智谱清言 App 上的 ChatGLM,自动触发了联网查询,然后描述了自己的比较方法,可惜却执行错了。

不过也有表现不错的,腾讯元宝先复述了一遍选项,然后直接做对。

字节豆包是少数能把比较方法描述清楚,而且用对的。甚至还联系实际举例来验证。

比较可惜的是文心一言,面对这个问题,也是触发了联网查询。

本来都已经做对了,但突然话锋一转又导向了错误结论。

不过从文心一言的思路解释上,也可以看出背后问题所在。

由于大模型以 token 的方式来理解文字,当 9.11 被拆成“9”、“小数点”和“11”三部分时,11 确实比 9 大。

由于 OpenAI 使用的 Tokenizer 开源,可以用来观察大模型是如何理解这个问题。

上图可以看出,9 和小数点分别被分配为“24”和“13”,小数点后的 9 同样也是“24”,而 11 被分配到“994”。

所以使用这种 tokenizer 方法的大模型会认为 9.11 更大,其实是认为 11 大于 9。

也有网友指出,像是书籍目录里第 9.11 节也比第 9.9 节大,所以最终可能还是训练数据里见这种见得多了,而手把手教基础算数的数据很少。

也就是问题本身对人类来说,一看就知道问的是算数问题,但对 AI 来说是一个模糊的问题,并不清楚这两个数字代表什么。

只要向 AI 解释明白这是一个双精度浮点数,就可以做对了。

在有额外条件的情况下,tokenizer 这一步依然会给 11 分配更大的 token。但是在后续自注意力机制的作用下,AI 就会明白要把 9.11 连起来处理了。

后来 Goodside 也补充,并不是说大模型无论如何都认定了这个错误结论。而是当以特定方式提问时,许多领先模型都会告诉你 9.11>9.9,这很奇怪。

经过反复尝试后他发现,想让 AI 上这个当,需要把选项放在提问前面,如果调换顺序就不会出错。

但是只要选项在问题前面,改变提问的方式,如加标点、换词汇都不会有影响。

虽然问题很简单,错误很基础。

但了解出错原理之后,许多人都把这个问题当成了检验提示词技巧的试金石,也就是:用什么提问方法能引导大模型的注意力机制正确理解问题呢?

首先,大名鼎鼎的 Zero-shot CoT 思维链,也就是“一步一步地想”,是可以做对的。

不过角色扮演提示,在这里作用就有限了。

刚好最近也有微软和 OpenAI 都参与的一项研究,分析了 1500 多份论文后发现,随着大模型技术的进步,角色扮演提示不像一开始那样有用了……

具体来说,同一个问题提示“你是一个天才……”比“你是一个傻瓜……”的正确率还低。

也是让人哭笑不得了。

One More Thing

与此同时,路透社的 OpenAI 秘密模型「草莓」泄漏消息更新了。

更新内容为:另一位线人报告,OpenAI 已经在内部测试了新模型,在 MATH 数据集上得分超过 90%。路透社无法确定这是否与“草莓”是同一个项目。

MATH 数据集包含竞赛级别的数学题,目前不用多次采样等额外方法,最高分是谷歌 Gemini 1.5 Pro 数学强化版的 80.6%。

但是 OpenAI 新模型在没有额外提示情况下,能不能自主解决“9.11 和 9.9 哪个大?”。

突然没信心了,还是等能试玩了再看结果吧……

吕德水
1 楼
第一张截图里,问题的方式有问题
X
XXyourOO
2 楼
擦,9.11 > 9.9 这么明显的bug!这就是AI版的“通商宽衣”呀!😂
d
drawde
3 楼
9.11像徵中東絕望中的反抗精神,9.9像徵資本家割韮菜方式。你說誰大?人會認為是資本家,中立的AI不會。
c
cxy1223
4 楼
我觉得文章说的有缺陷,在答案后的解释里,ai已经明确分析出对比的双方都是数字,却无法识别这个符号的实际数值。后面说道提示ai符号内容是double,ai就能识别其正确数值了。不提示ai就认为这是一种现实中不存在奇怪编码的数字。这说明在符号分析的过程中可能存在固定代码。
.
.小花猫520
5 楼
问题换成其他数字比较,比如8.11和8.9时,就不会出现这种错误。 顺便说一句,2L是个傻逼。
n
netcamel
6 楼
用Perplexity试了一下,回答正确啊。 9.11 and 9.9——which is bigger? Answer To determine which number is bigger between 9.11 and 9.9, let's compare them: 9.11 = 9 + 0.11 9.9 = 9 + 0.9 The whole number part (9) is the same for both, so we need to compare the decimal parts: 0.11 < 0.9 Therefore: 9.11 < 9.9 9.9 is the bigger number. To visualize this on a number line, 9.9 would be closer to 10, while 9.11 would be just slightly above 9.1.
邻居王叔叔
7 楼
别的不知道,chatgpt的数学一直不好。经常简单的加减乘除都会算错。毕竟是语言模型,没加进去计算器。
c
ccdb99
8 楼
当然是9:11大!炸毁美国标志性摩天搂,炸死6000多人。应该够大
搞啥都好
9 楼
牛逼啊,试了下,确实问题很大,让他计算一下0.11和9.9,竟然给出这种答案,真没想到,难怪今天英伟达大跌。 9.11 - 9.9 = 0.21 0.21 + 9.9 = 10.11
大柠檬
10 楼
所以tm现在有缺陷的人训练出来的AI果真同样的问题,高智商低常识,像不像疯子科学家?
s
sixporka
11 楼
OpenAI经常不能正确地回答问题,或者解决问题。有时候指出它明显的错误,前后矛盾的地方,它只会一个劲地道歉,然后把错误内容再复述一遍,看不到一点智能。
g
gdby
12 楼
真的唉!看来让它代替总统还是差点。
w
wang68p2003
13 楼
做程序的人第一眼肯定说9.11比9.9大。习惯思维。AI现阶段还不能用于登月计算。
z
zxdongfs
14 楼
33C和34D哪个大?
g
guichaoniao
15 楼
再次证明不懂逻辑只考死记硬背也可以一本正经说瞎话甚至不少难题也能蒙对。但不懂逻辑总归下盘不稳,它再厉害你也不知道它在啥时候会突然彻底弱智。不能委以重任。
s
superlsy
16 楼
这说明什么?说明AI训练还不够,需要更多更快地芯片,英伟达继续牛逼!
b
bodhidharma
17 楼
GPT以为是版本号LOL
a
alien
18 楼
语言和数学最难的是一词多用,ambiguity. The dot . 是可以表达为文书中的dot. 所以9.11 在表达为文章 section number, 的确是9.11 大于9.9。 但dot 表达为小数点 point 的时候,意义就不一样。 大模型在 language parser and token extraction 的时候是没有用neuro network. 是rule based 的, 所以谁能用LLM 搞个 language parser 就能解决这问题
m
mike3
19 楼
必须问:9.11 和 9.90 哪一个大? 答案是9.90 大
s
sonicjoy2002
20 楼
研究证明,人脑的逻辑系统和语言系统是两个不同的大脑区域,人类没有语言的时候也能进行逻辑思考如孩童,有的人能流利交流却完全失去逻辑思考能力。动物不会语言也有行动逻辑。所以我认为大语言模型就是先天逻辑缺陷,再多的训练数据它也不会有真逻辑推理能力,更加没有的自我意识。
史前巨混
21 楼
英文数字问大小用bigger吗?
b
boey
22 楼
假消息….真会编….人傻还真试了.人不尴尬,尴尬的就是别人。有chat都可以去了解一下 [1评]
b
boey
23 楼
If there was a report or instance where ChatGPT provided an incorrect comparison, such as stating that 9.11 is bigger than 9.9, it would likely be due to a misinterpretation or an error in processing the input. Properly, 9.11 should be compared to 9.9 as follows: - 9.11 is smaller than 9.9 because when comparing decimal numbers, you look at each digit from left to right. Here, 9.1 (from 9.11) is clearly less than 9.9. Errors like this can occur in complex AI systems, and it's important for developers to continually refine the algorithms and data interpretations to minimize such mistakes. Continuous feedback and updates help improve the accuracy and reliability of AI responses.
i
iconhacker
24 楼
傻逼不会问问题。claude.ai 很简单给出正确答案
a
abe868
25 楼
[2楼]评论人:XXyourOO 噗,黄皮犬粮真是抓住一个口误能吃好几年的福利屎 🤣
p
ptdongguan
26 楼
也不是了,小版本号9.09在哪? 0.01 初始开发版是经常用的.