9.9和9.11哪个大?马斯克的Grok-3也翻车了

今日头条
Toutiao
最新回复:2025年2月19日 16点13分 PT
  返回列表
53866 阅读
23 评论
第一财经

9.11和9.9哪个大?

这是一个曾让不少大模型“翻车”的数学题。北京时间2月19日,在马斯克发布自称“ 世界上最聪明的人工智能”Grok-3后,有用户尝试测试版本,发现该模型在不加任何定语及标注的情况下,无法正确回答刁难AI大模型的经典问题。

第一财经向Grok-3提问后,AI回答称“9.11比9.9大”,直接“翻车”。不过,也有获得测试资格的用户表示,Grok-3的性能很好,肯定处于行业第一梯队。

昨日,xAI的Grok-3正式发布,马斯克称之为“世界上最聪明的人工智能。”Grok-3诞生于超大型AI智算中心之上,该AI智算中心起初配有10万块英伟达高端显卡,后续扩容至20万块。此前DeepSeek-V3模型官方宣布仅用2000余块英伟达显卡,以及600万美元预算。

同一天,DeepSeek官方在海外社交平台X上发布了一篇纯技术论文报告,主要内容关于NSA (Natively Sparse Attention,原生稀疏注意力),进一步展示了DeepSeek团队在软硬件优化,降本增效方面的追求。

xAI团队在直播中表示:“为了研发下一代更高性能的AI,我们正在研究下一个AI智算中心,这将比目前的强大约5倍。”不仅仅是xAI,近期谷歌、微软、Meta、亚马逊四家国外大厂极大提高了2025年资本开支,总计达到数千亿美元,并称大部分资本开支将用于AI智算中心建设。另外,今年初公布的星际之门计划投资5000亿美元用于AI智算中心建设。

达观数据联合创始人张健对记者说:“Grok-3依然遵循大力出奇迹的缩放定律,通过堆叠大量算力和增大模型规模,追求极致性能提升。这种方式短期内可能在特定评测指标上取得领先,但性价比相对较低,更像是在探索模型性能的上限。”

但也有从业者表示“大力出奇迹”的思路还有较长的路要走,并认为成立时间不久的xAI,能够在短时间内实现一流的性能水平,说明卷算力,卷投资仍有价值。

韦豪创芯合伙人王智此前向记者表示,AI向未来演进,更多新架构和算法,长期而言,足够算力的支持必不可少。

不过越来越多人开始质疑这种“大力出奇迹”的方向。有评论称单看基准测试,虽然Grok-3各项数据领先,但是提升幅度并不大,尤其考虑到xAI已经花费巨额资金用来训练Grok-3。

“马斯克的AI智算集群方案非常激进,不仅要求大规模的资金投入,而且要求快速部署快速上马。”Omdia分析师王珅告诉记者。

张健认为,不管是DeepSeek还是Grok3,两种方向并非完全对立,而是各有侧重,可能长期并存,并在技术发展中逐渐融合。“Grok 3 代表着对性能极限的探索,Deepseek 则代表着对实用性和效率的追求。两者共同推动AI技术进步,最终目标都是构建更强大、更智能、更实用的AI系统。”张健表示。

王珅认为,这两种方向的侧重可能有着先后顺序。“我们团队判断,在2026年至2027年间,AI智算中心的堆算力高峰会过去,然后是各种硬件和模型的深度优化打磨。中国由于硬件限制,会更早强调优化。”

上海市人工智能行业协会秘书长钟俊浩告诉记者:“两种方向都重要,但有着优先级的差异,对性能极限探索是基础,而追求实用性和效率的方向要站在前者基础之上。”

o
ouya2
1 楼
deepseek的答案:9.9 和9.11哪个大 9.9比9.11大。以下是具体分析: 1. **位数对齐**:将9.9写作9.90,使其与9.11的小数位数一致。 2. **逐位比较**: - **整数部分**:均为9,相等。 - **十分位**:9.90的十分位是9,9.11的十分位是1。由于9 > 1,此时已可判定9.90 > 9.11。 3. **分数验证**: - 9.9 = 99/10 = 990/100 - 9.11 = 911/100 - 990/100 > 911/100,故9.9更大。 4. **减法验证**:9.90 - 9.11 = 0.79 > 0,说明9.9更大。 **结论**:尽管9.11的小数位数更多,但9.9的十分位值更高,因此 **9.9 > 9.11**。
外星人被绑架
2 楼
Grok 的答案: Is 9.11 greater than 9.9? No, 9.11 is not greater than 9.9. When comparing these two numbers: - **9.11** has the digits 9, 1, and 1. - **9.9** has the digits 9 and 9. Comparing digit by digit from left to right: - The first digit of both numbers is 9, so they are equal up to this point. - The second digit in 9.11 is 1, and in 9.9 it's 9. Since 1 is less than 9, we can conclude the comparison here. Therefore, 9.11 < 9.9.
J
Jau
3 楼
J
Jau
4 楼
J
Jau
5 楼
J
Jau
6 楼
J
Jau
7 楼
J
Jau
8 楼
如果谁和测试结果不一样,那很正常,不是你造假,也不是我造谣. 说明一个问题:AI不可靠. 不同的语言就是不同的结果? 不停的措辞就是不同的结果? 不同时间,不同的地点,就是不同的结果. 这可比算错一个数的问题大多了. 这个两个数值比较一目了然,当我们遇到不是到结果的问题怎么办? 你以为他答对了,它实际上错了.你以为错了,实际上它对了. 我们已知的的科学定律,之所以被采纳,例如 1+1=2, Π=3.1415...,光速等 不同的语言,不停的措辞,不同时间,不同的地点,都是相同的结果. 这实际上是已经是个科学的哲学问题.
x
x00000000034
9 楼
应该说客观真确的答案不同的语言,不停的措辞,不同时间,不同的地点是一样的 应为人也不可靠de,同样的问题你问学霸和学渣结果能一样? 不同的语言,不停的措辞,不同时间,不同的地点, 也可能得到不同的答案 ai就是模拟人的思考过程,人有的毛病他都有,但是ai的扩展性好,可以用算里密布于人的差距 我以后真的要收费, 免费帮人提升认知,这是
m
maningreen
10 楼
一群SB,你问9.11和9.9那个数字大就不会错。9.11, 9.9可以理解为字符或者日期,没有明确的定义是啥比个屁 [2评]
这太不科学
11 楼
大聪明你说说9月11号和9月9号哪个大?🤭 [1评]
b
bc007
12 楼
我用DS比较, 是9.9大。 你的弱智版?
m
maningreen
13 楼
9月11号大,你觉得9号打过11号?
W
Wuyueshanren
14 楼
猪头🐷习和习🐷猪头那个更愚蠢
l
leonardojin
15 楼
你用过deepseek就知道他是会分析和思考你的问题的,会列举如果是数字谁大,如果是日期和其他表述结果如何。
媚眼瞟瞟
16 楼
比较数字不带单位就是耍流氓!
J
Jau
17 楼
你用的傻逼版,和你人一样。
j
jxxy1234
18 楼
去deepseek随便试一下就知道的事情,也能胡说八道?! 狗杂种已经到了狂犬病晚期了
j
jxxy1234
19 楼
deepthink使能下的推理过程输出。测了两组,这是第二组。 提示词“9.11 和 9.9 比较哪个大?” ******************* 嗯,用户问9.11和9.9哪个更大。这个问题看起来简单,但可能用户对小数比较不太熟悉,尤其是小数点后位数不同的情况。首先,我需要确认用户是否清楚如何比较不同小数位数的数字。 用户之前问了8.8和8.332的比较,我用了补齐小数位的方法,现在同样的问题结构,应该用同样的方法解答。不过这里的情况是9.11和9.9,也就是9.11和9.90。用户可能混淆了小数点的位数,比如可能误以为9.11是9点11,而9.9是9点9,所以需要明确小数位的意义。 首先,我应该把两个数的小数位补齐,这样更容易比较。9.11已经是两位小数,而9.9可以写成9.90,这样比较起来更方便。然后按位比较,先比较整数部分,都是9,所以接下来比较十分位,1和9,这时候9.9的十分位是9,比9.11的1大,所以这时候应该9.9更大。不过用户之前的问题中,8.8的十分位比8.332的大,所以答案相反,这里可能需要特别注意,避免混淆。 不过,用户可能在这里有疑问,因为9.11看起来有两位小数,而9.9只有一位,可能会误以为9.11更大。这时候需要强调小数位的意义,十分位的数字比百分位的权重更大,所以即使9.9后面没有数字,它的十分位已经决定了它更大。 另外,用减法验证的话,9.90减9.11等于0.79,结果为正,所以9.9更大。但用户之前的问题中,减法结果也是正的,所以应该保持一致性。不过用户可能没有意识到9.9等于9.90,所以需要明确这一点。 可能还需要检查是否有其他方法,比如将两个数都转换成分数,或者用其他比较方式,但最直接的方法还是补齐小数位,逐位比较。关键是要确保用户理解不同小数位的比较方法,避免因为位数多而误判数值大小。 最后,确保回答清晰,步骤明确,和之前的解答结构一致,用户更容易理解。同时,确认用户可能的误区,比如位数多就大的错误观念,需要明确指出十分位的重要性。
z
ziyee
20 楼
如果比日期,确实9.11大
z
ziyee
21 楼
其实,这个说法也不对,严格的说9.9和9.90是不同的,起码有效数字就不同。 正确的说法应该是逐位比较,从最高位开始。 [1评]
g
gxd
22 楼
单纯的数字9.9和9.90就是相等的,有效数字位数什么的是带入了测量精度的语境。 如果可以指定语境的话我还可以说日期、版本号等等。那这个问题就没有答案了。
J
Jau
23 楼
都别矫情这个问题, 这个问题不是狗粮,也不是五毛的问题, 是AI还差点。 如果说这是一个bug, 从GPT对公众开放那天起就存在,这都好几年了,为什么还没修复? 如果是一个靠谱的AI,你打开他,想比较9.90 和 9.11, 不同的语言,不同的描述(当然得正确和确指), 结果应该是一样的。 我用DS比较,有时给的是正确的答案, 有是错误的, GPT也一样。 客观上讲,我没有只说DS不靠谱,GPT也不行,五毛狗不要乱咬。 当AI对外部世界的认知,比起人类还差很远。