9.9和9.11哪个大?马斯克的Grok-3也翻车了 - 2025年2月19日 / 头条新闻

5 个月前

9.11和9.9哪个大？

这是一个曾让不少大模型“翻车”的数学题。北京时间2月19日，在马斯克发布自称“ 世界上最聪明的人工智能”Grok-3后，有用户尝试测试版本，发现该模型在不加任何定语及标注的情况下，无法正确回答刁难AI大模型的经典问题。

第一财经向Grok-3提问后，AI回答称“9.11比9.9大”，直接“翻车”。不过，也有获得测试资格的用户表示，Grok-3的性能很好，肯定处于行业第一梯队。

昨日，xAI的Grok-3正式发布，马斯克称之为“世界上最聪明的人工智能。”Grok-3诞生于超大型AI智算中心之上，该AI智算中心起初配有10万块英伟达高端显卡，后续扩容至20万块。此前DeepSeek-V3模型官方宣布仅用2000余块英伟达显卡，以及600万美元预算。

同一天，DeepSeek官方在海外社交平台X上发布了一篇纯技术论文报告，主要内容关于NSA （Natively Sparse Attention，原生稀疏注意力），进一步展示了DeepSeek团队在软硬件优化，降本增效方面的追求。

xAI团队在直播中表示：“为了研发下一代更高性能的AI，我们正在研究下一个AI智算中心，这将比目前的强大约5倍。”不仅仅是xAI，近期谷歌、微软、Meta、亚马逊四家国外大厂极大提高了2025年资本开支，总计达到数千亿美元，并称大部分资本开支将用于AI智算中心建设。另外，今年初公布的星际之门计划投资5000亿美元用于AI智算中心建设。

达观数据联合创始人张健对记者说：“Grok-3依然遵循大力出奇迹的缩放定律，通过堆叠大量算力和增大模型规模，追求极致性能提升。这种方式短期内可能在特定评测指标上取得领先，但性价比相对较低，更像是在探索模型性能的上限。”

但也有从业者表示“大力出奇迹”的思路还有较长的路要走，并认为成立时间不久的xAI，能够在短时间内实现一流的性能水平，说明卷算力，卷投资仍有价值。

韦豪创芯合伙人王智此前向记者表示，AI向未来演进，更多新架构和算法，长期而言，足够算力的支持必不可少。

不过越来越多人开始质疑这种“大力出奇迹”的方向。有评论称单看基准测试，虽然Grok-3各项数据领先，但是提升幅度并不大，尤其考虑到xAI已经花费巨额资金用来训练Grok-3。

“马斯克的AI智算集群方案非常激进，不仅要求大规模的资金投入，而且要求快速部署快速上马。”Omdia分析师王珅告诉记者。

张健认为，不管是DeepSeek还是Grok3，两种方向并非完全对立，而是各有侧重，可能长期并存，并在技术发展中逐渐融合。“Grok 3 代表着对性能极限的探索，Deepseek 则代表着对实用性和效率的追求。两者共同推动AI技术进步，最终目标都是构建更强大、更智能、更实用的AI系统。”张健表示。

王珅认为，这两种方向的侧重可能有着先后顺序。“我们团队判断，在2026年至2027年间，AI智算中心的堆算力高峰会过去，然后是各种硬件和模型的深度优化打磨。中国由于硬件限制，会更早强调优化。”

上海市人工智能行业协会秘书长钟俊浩告诉记者：“两种方向都重要，但有着优先级的差异，对性能极限探索是基础，而追求实用性和效率的方向要站在前者基础之上。”

ouya2

5 个月

1 楼

deepseek的答案：9.9 和9.11哪个大 9.9比9.11大。以下是具体分析： 1. **位数对齐**：将9.9写作9.90，使其与9.11的小数位数一致。 2. **逐位比较**： - **整数部分**：均为9，相等。 - **十分位**：9.90的十分位是9，9.11的十分位是1。由于9 > 1，此时已可判定9.90 > 9.11。 3. **分数验证**： - 9.9 = 99/10 = 990/100 - 9.11 = 911/100 - 990/100 > 911/100，故9.9更大。 4. **减法验证**：9.90 - 9.11 = 0.79 > 0，说明9.9更大。 **结论**：尽管9.11的小数位数更多，但9.9的十分位值更高，因此 **9.9 > 9.11**。

外

外星人被绑架

5 个月

2 楼

Grok 的答案： Is 9.11 greater than 9.9? No, 9.11 is not greater than 9.9. When comparing these two numbers: - **9.11** has the digits 9, 1, and 1. - **9.9** has the digits 9 and 9. Comparing digit by digit from left to right: - The first digit of both numbers is 9, so they are equal up to this point. - The second digit in 9.11 is 1, and in 9.9 it's 9. Since 1 is less than 9, we can conclude the comparison here. Therefore, 9.11 < 9.9.

Jau

5 个月

3 楼

Jau

5 个月

4 楼

Jau

5 个月

5 楼

Jau

5 个月

6 楼

Jau

5 个月

7 楼

Jau

5 个月

8 楼

如果谁和测试结果不一样,那很正常,不是你造假,也不是我造谣. 说明一个问题:AI不可靠. 不同的语言就是不同的结果? 不停的措辞就是不同的结果? 不同时间,不同的地点,就是不同的结果. 这可比算错一个数的问题大多了. 这个两个数值比较一目了然,当我们遇到不是到结果的问题怎么办? 你以为他答对了,它实际上错了.你以为错了,实际上它对了. 我们已知的的科学定律,之所以被采纳,例如 1+1=2, Π=3.1415...,光速等不同的语言,不停的措辞,不同时间,不同的地点,都是相同的结果. 这实际上是已经是个科学的哲学问题.

x00000000034

5 个月

9 楼

应该说客观真确的答案不同的语言,不停的措辞,不同时间,不同的地点是一样的应为人也不可靠de,同样的问题你问学霸和学渣结果能一样? 不同的语言,不停的措辞,不同时间,不同的地点, 也可能得到不同的答案 ai就是模拟人的思考过程,人有的毛病他都有,但是ai的扩展性好,可以用算里密布于人的差距我以后真的要收费, 免费帮人提升认知,这是

maningreen

5 个月

10 楼

一群SB，你问9.11和9.9那个数字大就不会错。9.11, 9.9可以理解为字符或者日期，没有明确的定义是啥比个屁 [2评]

这

这太不科学

5 个月

11 楼

大聪明你说说9月11号和9月9号哪个大？🤭 [1评]

bc007

5 个月

12 楼

我用DS比较，是9.9大。你的弱智版？

maningreen

5 个月

13 楼

9月11号大，你觉得9号打过11号？

Wuyueshanren

5 个月

14 楼

猪头🐷习和习🐷猪头那个更愚蠢

leonardojin

5 个月

15 楼

你用过deepseek就知道他是会分析和思考你的问题的，会列举如果是数字谁大，如果是日期和其他表述结果如何。

媚

媚眼瞟瞟

5 个月

16 楼

比较数字不带单位就是耍流氓!

Jau

5 个月

17 楼

你用的傻逼版，和你人一样。

jxxy1234

5 个月

18 楼

去deepseek随便试一下就知道的事情，也能胡说八道？！狗杂种已经到了狂犬病晚期了

jxxy1234

5 个月

19 楼

deepthink使能下的推理过程输出。测了两组，这是第二组。提示词“9.11 和 9.9 比较哪个大？” ******************* 嗯，用户问9.11和9.9哪个更大。这个问题看起来简单，但可能用户对小数比较不太熟悉，尤其是小数点后位数不同的情况。首先，我需要确认用户是否清楚如何比较不同小数位数的数字。用户之前问了8.8和8.332的比较，我用了补齐小数位的方法，现在同样的问题结构，应该用同样的方法解答。不过这里的情况是9.11和9.9，也就是9.11和9.90。用户可能混淆了小数点的位数，比如可能误以为9.11是9点11，而9.9是9点9，所以需要明确小数位的意义。首先，我应该把两个数的小数位补齐，这样更容易比较。9.11已经是两位小数，而9.9可以写成9.90，这样比较起来更方便。然后按位比较，先比较整数部分，都是9，所以接下来比较十分位，1和9，这时候9.9的十分位是9，比9.11的1大，所以这时候应该9.9更大。不过用户之前的问题中，8.8的十分位比8.332的大，所以答案相反，这里可能需要特别注意，避免混淆。不过，用户可能在这里有疑问，因为9.11看起来有两位小数，而9.9只有一位，可能会误以为9.11更大。这时候需要强调小数位的意义，十分位的数字比百分位的权重更大，所以即使9.9后面没有数字，它的十分位已经决定了它更大。另外，用减法验证的话，9.90减9.11等于0.79，结果为正，所以9.9更大。但用户之前的问题中，减法结果也是正的，所以应该保持一致性。不过用户可能没有意识到9.9等于9.90，所以需要明确这一点。可能还需要检查是否有其他方法，比如将两个数都转换成分数，或者用其他比较方式，但最直接的方法还是补齐小数位，逐位比较。关键是要确保用户理解不同小数位的比较方法，避免因为位数多而误判数值大小。最后，确保回答清晰，步骤明确，和之前的解答结构一致，用户更容易理解。同时，确认用户可能的误区，比如位数多就大的错误观念，需要明确指出十分位的重要性。

ziyee

5 个月

20 楼

如果比日期，确实9.11大

ziyee

5 个月

21 楼

其实，这个说法也不对，严格的说9.9和9.90是不同的，起码有效数字就不同。正确的说法应该是逐位比较，从最高位开始。 [1评]

gxd

5 个月

22 楼

单纯的数字9.9和9.90就是相等的，有效数字位数什么的是带入了测量精度的语境。如果可以指定语境的话我还可以说日期、版本号等等。那这个问题就没有答案了。

Jau

5 个月

23 楼

都别矫情这个问题，这个问题不是狗粮，也不是五毛的问题，是AI还差点。如果说这是一个bug，从GPT对公众开放那天起就存在，这都好几年了，为什么还没修复？如果是一个靠谱的AI，你打开他，想比较9.90 和 9.11，不同的语言，不同的描述（当然得正确和确指），结果应该是一样的。我用DS比较，有时给的是正确的答案，有是错误的， GPT也一样。客观上讲，我没有只说DS不靠谱，GPT也不行，五毛狗不要乱咬。当AI对外部世界的认知，比起人类还差很远。