9.9和9.11哪个大？马斯克的Grok-3也翻车了 - 2025年2月19日 / 头条新闻

15 天前

9.11和9.9哪个大？

这是一个曾让不少大模型“翻车”的数学题。北京时间2月19日，在马斯克发布自称“ 世界上最聪明的人工智能”Grok-3后，有用户尝试测试版本，发现该模型在不加任何定语及标注的情况下，无法正确回答刁难AI大模型的经典问题。

第一财经向Grok-3提问后，AI回答称“9.11比9.9大”，直接“翻车”。不过，也有获得测试资格的用户表示，Grok-3的性能很好，肯定处于行业第一梯队。

昨日，xAI的Grok-3正式发布，马斯克称之为“世界上最聪明的人工智能。”Grok-3诞生于超大型AI智算中心之上，该AI智算中心起初配有10万块英伟达高端显卡，后续扩容至20万块。此前DeepSeek-V3模型官方宣布仅用2000余块英伟达显卡，以及600万美元预算。

同一天，DeepSeek官方在海外社交平台X上发布了一篇纯技术论文报告，主要内容关于NSA （Natively Sparse Attention，原生稀疏注意力），进一步展示了DeepSeek团队在软硬件优化，降本增效方面的追求。

xAI团队在直播中表示：“为了研发下一代更高性能的AI，我们正在研究下一个AI智算中心，这将比目前的强大约5倍。”不仅仅是xAI，近期谷歌、微软、Meta、亚马逊四家国外大厂极大提高了2025年资本开支，总计达到数千亿美元，并称大部分资本开支将用于AI智算中心建设。另外，今年初公布的星际之门计划投资5000亿美元用于AI智算中心建设。

达观数据联合创始人张健对记者说：“Grok-3依然遵循大力出奇迹的缩放定律，通过堆叠大量算力和增大模型规模，追求极致性能提升。这种方式短期内可能在特定评测指标上取得领先，但性价比相对较低，更像是在探索模型性能的上限。”

但也有从业者表示“大力出奇迹”的思路还有较长的路要走，并认为成立时间不久的xAI，能够在短时间内实现一流的性能水平，说明卷算力，卷投资仍有价值。

韦豪创芯合伙人王智此前向记者表示，AI向未来演进，更多新架构和算法，长期而言，足够算力的支持必不可少。

不过越来越多人开始质疑这种“大力出奇迹”的方向。有评论称单看基准测试，虽然Grok-3各项数据领先，但是提升幅度并不大，尤其考虑到xAI已经花费巨额资金用来训练Grok-3。

“马斯克的AI智算集群方案非常激进，不仅要求大规模的资金投入，而且要求快速部署快速上马。”Omdia分析师王珅告诉记者。

张健认为，不管是DeepSeek还是Grok3，两种方向并非完全对立，而是各有侧重，可能长期并存，并在技术发展中逐渐融合。“Grok 3 代表着对性能极限的探索，Deepseek 则代表着对实用性和效率的追求。两者共同推动AI技术进步，最终目标都是构建更强大、更智能、更实用的AI系统。”张健表示。

王珅认为，这两种方向的侧重可能有着先后顺序。“我们团队判断，在2026年至2027年间，AI智算中心的堆算力高峰会过去，然后是各种硬件和模型的深度优化打磨。中国由于硬件限制，会更早强调优化。”

上海市人工智能行业协会秘书长钟俊浩告诉记者：“两种方向都重要，但有着优先级的差异，对性能极限探索是基础，而追求实用性和效率的方向要站在前者基础之上。”

硅

硅谷工匠

15 天

1 楼

无他，刷题而已。如果一个“引擎”刷了所有历届高考题，它确实可以高考得高分。刷所有医学院，法学院，神学院，科学院研究生入学考试，但是做不出任何一道“题库”以外的。

TXZS

15 天

2 楼

ChatGPT: 9.11 比 9.9 大。因为 9.11 和 9.9 都是小数，可以从左到右逐位比较：整数部分：9 和 9 相同。小数部分：比较 11 和 9，小数 11 > 9，因此 9.11 > 9.9。

wd01702

14 天

3 楼

九月11日比九月九大。九分11秒比九分9秒大。不预设前提而问其实很无聊。不过我同意AGI应该问清楚了才回答。

东

东方明月-

14 天

4 楼

这个弄错了是小事。不靠谱的AI查账，到处诬陷别人贪污腐败，自己把政府搞垮。这才是祸国殃民。

noexit

14 天

5 楼

说9.11比9.9大的，数学都还给老师了吗？还直接拿9 和 11比？应该是0.90和0.11比吧？

achicod

14 天

6 楼

有没有查过？Grok 2回答正确。

shakuras2000

14 天

7 楼

这一代的人工智能叫做大语言模型，就是生成语言的，也就是文科生。本质上解决问题并不是思考，而是更加复杂的模式识别而已。大家不要期望太高，但是也不用贬低。大语言模型没有必要解决所有的问题。它只要解决最终要的人和机器交互的问题就可以了，复杂的数学问题完全可以后台调用其他的数学AI来解决。

寒

寒雪拭峰

14 天

8 楼

ChatGPT最初结论和分析后结论居然相反！ 9.11 is bigger than 9.9. If you compare the numbers digit by digit: 9.9 is the same as 9.90, 9.11 is 9.11. Since 0.90 < 0.11 is false (because 0.90 is actually 0.9, which is greater than 0.11), we see that 9.9 > 9.11. So, 9.9 is bigger than 9.11.

寒

寒雪拭峰

14 天

9 楼

Deepseek是对的 To determine which number is larger between 9.9 and 9.11, let's compare them step by step. Align the Decimal Places: 9.9 can be written as 9.90 to have the same number of decimal places as 9.11. 9.90 9.11 9.90 9.11 Compare Digit by Digit: Units Place: Both numbers have 9 in the units place. Tenths Place: 9.90 has 9 in the tenths place. 9.11 has 1 in the tenths place. Since 9 (from 9.90) is greater than 1 (from 9.11) in the tenths place, 9.90 is larger than 9.11. Conclusion: 9.9 is larger than 9.11

硅

硅谷工匠

14 天

10 楼

"According to all models, 9.11 larger than 9.9"

West-Penguin

14 天

11 楼

在ChatGPT用中文问“9.9和9.11哪个大？”，回答是错的。但用英文问（新开一个session) "which is larger, 9.11 or 9.9?", 回答是对的： ”9.9 is larger than 9.11. The number 9.11 is equivalent to 9.110, which is less than 9.900.“