ChatGPT 的数学推理太惊艳了

大约 17 小时

楼主 (北美华人网)

工作中遇到一个数学问题，自己在纸上算了半天才搞定。然后想试试ChatGPT. 没想到人家很快解出来了。最让我惊艳的是它似乎通过几个例子归纳总结出了一般性的结论。如果它没有刷这个题的话，那实在是太厉害了。Algebra 好的人看看：
https://chatgpt.com/share/6710869b-1d90-8013-b991-879821a42839

planettime

大约 17 小时

版上大妈怎么会烧脑看这个

mjia123

大约 17 小时

叫家里学algebra 的娃娃试试也行啊

AlIen_196883

大约 15 小时

这叫推理吗？还以为怎么回事呢，看到Next, we expand the product觉得果然，顶多也就这样了吧。我来讲讲什么叫一般规律，什么叫数学。
得到 f_1(x)=x，f_2(x)=x(x+1)/2，f_3(x)=x(x+1)(x+2)/6……之后，很容易猜想 f_n(x)=x(x+1)(x+2)...(x+n-1)/n! 怎么证明呢？显然用数学归纳法。假设f_k(x)=x(x+1)(x+2)...(x+k-1)/k!，那么是否有 \sum _{i=1}^x f_k(i) = f_{k+1}(x)？为了让问题直观，可以把f_k(x)改写为 f_k(x)= (x+k-1)! / ( (x-1)!k! ) = \binom{x+k-1}{k} 所以就是要证明 \sum_{i=1}^x \binom{i+k-1}{k} = \binom{x+k}{k+1}
直观一点显示，就是从二项分布三角形的第 k 行第 k 个数开始，加上下一行的第k个数，再加上下一行的……直到第 x+k-1 行为止，是否等于第 x+k 行的第 k+1 个数。以图片为例，

就是要证明从最右边的那一列 1 随便选一个，往左下累加，那不管到哪里停住，其和一定等于停住的地方的右下角的数。(比如此图上 1+3+6+10+15 = 35) 证明其实很简单，
(给想独立思考的人留出的空白分割线) ——————————————————————————

把第一个1等价到右下的1，看作这样

那么根据二项分布的特性，1+3变成下面的4，+6变成下面的10，以此类推，显然最后会落在末尾数字的右下角。得证。这才是数学的思路。

Blueocean23

大约 15 小时

mjia123 发表于 2024-10-17 00:09
工作中遇到一个数学问题，自己在纸上算了半天才搞定。然后想试试ChatGPT. 没想到人家很快解出来了。最让我惊艳的是它似乎通过几个例子归纳总结出了一般性的结论。如果它没有刷这个题的话，那实在是太厉害了。Algebra 好的人看看：
https://chatgpt.com/share/6710869b-1d90-8013-b991-879821a42839

我家娃也喜欢，自己做一次后看看ChatGpt怎么做，开阔思路。

xiaomaomiaomiao

大约 15 小时

我的体验是它的数学很不好，基本加减乘除都算错。发现后挺惊讶的。

apple-bee

大约 15 小时

我最近觉得o1-mini做点technical的问题还不错，比4o进步了很多
现在chatgat-4o挺不好用的，平时用它polish email/draft什么越来越敷衍了，output根本就没有怎么修改。现在写作有关的给claude做了

Behappy2023

大约 12 小时

版上大妈怎么会烧脑看这个
planettime 发表于 2024-10-17 00:17

太mean了，赤裸裸的性别加年龄歧视👎

jesciv

大约 12 小时

只有最近刚刚出的O1-preview版本还凑合，之前的版本都不行，错误太多。

greentea

大约 9 小时

AlIen_196883 发表于 2024-10-17 01:59
这叫推理吗？还以为怎么回事呢，看到Next, we expand the product觉得果然，顶多也就这样了吧。我来讲讲什么叫一般规律，什么叫数学。
得到 f_1(x)=x，f_2(x)=x(x+1)/2，f_3(x)=x(x+1)(x+2)/6……之后，很容易猜想 f_n(x)=x(x+1)(x+2)...(x+n-1)/n! 怎么证明呢？显然用数学归纳法。假设f_k(x)=x(x+1)(x+2)...(x+k-1)/k!，那么是否有 \sum _{i=1}^x f_k(i) = f_{k+1}(x)？为了让问题直观，可以把f_k(x)改写为 f_k(x)= (x+k-1)! / ( (x-1)!k! ) = \binom{x+k-1}{k} 所以就是要证明 \sum_{i=1}^x \binom{i+k-1}{k} = \binom{x+k}{k+1}
直观一点显示，就是从二项分布三角形的第 k 行第 k 个数开始，加上下一行的第k个数，再加上下一行的……直到第 x+k-1 行为止，是否等于第 x+k 行的第 k+1 个数。以图片为例，

就是要证明从最右边的那一列 1 随便选一个，往左下累加，那不管到哪里停住，其和一定等于停住的地方的右下角的数。(比如此图上 1+3+6+10+15 = 35) 证明其实很简单，
(给想独立思考的人留出的空白分割线) ——————————————————————————

把第一个1等价到右下的1，看作这样

那么根据二项分布的特性，1+3变成下面的4，+6变成下面的10，以此类推，显然最后会落在末尾数字的右下角。得证。这才是数学的思路。

Hockey stick identity!

luna17

大约 9 小时

虽然但是，有一次给他一个Mathcounts的counting题，做错了，也不能全信

Carabella

大约 8 小时

经常一本正经的胡说八道。比如一开始它错了，然后你给它一个答案，它能给你编出一套思考过程，然后你说刚才答案错了，正确答案应该是B，它又能给你编出一套思考过程。

Geofan

大约 8 小时

O1 preview惊艳，完爆竞争对手。不过这个行业盈利太太困难了，昨天国内好几个公司都准备停止自己训模型了。现在这个行业是纯粹烧钱大赛，创业公司基本全要死

shanggj

大约 8 小时

apple-bee 发表于 2024-10-17 02:40
我最近觉得o1-mini做点technical的问题还不错，比4o进步了很多
现在chatgat-4o挺不好用的，平时用它polish email/draft什么越来越敷衍了，output根本就没有怎么修改。现在写作有关的给claude做了

o1 明显好出了一个层次。尤其做数学题。
上次女儿上课一道题做不出来让我做。 sin(x)^3 * cos(3x) + cos(x)^3 *sin(x) = 3/8 求 x. 我懒得自己计划喝茶的算了，就直接输如 o1。
它先算了一遍，我看答案显然不对呀，细看一下，它把 sin(x)^3 搞成了 sin(x^3)，我告诉它错了。然后它说，哦，对不起。这样的话，化简不了，但我可以给你数值解，然后给了一堆小数点。我说，不行，这是作业题，不但要解析解，还得给足步骤。它说好吧我试试，然后就解出来了。步骤真详细我直接 copy 然后发给我女儿。
前后就一两分钟，比我自己算舒服多了。

shanggj

大约 8 小时

luna17 发表于 2024-10-17 08:45
虽然但是，有一次给他一个Mathcounts的counting题，做错了，也不能全信

o1 现在相当厉害。我前一段试了几个 AMC 10、12 最后的难题，都一次做对。后来又网上找了几个普特曼的竞赛题，也都对了。
上个周末，女儿去个学校的 chess club，看见里面一堆人在试 o1, 大家输入自己的数学作业题（大一），全对。 club 里有一数学系的研究生，大家就让他搞几道难题来试试，研究生想了几道都做出来了。大家惊叹之余，忽然都不说话了然后就闷头开始配对下棋了。
o1 现在如果你懂你问的问题，能够和它有互动的话，帮助是相当之大。如果自己完全一堆浆糊，指望输入问题就有答案，那是活该被忽悠。它忽悠起人来，也一点不比人差

夏

夏雨

大约 8 小时

数学题不知道，我有次问一个工程问题，咋一看老厉害了，专业，一步步的。仔细一看，一派胡言，啥玩意啊一本正经的胡说八道

cheezit1999

大约 8 小时

回复 16楼夏雨的帖子
对，就是一本正经的胡说八道。如果专业问题让这些AI 来做，真的很可怕。
前两天我们同事还聊着说，那些嚷嚷着AI能代替真正的scientists 和 engineers的人，得多蠢，他们大概也看不懂AI胡扯了啥。

woyaoshou

大约 7 小时

别尬吹。CHATGPT很蠢的。试了几道简单的初中数学竞赛题，给的答案完全不沾边。
之前吹什么能做IMO，我是完全不信。你把答案输入进去训练了很多次，再做出来，有个屁意义？

yayapig

大约 7 小时

shanggj 发表于 2024-10-17 09:36
o1 现在相当厉害。我前一段试了几个 AMC 10、12 最后的难题，都一次做对。后来又网上找了几个普特曼的竞赛题，也都对了。
上个周末，女儿去个学校的 chess club，看见里面一堆人在试 o1, 大家输入自己的数学作业题（大一），全对。 club 里有一数学系的研究生，大家就让他搞几道难题来试试，研究生想了几道都做出来了。大家惊叹之余，忽然都不说话了然后就闷头开始配对下棋了。
o1 现在如果你懂你问的问题，能够和它有互动的话，帮助是相当之大。如果自己完全一堆浆糊，指望输入问题就有答案，那是活该被忽悠。它忽悠起人来，也一点不比人差

因为他们拿AMC的题练过了。我学生最近拿一个竞赛题库系统测试了，按内容难度，和认知难度测试的，最新的model 能做level 5很复杂的题，但同时会在level 1的题上犯错误。整个测试显示的是他们没有在认知，推理上有大的进步，只是手熟。可以类比与刷题进大厂，当然能刷出来肯定比一般人强了。

yayapig

大约 7 小时

cheezit1999 发表于 2024-10-17 09:49
回复 16楼夏雨的帖子
对，就是一本正经的胡说八道。如果专业问题让这些AI 来做，真的很可怕。
前两天我们同事还聊着说，那些嚷嚷着AI能代替真正的scientists 和 engineers的人，得多蠢，他们大概也看不懂AI胡扯了啥。

有规范操作流程的问题，AI迟早都能搞定。但现有模型对认知能力训练不够，似乎还是在刷题的道路上狂奔。就象老师除了讲题，也要讲怎么思考，怎么假设，判断，还有些认知能力，比如几何是要靠生活经验的，这些肯定也是可以训练的，可目前搞AI的比较急功近利，只是刷题。我们有些测试，几个版本的模型都没有大的改进。将来，最重要的工作可能是各个行业的A I 监控员，要能一眼看出AI是不是又做傻事了。：-）

woyaoshou

大约 6 小时

yayapig 发表于 2024-10-17 10:24
有规范操作流程的问题，AI迟早都能搞定。但现有模型对认知能力训练不够，似乎还是在刷题的道路上狂奔。就象老师除了讲题，也要讲怎么思考，怎么假设，判断，还有些认知能力，比如几何是要靠生活经验的，这些肯定也是可以训练的，可目前搞AI的比较急功近利，只是刷题。我们有些测试，几个版本的模型都没有大的改进。将来，最重要的工作可能是各个行业的A I 监控员，要能一眼看出AI是不是又做傻事了。：-）

不觉得LLM能解决这类问题，但是它确实也有不少地方可以施展空间。

yeon

大约 6 小时

Chatgpt 的问题是不懂非要装懂。最近在学一个比较小众的软件。我问他问为什么会有出现这个error,。人家给我各种建议，结果没一个能用。其他用的人多的软件，Chatgpt 还挺有用的。我不要求他什么都会，但有没有人能教教他，不要乱给建议，浪费大家的时间呀。

细

细节图老

大约 6 小时

感觉AI以后可以取代大部分白领工作，担心失业会大量增长。

crazyeater

大约 6 小时

他就是個記憶力很好的文科生，會做所有有答案的題，靠背書的。我覺得讓他給我解答leetcode還挺好的

榴

榴莲烤奶好好运

大约 5 小时

cheezit1999 发表于 2024-10-17 09:49
回复 16楼夏雨的帖子
对，就是一本正经的胡说八道。如果专业问题让这些AI 来做，真的很可怕。
前两天我们同事还聊着说，那些嚷嚷着AI能代替真正的scientists 和 engineers的人，得多蠢，他们大概也看不懂AI胡扯了啥。

以后可以啊，现在才多长时间。

sugeeamimi15

大约 5 小时

用了它这段日子，随便给个标准化的答案还行，但无法给出很厉害很专家级的答案。要是一味依赖不加自己的加工和思考，就是给自己吃药。而且我看过它给我做的图表数据分析，它会看错数据的，这个一定要自己复查一遍

shanggj

大约 5 小时

sugeeamimi15 发表于 2024-10-17 12:26
用了它这段日子，随便给个标准化的答案还行，但无法给出很厉害很专家级的答案。要是一味依赖不加自己的加工和思考，就是给自己吃药。而且我看过它给我做的图表数据分析，它会看错数据的，这个一定要自己复查一遍

在可以遇见的未来，很多行业的平庸从业者们都必然面临和 AI 抢饭碗的境遇了。

yiwenyihe

大约 4 小时

xiaomaomiaomiao 发表于 2024-10-17 02:03
我的体验是它的数学很不好，基本加减乘除都算错。发现后挺惊讶的。

真的！ amc8的题目他做下来是错的

jianliu67

大约 3 小时

榴莲烤奶好好运发表于 2024-10-17 12:09
以后可以啊，现在才多长时间。

以后也没戏！路如果开始走错了，走多长时间都没用。

fluffyball

大约 3 小时

xiaomaomiaomiao 发表于 2024-10-17 02:03
我的体验是它的数学很不好，基本加减乘除都算错。发现后挺惊讶的。

是的挺差的我看了答案问过are you sure? 然后它又做了一遍，然后还是错的我是不会相信它做的答案的

啥

啥玩意

大约 3 小时

shanggj 发表于 2024-10-17 09:36
o1 现在相当厉害。我前一段试了几个 AMC 10、12 最后的难题，都一次做对。后来又网上找了几个普特曼的竞赛题，也都对了。
上个周末，女儿去个学校的 chess club，看见里面一堆人在试 o1, 大家输入自己的数学作业题（大一），全对。 club 里有一数学系的研究生，大家就让他搞几道难题来试试，研究生想了几道都做出来了。大家惊叹之余，忽然都不说话了然后就闷头开始配对下棋了。
o1 现在如果你懂你问的问题，能够和它有互动的话，帮助是相当之大。如果自己完全一堆浆糊，指望输入问题就有答案，那是活该被忽悠。它忽悠起人来，也一点不比人差

已知题目可能早被试过知道答案了。你得自己出题

wengyuan

大约 2 小时

xiaomaomiaomiao 发表于 2024-10-17 02:03
我的体验是它的数学很不好，基本加减乘除都算错。发现后挺惊讶的。

据说新版的chatgpt 的数理能力提高了很多。