ChatGPT 的数学推理太惊艳了

m
mjia123
楼主 (北美华人网)
工作中遇到一个数学问题,自己在纸上算了半天才搞定。然后想试试ChatGPT. 没想到人家很快解出来了。最让我惊艳的是它似乎通过几个例子归纳总结出了一般性的结论。如果它没有刷这个题的话,那实在是太厉害了。Algebra 好的人看看:
https://chatgpt.com/share/6710869b-1d90-8013-b991-879821a42839
p
planettime
版上大妈怎么会烧脑看这个
m
mjia123
叫家里学algebra 的娃娃试试也行啊
A
AlIen_196883
这叫推理吗?还以为怎么回事呢,看到Next, we expand the product觉得果然,顶多也就这样了吧。 我来讲讲什么叫一般规律,什么叫数学。
得到 f_1(x)=x,f_2(x)=x(x+1)/2,f_3(x)=x(x+1)(x+2)/6……之后,很容易猜想 f_n(x)=x(x+1)(x+2)...(x+n-1)/n! 怎么证明呢? 显然用数学归纳法。假设f_k(x)=x(x+1)(x+2)...(x+k-1)/k!,那么是否有 \sum _{i=1}^x f_k(i) = f_{k+1}(x)? 为了让问题直观,可以把f_k(x)改写为 f_k(x)= (x+k-1)! / ( (x-1)!k! ) = \binom{x+k-1}{k} 所以就是要证明 \sum_{i=1}^x \binom{i+k-1}{k} = \binom{x+k}{k+1}
直观一点显示,就是 从 二项分布三角形的第 k 行 第 k 个数开始,加上下一行的第k个数,再加上下一行的……直到第 x+k-1 行为止,是否等于第 x+k 行的第 k+1 个数。 以图片为例,

就是要证明 从最右边的那一列 1 随便选一个,往左下累加,那不管到哪里停住,其和一定等于停住的地方的右下角的数。(比如此图上 1+3+6+10+15 = 35) 证明其实很简单,
(给想独立思考的人留出的空白分割线) ——————————————————————————






把第一个1等价到右下的1,看作这样

那么根据二项分布的特性,1+3变成下面的4,+6变成下面的10,以此类推,显然最后会落在末尾数字的右下角。得证。 这才是数学的思路。
B
Blueocean23
mjia123 发表于 2024-10-17 00:09
工作中遇到一个数学问题,自己在纸上算了半天才搞定。然后想试试ChatGPT. 没想到人家很快解出来了。最让我惊艳的是它似乎通过几个例子归纳总结出了一般性的结论。如果它没有刷这个题的话,那实在是太厉害了。Algebra 好的人看看:
https://chatgpt.com/share/6710869b-1d90-8013-b991-879821a42839

我家娃也喜欢,自己做一次后看看ChatGpt怎么做,开阔思路。
x
xiaomaomiaomiao
我的体验是它的数学很不好,基本加减乘除都算错。发现后挺惊讶的。
a
apple-bee
我最近觉得o1-mini做点technical的问题还不错,比4o进步了很多
现在chatgat-4o挺不好用的,平时用它polish email/draft什么越来越敷衍了,output根本就没有怎么修改。现在写作有关的给claude做了
B
Behappy2023
版上大妈怎么会烧脑看这个
planettime 发表于 2024-10-17 00:17

太mean了,赤裸裸的性别加年龄歧视👎
j
jesciv
只有最近刚刚出的O1-preview版本还凑合,之前的版本都不行,错误太多。
g
greentea
AlIen_196883 发表于 2024-10-17 01:59
这叫推理吗?还以为怎么回事呢,看到Next, we expand the product觉得果然,顶多也就这样了吧。 我来讲讲什么叫一般规律,什么叫数学。
得到 f_1(x)=x,f_2(x)=x(x+1)/2,f_3(x)=x(x+1)(x+2)/6……之后,很容易猜想 f_n(x)=x(x+1)(x+2)...(x+n-1)/n! 怎么证明呢? 显然用数学归纳法。假设f_k(x)=x(x+1)(x+2)...(x+k-1)/k!,那么是否有 \sum _{i=1}^x f_k(i) = f_{k+1}(x)? 为了让问题直观,可以把f_k(x)改写为 f_k(x)= (x+k-1)! / ( (x-1)!k! ) = \binom{x+k-1}{k} 所以就是要证明 \sum_{i=1}^x \binom{i+k-1}{k} = \binom{x+k}{k+1}
直观一点显示,就是 从 二项分布三角形的第 k 行 第 k 个数开始,加上下一行的第k个数,再加上下一行的……直到第 x+k-1 行为止,是否等于第 x+k 行的第 k+1 个数。 以图片为例,

就是要证明 从最右边的那一列 1 随便选一个,往左下累加,那不管到哪里停住,其和一定等于停住的地方的右下角的数。(比如此图上 1+3+6+10+15 = 35) 证明其实很简单,
(给想独立思考的人留出的空白分割线) ——————————————————————————






把第一个1等价到右下的1,看作这样

那么根据二项分布的特性,1+3变成下面的4,+6变成下面的10,以此类推,显然最后会落在末尾数字的右下角。得证。 这才是数学的思路。

Hockey stick identity!
l
luna17
虽然但是,有一次给他一个Mathcounts的counting题,做错了,也不能全信
C
Carabella
经常一本正经的胡说八道。比如一开始它错了,然后你给它一个答案,它能给你编出一套思考过程,然后你说刚才答案错了,正确答案应该是B,它又能给你编出一套思考过程。
G
Geofan
O1 preview惊艳,完爆竞争对手。不过这个行业盈利太太困难了,昨天国内好几个公司都准备停止自己训模型了。现在这个行业是纯粹烧钱大赛,创业公司基本全要死
s
shanggj
apple-bee 发表于 2024-10-17 02:40
我最近觉得o1-mini做点technical的问题还不错,比4o进步了很多
现在chatgat-4o挺不好用的,平时用它polish email/draft什么越来越敷衍了,output根本就没有怎么修改。现在写作有关的给claude做了

o1 明显好出了一个层次。尤其做数学题。
上次女儿上课一道题做不出来 让我做。 sin(x)^3 * cos(3x) + cos(x)^3 *sin(x) = 3/8 求 x. 我懒得自己 计划喝茶 的算了, 就直接输如 o1。
它先算了一遍, 我看答案显然不对呀 , 细看一下, 它把 sin(x)^3 搞成了 sin(x^3), 我告诉它错了。 然后它说, 哦, 对不起。 这样的话, 化简不了, 但我可以给你数值解, 然后给了一堆小数点。 我说, 不行, 这是作业题,不但要解析解, 还得给足步骤。 它说好吧 我试试, 然后 就解出来了。步骤真详细 我直接 copy 然后发给我女儿。
前后就一两分钟, 比我自己算舒服多了。
s
shanggj
luna17 发表于 2024-10-17 08:45
虽然但是,有一次给他一个Mathcounts的counting题,做错了,也不能全信

o1 现在相当厉害。 我前一段 试了几个 AMC 10、12 最后的难题, 都一次做对。 后来又网上找了几个 普特曼的竞赛题, 也都对了。
上个周末, 女儿去个学校的 chess club, 看见里面一堆人在试 o1, 大家输入自己的数学作业题 (大一), 全对。 club 里有一 数学系的研究生, 大家就让他搞几道难题来试试, 研究生想了几道 都做出来了。 大家惊叹之余, 忽然都不说话了 然后就闷头开始配对 下棋了。
o1 现在如果你懂你问的问题, 能够和它有互动的话, 帮助是相当之大。 如果自己完全一堆浆糊, 指望输入问题就有答案, 那是活该被忽悠。 它 忽悠起人来, 也一点不比人 差
夏雨
数学题不知道,我有次问一个工程问题,咋一看老厉害了,专业,一步步的。 仔细一看,一派胡言, 啥玩意啊 一本正经的胡说八道
c
cheezit1999
回复 16楼 夏雨 的帖子
对,就是一本正经的胡说八道。如果专业问题让这些AI 来做,真的很可怕。
前两天我们同事还聊着说,那些嚷嚷着AI能代替真正的scientists 和 engineers的人,得多蠢,他们大概也看不懂AI胡扯了啥。

w
woyaoshou
别尬吹。CHATGPT很蠢的。试了几道简单的初中数学竞赛题,给的答案完全不沾边。
之前吹什么能做IMO,我是完全不信。你把答案输入进去训练了很多次,再做出来,有个屁意义?
y
yayapig
shanggj 发表于 2024-10-17 09:36
o1 现在相当厉害。 我前一段 试了几个 AMC 10、12 最后的难题, 都一次做对。 后来又网上找了几个 普特曼的竞赛题, 也都对了。
上个周末, 女儿去个学校的 chess club, 看见里面一堆人在试 o1, 大家输入自己的数学作业题 (大一), 全对。 club 里有一 数学系的研究生, 大家就让他搞几道难题来试试, 研究生想了几道 都做出来了。 大家惊叹之余, 忽然都不说话了 然后就闷头开始配对 下棋了。
o1 现在如果你懂你问的问题, 能够和它有互动的话, 帮助是相当之大。 如果自己完全一堆浆糊, 指望输入问题就有答案, 那是活该被忽悠。 它 忽悠起人来, 也一点不比人 差

因为他们拿AMC的题练过了。 我学生最近拿一个竞赛题库系统测试了, 按内容难度,和认知难度测试的,最新的model 能做level 5很复杂的题,但同时会在level 1的题上犯错误。 整个测试显示的是他们没有在认知,推理上有大的进步,只是手熟。 可以类比与刷题进大厂,当然能刷出来肯定比一般人强了。
y
yayapig
cheezit1999 发表于 2024-10-17 09:49
回复 16楼 夏雨 的帖子
对,就是一本正经的胡说八道。如果专业问题让这些AI 来做,真的很可怕。
前两天我们同事还聊着说,那些嚷嚷着AI能代替真正的scientists 和 engineers的人,得多蠢,他们大概也看不懂AI胡扯了啥。


有规范操作流程的问题,AI迟早都能搞定。但现有模型对认知能力训练不够,似乎还是在刷题的道路上狂奔。 就象老师除了讲题,也要讲怎么思考,怎么假设,判断,还有些认知能力,比如几何是要靠生活经验的,这些肯定也是可以训练的,可目前搞AI的比较急功近利,只是刷题。我们有些测试,几个版本的模型都没有大的改进。 将来,最重要的工作可能是各个行业的A I 监控员,要能一眼看出AI是不是又做傻事了。:-)
w
woyaoshou
yayapig 发表于 2024-10-17 10:24
有规范操作流程的问题,AI迟早都能搞定。但现有模型对认知能力训练不够,似乎还是在刷题的道路上狂奔。 就象老师除了讲题,也要讲怎么思考,怎么假设,判断,还有些认知能力,比如几何是要靠生活经验的,这些肯定也是可以训练的,可目前搞AI的比较急功近利,只是刷题。我们有些测试,几个版本的模型都没有大的改进。 将来,最重要的工作可能是各个行业的A I 监控员,要能一眼看出AI是不是又做傻事了。:-)

不觉得LLM能解决这类问题,但是它确实也有不少地方可以施展空间。
y
yeon
Chatgpt 的问题是不懂非要装懂。最近在学一个比较小众的软件。我问他问为什么会有出现这个error,。人家给我各种建议,结果没一个能用。其他用的人多的软件,Chatgpt 还挺有用的。我不要求他什么都会,但有没有人能教教他,不要乱给建议,浪费大家的时间呀。
细节图老
感觉AI以后可以取代大部分白领工作,担心失业会大量增长。
c
crazyeater
他就是個記憶力很好的文科生,會做所有有答案的題,靠背書的。 我覺得讓他給我解答leetcode還挺好的
榴莲烤奶好好运
cheezit1999 发表于 2024-10-17 09:49
回复 16楼 夏雨 的帖子
对,就是一本正经的胡说八道。如果专业问题让这些AI 来做,真的很可怕。
前两天我们同事还聊着说,那些嚷嚷着AI能代替真正的scientists 和 engineers的人,得多蠢,他们大概也看不懂AI胡扯了啥。


以后可以啊,现在才多长时间。
s
sugeeamimi15
用了它这段日子,随便给个标准化的答案还行,但无法给出很厉害很专家级的答案。要是一味依赖不加自己的加工和思考,就是给自己吃药。而且我看过它给我做的图表数据分析,它会看错数据的,这个一定要自己复查一遍
s
shanggj
sugeeamimi15 发表于 2024-10-17 12:26
用了它这段日子,随便给个标准化的答案还行,但无法给出很厉害很专家级的答案。要是一味依赖不加自己的加工和思考,就是给自己吃药。而且我看过它给我做的图表数据分析,它会看错数据的,这个一定要自己复查一遍

在可以遇见的未来, 很多行业的平庸从业者们 都必然面临和 AI 抢饭碗的 境遇了。
y
yiwenyihe
xiaomaomiaomiao 发表于 2024-10-17 02:03
我的体验是它的数学很不好,基本加减乘除都算错。发现后挺惊讶的。

真的! amc8的题目他做下来是错的
j
jianliu67
榴莲烤奶好好运 发表于 2024-10-17 12:09
以后可以啊,现在才多长时间。

以后也没戏!路如果开始走错了,走多长时间都没用。
f
fluffyball
xiaomaomiaomiao 发表于 2024-10-17 02:03
我的体验是它的数学很不好,基本加减乘除都算错。发现后挺惊讶的。

是的 挺差的 我看了答案问过are you sure? 然后它又做了一遍,然后还是错的 我是不会相信它做的答案的
啥玩意
shanggj 发表于 2024-10-17 09:36
o1 现在相当厉害。 我前一段 试了几个 AMC 10、12 最后的难题, 都一次做对。 后来又网上找了几个 普特曼的竞赛题, 也都对了。
上个周末, 女儿去个学校的 chess club, 看见里面一堆人在试 o1, 大家输入自己的数学作业题 (大一), 全对。 club 里有一 数学系的研究生, 大家就让他搞几道难题来试试, 研究生想了几道 都做出来了。 大家惊叹之余, 忽然都不说话了 然后就闷头开始配对 下棋了。
o1 现在如果你懂你问的问题, 能够和它有互动的话, 帮助是相当之大。 如果自己完全一堆浆糊, 指望输入问题就有答案, 那是活该被忽悠。 它 忽悠起人来, 也一点不比人 差

已知题目可能早被试过知道答案了。你得自己出题
w
wengyuan
xiaomaomiaomiao 发表于 2024-10-17 02:03
我的体验是它的数学很不好,基本加减乘除都算错。发现后挺惊讶的。

据说新版的chatgpt 的数理能力提高了很多。
L
Lalala2022
有时对有时错
钢牙
我的体验是当他和你扯不清的时候就会胡说 如果指令明确,切不会绕来绕去问同一个问题,gpt的回答还挺靠谱的
d
destiny2008
回复 6楼 xiaomaomiaomiao 的帖子
gpt数学真不行 文科好,期待下一个版本的重大改进
b
briel
工作中遇到一个数学问题,自己在纸上算了半天才搞定。然后想试试ChatGPT. 没想到人家很快解出来了。最让我惊艳的是它似乎通过几个例子归纳总结出了一般性的结论。如果它没有刷这个题的话,那实在是太厉害了。Algebra 好的人看看:
https://chatgpt.com/share/6710869b-1d90-8013-b991-879821a42839
mjia123 发表于 2024-10-17 00:09

lol 估计你是新手 用gpt做derivation得小心点,最好google交叉验证下,别问我怎么知道的
l
lianzi
AI的推理能力一日千里地发展,没有用过O1的建议去用一下再说。 昨天刚好去听了Andrew Ng (华人上肯定也有去了的同事), 觉得能生活在这个时代真的很幸运。如果你对AI的认知还停留在一本正经的胡说和加减乘除算不清,建议多看书,少上华人。
L
Lalala2022
我最近就在训练AI,ai犯错了就告诉他哪里错了,正确的该怎么做