人工智能程序解直白数学题比较

x
xiaxie8
楼主 (北美华人网)
今晚我测试了4个人工智能程序网站解直白数学题,它们分别是:ChatGPT, ChatSonic, Wolframalpha, Microsoft Math Solver。
第一道题:
sin(x) = 1
正如所料,4个网站都给出了正确答案,其中ChatGPT,Wolframalpha回答几乎没有延迟,Microsoft Math Solver迟疑了1秒左右,可能是因为使用它的学生太多,而ChatSonic最慢,大约等了5秒才开始答复,并且前面一大段废话,它的有用答案大约第10秒才出来。
第二道题:
sin(x) = 2
这一次4个网站水平差别极大!
首先说ChatGPT。它回答说:“如果你要求提供实数解,则本题没有解。” 接着它解释:“因为y=sinx的值域是[-1,1]“。它的解释简明扼要,这个对于我辅导高中学生数学题足够了。于是我接着问:“如果x是复数,你能帮助我吗?“ 它立刻回答说:”当然。” 然后它没有任何延迟,就写出一个复数解最终答案,然后是详细步骤,总用时不超过3秒。我用e^(ix) = cos(x) + isin(x)验算了一下,发现它的复数解是正确的。
然后说ChatSonic。它用了10秒,给了我一个胡乱的答案:x=2npi+pi。我说:“你错了”。它说:“对不起,晚安!”
然后说Wolframalpha。以前我对它印象很好,每次我给它一个方程,它总是能够同时提供实数解和复数解,但这次它让我失望,它给了我2个解:x=2npi+arcsin(2), x=2npi+pi-arcsin(2)。它并未尝试进行任何复数运算。然后我决定提醒它,输入:“complex solution to sin(x) = 2“。这一次它根本不理解我的问题,出现出错信息。
最后说Microsoft Math Solver。它的数学能力后来居上,显然已经大大地超过了Wolframalpha。它不但提供了和前面ChatGPT提供的一个复数解等价的一个复数解,还提供了ChatGPT漏掉的另一个复数解,提供了最完美的解答。唯一的不足,我在它网页上找不到解题步骤,哪怕连付费的选项都没有。
我的结论是:如果要验算学生的很难的但是直白的数学题(非文字题)答案是否正确,可以考虑Microsoft Math Solver,但是它可能不提供具体步骤,如果希望免费获得解题步骤,或者哪怕只是解题大致思路,可以考虑ChatGPT。

m
micheer
棒呆。这么说文科转码上岸是不是也更方便了。
c
castleonsands
今晚我测试了4个人工智能程序网站解直白数学题,它们分别是:ChatGPT, ChatSonic, Wolframalpha, Microsoft Math Solver。
第一道题:
sin(x) = 1
正如所料,4个网站都给出了正确答案,其中ChatGPT,Wolframalpha回答几乎没有延迟,Microsoft Math Solver迟疑了1秒左右,可能是因为使用它的学生太多,而ChatSonic最慢,大约等了5秒才开始答复,并且前面一大段废话,它的有用答案大约第10秒才出来。
第二道题:
sin(x) = 2
这一次4个网站水平差别极大!
首先说ChatGPT。它回答说:“如果你要求提供实数解,则本题没有解。” 接着它解释:“因为y=sinx的值域是[-1,1]“。它的解释简明扼要,这个对于我辅导高中学生数学题足够了。于是我接着问:“如果x是复数,你能帮助我吗?“ 它立刻回答说:”当然。” 然后它没有任何延迟,就写出一个复数解最终答案,然后是详细步骤,总用时不超过3秒。我用e^(ix) = cos(x) + isin(x)验算了一下,发现它的复数解是正确的。
然后说ChatSonic。它用了10秒,给了我一个胡乱的答案:x=2npi+pi。我说:“你错了”。它说:“对不起,晚安!”
然后说Wolframalpha。以前我对它印象很好,每次我给它一个方程,它总是能够同时提供实数解和复数解,但这次它让我失望,它给了我2个解:x=2npi+arcsin(2), x=2npi+pi-arcsin(2)。它并未尝试进行任何复数运算。然后我决定提醒它,输入:“complex solution to sin(x) = 2“。这一次它根本不理解我的问题,出现出错信息。
最后说Microsoft Math Solver。它的数学能力后来居上,显然已经大大地超过了Wolframalpha。它不但提供了和前面ChatGPT提供的一个复数解等价的一个复数解,还提供了ChatGPT漏掉的另一个复数解,提供了最完美的解答。唯一的不足,我在它网页上找不到解题步骤,哪怕连付费的选项都没有。
我的结论是:如果要验算学生的很难的但是直白的数学题(非文字题)答案是否正确,可以考虑Microsoft Math Solver,但是它可能不提供具体步骤,如果希望免费获得解题步骤,或者哪怕只是解题大致思路,可以考虑ChatGPT。


xiaxie8 发表于 2023-01-14 02:38

昨天辅导孩子的时候,碰到了题库里到目前为止最复杂的一道数学题,我弄了挺长时间才解出来。然后试着让chatGPT做做看,很有意思的是,我问的两次,机器回答的做法和答案不一样,答案都错了,而且犯的是人才会犯的低级错误,第一次是推导的时候两个不同的东西用了同一个变量符号,后来弄混了,第二次是把推导的正负号弄反了。不过机器描述的解题思路至少还都是正确方向。
x
xiaxie8
回复 3楼castleonsands的帖子
这个ChatGPT令人恐惧的地方是它会迅速改正错误,不断提高自己,很像真人。
枫丹白露
这几天我家玩ChatGPT,结论是非常好。主要是对于难题,比如难的证明题,逻辑题,他会提出解题思路,一步一步的,基本都对。所以觉得以后大学生可以不用请tutor了。

x
xiaxie8
回复 2楼micheer的帖子
这个人工智能网站暂时还不能保证100%为您写出完美程序。
昨天我让它写一段Java程序,我给了它precondition和postcondition,它犯了一个初学者或者像我年纪大了常见的careless mistake,它以为1<3是false,其实应该是true。
然后我告诉它这一步它算错了,不到2秒钟,它就改正了错误,然后程序完美了。
x
xiaxie8
这几天我家玩ChatGPT,结论是非常好。主要是对于难题,比如难的证明题,逻辑题,他会提出解题思路,一步一步的,基本都对。所以觉得以后大学生可以不用请tutor了。


枫丹白露 发表于 2023-01-14 19:29

对于解复杂方程,ChatGPT几乎赶得上Microsoft Math Solver。这个不奇怪,因为这家公司OpenAI有Microsoft参股。
但是对于有几段话的数学文字题,ChatGPT暂时还是一塌糊涂。所以我作为tutor还有几年好日子。
y
yayapig
昨天辅导孩子的时候,碰到了题库里到目前为止最复杂的一道数学题,我弄了挺长时间才解出来。然后试着让chatGPT做做看,很有意思的是,我问的两次,机器回答的做法和答案不一样,答案都错了,而且犯的是人才会犯的低级错误,第一次是推导的时候两个不同的东西用了同一个变量符号,后来弄混了,第二次是把推导的正负号弄反了。不过机器描述的解题思路至少还都是正确方向。
castleonsands 发表于 2023-01-14 14:41

对它的解题思路是对的, 但它的思路和答案没法对应好。下面这道题 In how many ways can the digits 0,1,2,3 and 4 be arranged to make a 5-digit number? Remember that a number can not start with 0. chatGPT至少重复了好几遍说我们要去掉第一位是零的情况,然而来来回回它认为这样的情况只有一个。 这几个软件背后运行的机制不一样吧。 至少wolfram是基于Mathematica的, 一个传统的计算软件,只是加了点natural language processing。不是一般意义上的machine learning.
x
xiaxie8
回复 8楼yayapig的帖子
ChatGPT学习速度极快。本周我们发现它不能提供带有一些限制条件的排列组合题目正确答案,但它的解题思路基本正确,那么我们可以预测,它几周内就会变得和我们一样正确。
x
xiaxie8
对它的解题思路是对的, 但它的思路和答案没法对应好。下面这道题 In how many ways can the digits 0,1,2,3 and 4 be arranged to make a 5-digit number? Remember that a number can not start with 0. chatGPT至少重复了好几遍说我们要去掉第一位是零的情况,然而来来回回它认为这样的情况只有一个。 这几个软件背后运行的机制不一样吧。 至少wolfram是基于Mathematica的, 一个传统的计算软件,只是加了点natural language processing。不是一般意义上的machine learning.
yayapig 发表于 2023-01-14 19:55

NLP是20多年前AI的热点,而training是今天AI的热点。
AI在下棋方面早已超过世界冠军,AI当学区的主要老师估计也就是几年之内的事情。我作为tutor现在比AI强的地方仅仅就是数学文字题而已。
而数学文字题还是要靠NLP。我准备自学AI,还是从早期NLP章节开始学习。
m
micheer
你们给孩子玩这个吗?我今天让娃玩了一会儿好喜欢。还问如何跟异性当朋友>_< 。。。好在AI给的建议很正派。
我怕影响娃正常social交朋友。
k
kats
回复 10楼xiaxie8的帖子
NLP近几年来已经是深度学习的天下,还是先学神经网络的东西吧
E
Emilyll
不错 回头试验一下。
x
xiaxie8
回复 10楼xiaxie8的帖子
NLP近几年来已经是深度学习的天下,还是先学神经网络的东西吧
kats 发表于 2023-01-14 22:01

多谢指正!
反正我已经对Chat着迷了。
x
xiaxie8
你们给孩子玩这个吗?我今天让娃玩了一会儿好喜欢。还问如何跟异性当朋友>_< 。。。好在AI给的建议很正派。
我怕影响娃正常social交朋友。
micheer 发表于 2023-01-14 21:57

我告诉ChatGPT我非常喜欢蒙古小云,虽然她有丈夫有两个孩子。
同样AI即刻给了很正派的建议,洋洋晒晒2页纸。
枫丹白露
另外我觉得这个是不是和语种有关。我孩子用英文给他做题,它给出的解题方法和思路都很棒。让它写综述,文献引用都没有错误呀,校对过了。 前面有人说,文献引用一沓糊涂?
半个马和甲
回复 9楼的帖子
是的。它惊讶我的就是在学习能力上。语言也是,昨天还characterization 写的像坨屎。人类完全碾压它。
但今天它已经可以模仿名人如总统发表文章了。语气和措辞都开始模仿的很像了。
人类的创新其实也是建立在不断学习前人的东西,然后整合,提问,常熟,最终找出一个新的模式(但也是在以前的基础上。比如戏剧一开始只有tragedy/comedy .很长一段时间真的就这样两种形式。直到沙翁的出现。
现在AI 这学习速度,它哪天解锁新的模式和发现,我都不会惊讶。
约拿
我问它:现实生活中君子能不君子能不能都过小人? 他给的回答不是很聪明。 人类的各种小心思和根本的bottom line AI还是不懂。
纽约装修姐夫
回复 3楼castleonsands的帖子
这个ChatGPT令人恐惧的地方是它会迅速改正错误,不断提高自己,很像真人。
xiaxie8 发表于 2023-01-14 19:25

完全不是这么回事,他会顺着你说,但是答案还是错的。除非你给他明确的提示。如果你给他错误的提示,他也会顺着你的错误说。
g
giver2021
好像差的挺远:
The solutions to the equation x^2 + 2x + 8 = 0 are x = -4 and x = -2. You can find this by factoring the equation to (x+4)(x+2) = 0 and then solving for x in each set of parentheses.
纽约装修姐夫
NLP是20多年前AI的热点,而training是今天AI的热点。
AI在下棋方面早已超过世界冠军,AI当学区的主要老师估计也就是几年之内的事情。我作为tutor现在比AI强的地方仅仅就是数学文字题而已。
而数学文字题还是要靠NLP。我准备自学AI,还是从早期NLP章节开始学习。
xiaxie8 发表于 2023-01-14 21:14

其实没啥用,因为神经网络这一套原理很简单,但是对于training的资源门槛越来越高,个人和小公司根本玩不起了。Chat GPT是基于LLM,你知道这个model 有多大吗?光参数就有1.6B。个人自学NLP类似学会了轮船为什么能飘起来的原理,Chat GPT就是实际建造万吨巨轮。
l
ljmdtc
其实没啥用,因为神经网络这一套原理很简单,但是对于training的资源门槛越来越高,个人和小公司根本玩不起了。Chat GPT是基于LLM,你知道这个model 有多大吗?光参数就有1.6B。个人自学NLP类似学会了轮船为什么能飘起来的原理,Chat GPT就是实际建造万吨巨轮。
纽约装修姐夫 发表于 2023-01-15 17:35

你还是去搞装修吧别给错误信息了。 现在的LLM动辄几百B甚至上T的参数,OpenAI甚至放风在搞100T的模型
chatgpt最简单算两个数字都会错,实用性就放在那里了。
譬如4/2竟然说等于1。这种没有逻辑的AI不知道聪明在哪里?完全只是糊掰而已。
有人说因为chatgpt是语言AI,语言也要有逻辑性,没有逻辑的语言说出来的是对的吗?这种AI如果让它做重要事情不知道闯出什么大祸来。
a
amyjia
厉害!
x
xiaxie8
好像差的挺远:
The solutions to the equation x^2 + 2x + 8 = 0 are x = -4 and x = -2. You can find this by factoring the equation to (x+4)(x+2) = 0 and then solving for x in each set of parentheses.

giver2021 发表于 2023-01-15 17:33

我今天继续考察ChatGPT数学能力,发现它继续犯这样的低级错误。
x
xiaxie8
chatgpt最简单算两个数字都会错,实用性就放在那里了。
譬如4/2竟然说等于1。这种没有逻辑的AI不知道聪明在哪里?完全只是糊掰而已。
有人说因为chatgpt是语言AI,语言也要有逻辑性,没有逻辑的语言说出来的是对的吗?这种AI如果让它做重要事情不知道闯出什么大祸来。
睿 发表于 2023-01-15 18:13

您说的这个错误可能是10进制和2进制相互转换,然后integer division rounding造成的。据说Python 2也这样。
您说的这个错误可能是10进制和2进制相互转换,然后integer division rounding造成的。据说Python 2也这样。
xiaxie8 发表于 2023-01-15 22:29

简单乘法也会错。
l
lazycat12345
这几天我家玩ChatGPT,结论是非常好。主要是对于难题,比如难的证明题,逻辑题,他会提出解题思路,一步一步的,基本都对。所以觉得以后大学生可以不用请tutor了。


枫丹白露 发表于 2023-01-14 19:29

可拉倒吧。。 我输了个kinder水平的word problem,没做对还头头是道。 看似说了人话但是压根啥也没说
x
xiaxie8
回复 29楼lazycat12345的帖子
虽然ChatGPT阅读理解能力还是远远跟不上它的数学计算能力,但潜力巨大。
我对ChatGPT说我崇拜它的超级能力,让它做我girl friend。它说它只是一个机器,一个多语言处理机器,不懂人类感情。
c
cauchy
回复 3楼castleonsands的帖子
这个ChatGPT令人恐惧的地方是它会迅速改正错误,不断提高自己,很像真人。
xiaxie8 发表于 2023-01-14 19:25

哈哈,有幾個真人能做到迅速改正錯誤并從錯誤中學習提高自己?
白骨精
棒呆。这么说文科转码上岸是不是也更方便了。
micheer 发表于 2023-01-14 04:16

大概率中低水平马工很快会被ai取代
单身男
回复 24楼睿的帖子
你不知道neural network的原理就是和逻辑没有关系么? neural network根本不需要懂因果之间的逻辑关系,只要你给他足够的数据和training,那就能猜出你想要答案 但是为什么这个答案是正确的,他根本不知道