一道小学奥数题 4个AI平台答案不一样,听谁的?

今日头条
Toutiao
最新回复:2024年3月13日 7点34分 PT
  返回列表
50275 阅读
22 评论
上游新闻

“给娃儿辅导奥数题,问了多个AI平台,每个答案都不一样。”

近日,重庆家长刘先生向上游新闻记者反映:同一道奥数题,百度、阿里云、今日头条等国内4个主流AI大模型平台,竟然给出了不同的答案。

3月11日,上游新闻记者从百度客服及人工智能专家处了解到,人工智能大模型平台并不是题库,数据模型一直在学习完善中,尤其是在数学和逻辑方面。



同一道奥数题,刘先生得到结果为30分钟、7分钟两种不同答案。/受访者供图

刘先生告诉上游新闻记者,自己的孩子上小学四年级,最近他在辅导孩子做奥数题,但自己并非理工科出身,感觉有些困难。因为他从事影视制作方面的工作,经常使用人工智能工具辅助,就想到使用类似平台来帮忙。

刘先生将一道题输入经常使用的百度的文心一言、阿里云的通义千问、今日头条的豆包等4个主流人工智能大模型平台进行测试。具体题目为:一天,萱萱到离自己家4000米的表哥家去玩。早晨7:20,萱萱从家出发向表哥家走去,每分钟行60米,同时表哥骑车从家出发来接她。表哥到萱萱家后才发现萱萱已经走了,又立即返回去追,表哥骑车每分钟行260米。当表哥追上萱萱后,带着她一起回表哥家,这时骑车速度为每分钟175米。请问:当他们到达表哥家时,还差几分钟就到8点?

“当时两个(AI平台)列出了推理过程,均给出了‘7分钟’的答案,应该是对的。我觉得算得有点复杂,就又让AI用适合小学五年级的算法再算一次,结果答案自此之后就不一致了。”在刘先生提供的截图中,上游新闻记者看到,有的平台会给出“30分钟”的答案。

上游新闻记者测试时,要求AI重新计算,有的AI甚至给出了“还差-23分钟就到8点”的离谱答案。刘先生感觉很困惑:“是不是AI自己不敢保证是正确的,多问几遍它自己就把自己绕晕了,越回答越错?”



记者得到了一个“-23分钟”的答案。/截图

11日,上游新闻记者致电文心一言会员服务热线询问此事,工作人员表示,“目前的系统回复不是每次都一模一样的,它主要针对您的提问和您输入问题的一个复杂性程度进行回复。如果是它输出的结果是不满意或者是有误的,您可以及时点踩反馈,帮助文心一言进步。”

工作人员表示,反馈提交之后,后台工作人员也会去不断优化模型的一个能力,“因为AI生成的结果,是根据您输入的一个需求和提示词提供的,它是自动识别和理解您的一个意图和需求,并提供相关的文本图片,目前模型能力确实也在不断地发展,需要时间。”

无独有偶。在上海从事AI类自媒体的白先生(化名),也用孩子的数学题测试了国外的GPT4、Claude和Google Bard等AI平台以及国内多个主流AI平台,也发现了类似问题,甚至有的AI对题意都出现了理解错误。

一位国内人工智能方面的专家告诉上游新闻记者,目前主流的AI大模型平台并不是数学题库,“大数据模型一直在学习完善中,尤其是在数学和逻辑方面,所以很多产品对话框旁边都有点赞点踩的图标。通过这种方式反馈问题,模型才会学习完善。如果家长想要更精准的答案,更推荐给孩子使用学习机一类的AI产品。”

该专家表示,“即便是目前国际上一些数学、化学、物理等方面的专业性做题AI,也很难拿到奥赛满分。”

据参考消息,今年1月,美国一个名为阿尔法几何(AlphaGeometry)的AI系统,能做出国际数学奥林匹克(IMO)的30道几何题中的25道,已经接近人类奥数金牌得主水平,该突破性成果甚至登上了著名的《自然》(Nature)杂志。

据报道,美国亚利桑那州立大学副教授沙卡里安,在2023年1月初用1000个数学问题对ChatGPT进行了测试,结果发现准确率只有60%,低于一般中学生的准确率。

牛津大学机器学习研究员西蒙·弗莱德尔,曾在一项研究中让ChatGPT做了一系列数学任务,包括简单的计算、数学证明题、搜索数学文献和奥数题,结果也发现,ChatGPT在大多数任务上表现为“不及格”,在需要多层逻辑推导的题目上表现尤为糟糕。而最具迷惑性的是,哪怕ChatGPT做错数学题,也会非常“迷之自信”地给出看起来权威的错误答案。

专家表示,AI的语言模型目标在于处理和理解人类的语言,更擅长生成类似人类的对话,而不是为了成为完美的数学计算器,“AI作为一种工具,只适用于那些最懂数学的人,而不是最不了解数学的人。在借鉴AI给出的答案之前,一定要加以验证,不要过于依赖它。”

f
fengqingyun
1 楼
4分钟,作者傻
L
Luck6883
2 楼
ChatGPT: 首先,我们来计算表哥追上萱萱时的时间。 设表哥追上萱萱时,他们已经走了 t 分钟。 萱萱行走的距离为 60t 米。 表哥行走的距离为 260t 米。 因为他们相遇时,他们所走的总距离应该等于4000米,所以有: 60t + 260t = 4000 化简得: 320t = 4000 解得: t = 4000 / 320 t = 12.5 分钟 这说明,在表哥追上萱萱时,已经过去了12.5分钟。 接下来,我们来计算从他们相遇到表哥家的时间。 在表哥追上萱萱后,他们一起回表哥家的速度为每分钟175米,而表哥家距离相遇点4000米,因此到达表哥家所需时间为: 4000 / 175 ≈ 22.857 分钟 综上所述,他们到达表哥家时,距离8点还差大约23分钟
温雪承
3 楼
4 minutes
f
fengqingyun
4 楼
chatgpt完败 表弟追上表妹 4000/(260-60) 走了20分钟, 还剩下2800米,速度175还要走16分。 一共走了36,差四分8点 洗洗睡吧
小尘埃
5 楼
AI目前只能参考,不可完全相信,包括ChatGPT 都需要不断让它们学习,发现答错了,可以纠正它,多次纠正后就可以改变了。这位家长也真是不咋地,没发现他得到的答案一个正确的都没有!
f
fengqingyun
6 楼
那是到了表妹家在去追的。。如果60+260 计算t我觉得他表哥是瞎子或者傻子 对面来了表妹看不见一塌糊涂
令胡冲
7 楼
为了解决这个问题,我们可以分步骤来计算: 首先计算萱萱走到表哥家的时间。距离为4000米,速度为60米/分钟,所以时间为 4000 ÷ 60 = 66.67 4000÷60=66.67 分钟。 接着计算表哥追上萱萱所需的时间。因为他们起点相同,但表哥后出发并且要返回原点再追上萱萱,我们需要找到他们相遇的点。这个可以通过解一个关于时间的方程来找到。 当表哥追上萱萱后,他们一起骑车回表哥家,速度为175米/分钟,我们需要计算返回时间。 我们先计算表哥追上萱萱所需的时间。设表哥追上萱萱所需时间为 t t 分钟,因为表哥到萱萱家后才发现萱萱已经出发,所以实际上表哥需要先到萱萱家(距离为4000米),再追上已经出发的萱萱。在表哥追上萱萱之前,萱萱已经走了 60 t 60t 米,而表哥则走了 260 t − 4000 260t−4000 米(因为他先到萱萱家再追上萱萱)。由于他们在相同的时间内相遇,表哥和萱萱之间的距离差就是4000米,我们可以设置等式解决这个问题。 接下来,我们可以根据这个方程来解决问题。 Finished analyzing Always expand output? python Copy code from sympy import symbols, Eq, solve # 定义符号 t = symbols('t') # 设置等式:表哥的总行程减去萱萱的行程等于4000米 equation = Eq(260*t - 60*t, 4000) # 解方程找到t t_solution = solve(equation, t) t_solution Result [20] 表哥追上萱萱所需的时间是20分钟。这意味着,从表哥出发到追上萱萱,萱萱已经走了 60 × 20 = 1200 60×20=1200 米。 接下来,我们需要计算他们一起回到表哥家所需的时间。剩余的距离是 4000 − 1200 = 2800 4000−1200=2800 米,以175米/分钟的速度骑车: 时间 = 距离 速度 = 2800 175 时间= 速度 距离 ​ = 175 2800 ​ ​​ Finished analyzing Always expand output? python Copy code # 计算一起回到表哥家所需的时间 remaining_distance = 2800 speed_together = 175 time_together = remaining_distance / speed_together time_together Result 16.0 他们一起回到表哥家所需的时间是16分钟。 因此,总时间为表哥出发追萱萱的20分钟加上他们一起回家的16分钟,总计36分钟。萱萱早上7:20出发,所以他们到达表哥家的时间是7:56。 那么,他们到达表哥家时,距离8点还差4分钟。 ​​
令胡冲
8 楼
直接把题Copy进去,GPT420秒给答案。用Python准确计算。没有问题。国内模型比GPT4差不少,基本都是Llama2/3的水平,照抄的,跟Gemini差不多。
U
USFlyingbird
9 楼
题目没有告诉表哥从家骑车去小妹家的速度,不全。
令胡冲
10 楼
…GPT4用20秒给详解答案…
n
nzder7
11 楼
典型的IQ题,3分钟内不能得到答案(4分钟)的,可谓低能
n
nzder7
12 楼
这些需要请教AI的父母,智力水准让人担忧啊!
不允许的笔名
13 楼
据报道,美国亚利桑那州立大学副教授沙卡里安,在2023年1月初用1000个数学问题对ChatGPT进行了测试,结果发现准确率只有60%,低于一般中学生的准确率。 =========== GPT-4是23年3月发布的,GPT-3.5是6月。23年1月是GPT-3,能答对60%不错了。
不允许的笔名
14 楼
二楼是GPT3.5,六楼是GPT4
风啸啸壮士
15 楼
在公司的PC 上, 用Edge search,copilot 自动弹出给出答案, 我都是直接关掉, AI 火得没道理。
芬妖精
16 楼
GenAI本来就不是用来做数学的。
c
ccpwilldie
17 楼
AI 本身是一个聪明的工具,但是使用的人是个傻叉,他用工具也解决不了问题。 陶哲轩 都用gpt-4 做AI 数学分析, 还有人觉得AI 不行,哈哈。 中国的ai 模型 大致就gpt-3.5 水平左右, 这篇文章里的提到模型在中国也都挺没特色的,\ 百度、阿里的都是垃圾, 搞AI 研究的几个首席科学家早就跑了,还不如多看看清华研究院和从美国回来创业的几家公司。 另外提问的prompt 没写好,一样效果不好的。
L
Lonelyhunter
18 楼
4 分钟为正确答案
S
Sam大树
19 楼
听AI的? 不如听三体中的智子!
s
showmecn
20 楼
追到萱萱花了 4000 /(260-60)=20 分钟, 他们一起走到表哥家 (4000-(60*20))/175 =16分钟, 总归花费 20+16=36分钟。这个时候时间是7:56, 离8点整还有4分钟。
z
zhongguoren8
21 楼
SB人类瞎折腾,自从有了Sora, 任何视频都没人信了。 很多人将会失业,学位也不值钱了。
H
Huilianghu5
22 楼
数学题让AI来做,关键是把题目讲清楚。中学时解数学问题学过解题最后还要讨论,出题的条件中某些不确定因素决定了什么时候唯一解,什么时候多解什么时候无解。出题人自己讲不清楚,或者AI对问题或语言理解错误,结果就乱套了。 比如除法,中国人用除和除以来区别除数和被除数,英语用被动主动语态来区分。除和除以就是一种数学定义,直接从语言上是无法准确理解的。AI必须到小学数学课本上去收集这个定义。 六二年高考数学题用到直线两两相交。数学没定义过,或者从小学到中学没在数学上定义过两两相交,是每条直线至少与另外两条直线相交,像一群人手牵手围成一圈,还是每条直线与所有其他直线都相交。数学老师都一头雾水。出此题的应该是语文老师。直到多年后,百度才有把后一种定义作为正确解。我答此题以第一种定义证明出题错误。判题的没扣我分。