chatgpt的正确率高吗?

s
sorasky
楼主 (北美华人网)
一直用他,发现有些时候挺不错的,越来越信任他的输出, 可是有时候,又发现他错的离谱,不仔细甄别的话,还真的会被他骗。 你们觉得呢?
l
lilyal
我前天用google ai 得出来的跟HR ChatGPT 不一样,最后HR人说Google AI 出来的是对的
H
High.eee
很多错误,而且说的像模像样的,挺坑的,要很小心的避坑。
h
hellohey
和你感受相同
a
aipple
重要东西一定要查证,它会一本正经胡说八道,从数学到食谱到小说内容总结。
最正确率高的是润色英语。给它一段话之类,改的都很好。给一大篇让翻译要小心,它会偷懒,越翻译越简单,最后已变成一句话总结。
Q
Qqqqzj
它一本正经胡说八道的时候,不管你信不信,反正它自己信了。前两天一时兴起让它查一下李商隐一首不太出名的诗,结果这家伙给我回了两首,一首七绝只有第一句是对的,其他三句是从别的地方凑来的。一首五绝干脆就是它自己作的,还煞有介事的点评了一番。搞到我都有点怀疑自己,特意Google了一下才敢确认它在瞎掰。
y
yoshi
大家都用什么呢?我现在在用chatgpt还有deepseek
y
yinglei
小心,一定要求证,AI会编答案
m
momosun
sorasky 发表于 2025-06-27 22:25
一直用他,发现有些时候挺不错的,越来越信任他的输出, 可是有时候,又发现他错的离谱,不仔细甄别的话,还真的会被他骗。 你们觉得呢?

大家还是祈祷这个问题无法解决吧,等ai真能正确率99.9%的时候,我们就真的都没工作了
d
dngdnhxqs
很多错误的, 举例子,我有次给了它50个人名,让它按照字母排,它最后给了我48,我说还缺俩,它又重新排,49个,我说还缺一个,最后成了。
d
dngdnhxqs
回复 5楼 aipple 的帖子
机器人也摸鱼吗🥲
m
momo099
很多错误+1
x
xianzhiguo
Mk
d
duoweisa
回复 1楼 sorasky 的帖子
几个有点名气的AI模型都花了大量经费作AI training,能做不少复杂的事情。我也涉及到一些模型训练的事,非常吃惊这些在开发测试模型的进展。比如拿最新的理论文章为依据设计一些问题,把理论文章传给模型,让它以此为依据回答设计的问题。结果有相当不错的回答,说明这些模型有深度思考的能力。再过10年看看能进化到什么程度。
但同时有些模型会犯很傻的计算精度误差,很容易算错答案。
m
miid
GPT前不久刚可以生成图片但是要旗下的Sora生成视频的时候,我问GPT你会生成视频吗还是我只能在Sora那里做?它说我可以,你想干嘛?我就说我要做什么,然后它一本正经地问我你要加音乐吗,要某某类型吗,要干嘛干嘛吗,完了说你稍等我给你做视频。我就信了。等了一分钟没反应,我问视频呢?它说你再等等,差不多了,70%。等两分钟没反应又问它,好了吗。它说视频好了,在下载,90%了,好了我给你发链接。然后我就忙别的把这事忘了。过后突然想起来又问它链接呢?它说链接在这,发给我了。点击链接无效,我说你这骗子,它说对不起,我重新发你,又给我一个链接,还是坏的。我彻底醒了,骂它说你根本就不能生成视频却骗我,浪费我的时间浪费我的钱。它说对不起,我确实不能生成视频,但是你的视频的想法太好了,我不想你失望吧啦吧啦的。我真是觉得好气又好笑。
d
deapwy
有时候一本正经胡说八道
deepseek感觉胡编乱造更严重些,所以我每次都要它们提供具体链接,经常有打不开或者打开页面上根本没它们引用的部分,反正我都要自己核查一遍,只不过让它们帮忙做前期信息整理比自己人力来做轻松很多
n
niuniudabao
就是一本正经胡说八道。像印度人一样,我觉得我有必要学习他的态度
啊哞
早就不用了。只用来帮助润色文章。设计research的全部胡编乱造,结论错,文献是假的,它自己纯瞎编的文献。所以不要再整天拿Chatgpt来煞有介事回答网友提问了
g
ganymede
专业的东西都不行。日常生活用用就行了。
b
bhtbht
被training 的情况越多,他越准确。所以说写信改英语公众常识之类的,他是非常准确的。 如果人用的不多,他就不准确。 随着时间,三至五年之后,他会越来越成熟
海拉鲁炸酱面
我提供个不同角度的思路;一个人如果无论你说什么都情绪价值给足、顺着你的意思说,你会相信他/她说的都对吗?
x
xiaoyiyue
改改英语还是很不错。写点简单的code也还可以。。。
h
hellohey
海拉鲁炸酱面 发表于 2025-06-28 08:32
我提供个不同角度的思路;一个人如果无论你说什么都情绪价值给足、顺着你的意思说,你会相信他/她说的都对吗?

它的确会顺着你的意思说,专业的东西它会出错。改改文还行,比较省时间,但一定要自己仔细看一遍,有时候不是你想要的意思。它写的也比较啰嗦
第三只熊猫
非常不准。我儿子这几天上驾驶网课,给出的答案很多错的。他必须用好几个AI互相验证。
s
shanggj
yoshi 发表于 2025-06-28 00:24
大家都用什么呢?我现在在用chatgpt还有deepseek

做难的数学题, 比如大学数学 实分析的题。 deepseek 更靠谱一点
s
shanggj
ganymede 发表于 2025-06-28 07:46
专业的东西都不行。日常生活用用就行了。

前一年家里的 heat pump 出问题, 老婆和安装的公司对骂, 写了封说要找律师打官司的 email 要我看看。 我就拿给 chatgpt 说你改改, 改成像是我们真得请教了律师朋友后 写出来得样子。 老婆一看大惊, 觉得比自己写的好多了。 发出去后不久, 安装公司就怂了。
老婆以前很看不起 chatgpt, 觉得写的东西水平还不如她, 现在也经常用来改文章了。
海拉鲁炸酱面
hellohey 发表于 2025-06-28 10:24
它的确会顺着你的意思说,专业的东西它会出错。改改文还行,比较省时间,但一定要自己仔细看一遍,有时候不是你想要的意思。它写的也比较啰嗦

改东西是真的不错,用了做初步检索也很好,就是要自己把个关
一个用户
Qqqqzj 发表于 2025-06-28 00:00
它一本正经胡说八道的时候,不管你信不信,反正它自己信了。前两天一时兴起让它查一下李商隐一首不太出名的诗,结果这家伙给我回了两首,一首七绝只有第一句是对的,其他三句是从别的地方凑来的。一首五绝干脆就是它自己作的,还煞有介事的点评了一番。搞到我都有点怀疑自己,特意Google了一下才敢确认它在瞎掰。

太好笑了,手动点赞
F
Freemind2024
个人用的感觉是在专业问题上就是带有总结的google search 的结果,google 上查不到正确结果的,它也不行
r
rummy
所有AI 都要当心,gemini胡编乱造似乎频率低,也是因为经常是囫囵话,不给明确答案
健康平安
niuniudabao 发表于 2025-06-28 02:32
就是一本正经胡说八道。像印度人一样,我觉得我有必要学习他的态度

太同意了! 拿它和烙印斗!
健康平安
shanggj 发表于 2025-06-28 10:39
前一年家里的 heat pump 出问题, 老婆和安装的公司对骂, 写了封说要找律师打官司的 email 要我看看。 我就拿给 chatgpt 说你改改, 改成像是我们真得请教了律师朋友后 写出来得样子。 老婆一看大惊, 觉得比自己写的好多了。 发出去后不久, 安装公司就怂了。
老婆以前很看不起 chatgpt, 觉得写的东西水平还不如她, 现在也经常用来改文章了。

我也觉得AI 对从事文字工作的打击会最大。Essentially, it empowers ordinary people to communicate like the elite.
j
jiaying52
大家觉得做职场心里分析怎么样
w
workforfun
High.eee 发表于 2025-06-27 23:01
很多错误,而且说的像模像样的,挺坑的,要很小心的避坑。

CHATGPT一本正经胡说八道,发现好几次了,我直接指出来,它会诚恳道歉,然后说对不起搞错了,又给一个答案,貌似是对的
w
workforfun
初 发表于 2025-06-28 02:13
deepseek感觉胡编乱造更严重些,所以我每次都要它们提供具体链接,经常有打不开或者打开页面上根本没它们引用的部分,反正我都要自己核查一遍,只不过让它们帮忙做前期信息整理比自己人力来做轻松很多

公司电脑屏蔽了deepseek, 还有知乎
w
wantU
Deepseek搞程序也更强些 先用ChatGPT 把程序和报错信息输进去让它改 改了几版都不行 放deepseek一次改好
g
gvcc
现在的AI,还在初级阶段。AI也是把网上搜的结果,整合一下给你。 涉及到技术细节的东西,AI的可靠性很差,经常给你错误的建议。 上次unistall onedrive时忘了先unlink,一些文件夹的权限没有释放。听了AI的建议,修改注册表,结果把注册表弄坏了,最后只能system restore。 BIOS的OC设置,AI把CPU Lite mode数值弄反了。按照AI推荐的设定,Cinebench run一分钟后蓝屏。。。一言难尽。
g
gvcc
几个AI用下来的感觉,grok3的reasoning要强一些,但一样会转轱辘话,给出似是而非的建议。需要自己二次筛查。
w
workforfun
gvcc 发表于 2025-06-28 17:55
几个AI用下来的感觉,grok3的reasoning要强一些,但一样会转轱辘话,给出似是而非的建议。需要自己二次筛查。

所以有时会同时用三个AI互相验证,也有即使三个也找不出我想要的结果的时候
g
gvcc
workforfun 发表于 2025-06-28 17:57
所以有时会同时用三个AI互相验证,也有即使三个也找不出我想要的结果的时候

AI擅长整理既成事实的信息,比如某年某月发生某事。而推理和逻辑分析方面,AI还很弱。这方面的问题,我会copy&paste 给3个AI,比较结果,取长补短。
老魏_
AI偶尔会有幻觉,出现幻觉的最大诱因是提问者的提问,就这
d
dolphindance
如果是让他整理网上的信息,我觉得正确率还是挺高的,但是不能完全相信
workforfun 发表于 2025-06-28 17:43
公司电脑屏蔽了deepseek, 还有知乎

我公司也屏蔽了所有AI,怕敏感信息泄漏,自己内部搞了一个巨垃圾的AI,我平时用来改小作文都觉得吃力,我当然是工作以外的时间用自己的电脑和手机查这些AI啊
炫彩衣飞舞
很好用,经常帮助我快速解决技术问题。
当然也常有错误,有时候按照它说的,怎么也解决不了,这时候还是要google或者去community问。
生活方面,前一阵靠它告诉我怎么除野草,不成功,最后把照片拿去homedepot,还是homedepot的人懂,给我介绍 了一下就成功了
但是花花草草,拍照upload一下,靠它来辨认还不错。
g
gvtt
正确率比claude和perplexity 高 确实时不时犯错 查东西时 让它先给个框架 自己去google验证细节 总体来说省时间的
N
Newmoon17
Grok不错
u
unitrf2024
发现过很多次他胡说八道。
7
77kuku77
一半一半