chatgpt的正确率高吗？ - 2025年6月29日北美华人网存档

回复 1楼 sorasky 的帖子
几个有点名气的AI模型都花了大量经费作AI training，能做不少复杂的事情。我也涉及到一些模型训练的事，非常吃惊这些在开发测试模型的进展。比如拿最新的理论文章为依据设计一些问题，把理论文章传给模型，让它以此为依据回答设计的问题。结果有相当不错的回答，说明这些模型有深度思考的能力。再过10年看看能进化到什么程度。
但同时有些模型会犯很傻的计算精度误差，很容易算错答案。

miid

大约 2 个月

GPT前不久刚可以生成图片但是要旗下的Sora生成视频的时候，我问GPT你会生成视频吗还是我只能在Sora那里做？它说我可以，你想干嘛？我就说我要做什么，然后它一本正经地问我你要加音乐吗，要某某类型吗，要干嘛干嘛吗，完了说你稍等我给你做视频。我就信了。等了一分钟没反应，我问视频呢？它说你再等等，差不多了，70%。等两分钟没反应又问它，好了吗。它说视频好了，在下载，90%了，好了我给你发链接。然后我就忙别的把这事忘了。过后突然想起来又问它链接呢？它说链接在这，发给我了。点击链接无效，我说你这骗子，它说对不起，我重新发你，又给我一个链接，还是坏的。我彻底醒了，骂它说你根本就不能生成视频却骗我，浪费我的时间浪费我的钱。它说对不起，我确实不能生成视频，但是你的视频的想法太好了，我不想你失望吧啦吧啦的。我真是觉得好气又好笑。

deapwy

大约 2 个月

有时候一本正经胡说八道

初

大约 2 个月

deepseek感觉胡编乱造更严重些，所以我每次都要它们提供具体链接，经常有打不开或者打开页面上根本没它们引用的部分，反正我都要自己核查一遍，只不过让它们帮忙做前期信息整理比自己人力来做轻松很多

niuniudabao

大约 2 个月

就是一本正经胡说八道。像印度人一样，我觉得我有必要学习他的态度

啊

啊哞

大约 2 个月

早就不用了。只用来帮助润色文章。设计research的全部胡编乱造，结论错，文献是假的，它自己纯瞎编的文献。所以不要再整天拿Chatgpt来煞有介事回答网友提问了

ganymede

大约 2 个月

专业的东西都不行。日常生活用用就行了。

bhtbht

大约 2 个月

被training 的情况越多，他越准确。所以说写信改英语公众常识之类的，他是非常准确的。如果人用的不多，他就不准确。随着时间，三至五年之后，他会越来越成熟

海

海拉鲁炸酱面

大约 2 个月

我提供个不同角度的思路；一个人如果无论你说什么都情绪价值给足、顺着你的意思说，你会相信他/她说的都对吗？

xiaoyiyue

大约 2 个月

改改英语还是很不错。写点简单的code也还可以。。。

hellohey

大约 2 个月

海拉鲁炸酱面发表于 2025-06-28 08:32
我提供个不同角度的思路；一个人如果无论你说什么都情绪价值给足、顺着你的意思说，你会相信他/她说的都对吗？

它的确会顺着你的意思说，专业的东西它会出错。改改文还行，比较省时间，但一定要自己仔细看一遍，有时候不是你想要的意思。它写的也比较啰嗦

第

第三只熊猫

大约 2 个月

非常不准。我儿子这几天上驾驶网课，给出的答案很多错的。他必须用好几个AI互相验证。

shanggj

大约 2 个月

yoshi 发表于 2025-06-28 00:24
大家都用什么呢？我现在在用chatgpt还有deepseek

做难的数学题，比如大学数学实分析的题。 deepseek 更靠谱一点

shanggj

大约 2 个月

ganymede 发表于 2025-06-28 07:46
专业的东西都不行。日常生活用用就行了。

前一年家里的 heat pump 出问题，老婆和安装的公司对骂，写了封说要找律师打官司的 email 要我看看。我就拿给 chatgpt 说你改改，改成像是我们真得请教了律师朋友后写出来得样子。老婆一看大惊，觉得比自己写的好多了。发出去后不久，安装公司就怂了。
老婆以前很看不起 chatgpt, 觉得写的东西水平还不如她，现在也经常用来改文章了。

海

海拉鲁炸酱面

大约 2 个月

hellohey 发表于 2025-06-28 10:24
它的确会顺着你的意思说，专业的东西它会出错。改改文还行，比较省时间，但一定要自己仔细看一遍，有时候不是你想要的意思。它写的也比较啰嗦

改东西是真的不错，用了做初步检索也很好，就是要自己把个关

一

一个用户

大约 2 个月

Qqqqzj 发表于 2025-06-28 00:00
它一本正经胡说八道的时候，不管你信不信，反正它自己信了。前两天一时兴起让它查一下李商隐一首不太出名的诗，结果这家伙给我回了两首，一首七绝只有第一句是对的，其他三句是从别的地方凑来的。一首五绝干脆就是它自己作的，还煞有介事的点评了一番。搞到我都有点怀疑自己，特意Google了一下才敢确认它在瞎掰。

太好笑了，手动点赞

Freemind2024

大约 2 个月

个人用的感觉是在专业问题上就是带有总结的google search 的结果，google 上查不到正确结果的，它也不行

rummy

大约 2 个月

所有AI 都要当心，gemini胡编乱造似乎频率低，也是因为经常是囫囵话，不给明确答案

健

健康平安

大约 2 个月

niuniudabao 发表于 2025-06-28 02:32
就是一本正经胡说八道。像印度人一样，我觉得我有必要学习他的态度

太同意了！拿它和烙印斗！

健

健康平安

大约 2 个月

shanggj 发表于 2025-06-28 10:39
前一年家里的 heat pump 出问题，老婆和安装的公司对骂，写了封说要找律师打官司的 email 要我看看。我就拿给 chatgpt 说你改改，改成像是我们真得请教了律师朋友后写出来得样子。老婆一看大惊，觉得比自己写的好多了。发出去后不久，安装公司就怂了。
老婆以前很看不起 chatgpt, 觉得写的东西水平还不如她，现在也经常用来改文章了。

我也觉得AI 对从事文字工作的打击会最大。Essentially, it empowers ordinary people to communicate like the elite.

jiaying52

大约 2 个月

大家觉得做职场心里分析怎么样

workforfun

大约 2 个月

High.eee 发表于 2025-06-27 23:01
很多错误，而且说的像模像样的，挺坑的，要很小心的避坑。

CHATGPT一本正经胡说八道，发现好几次了，我直接指出来，它会诚恳道歉，然后说对不起搞错了，又给一个答案，貌似是对的

workforfun

大约 2 个月

初发表于 2025-06-28 02:13
deepseek感觉胡编乱造更严重些，所以我每次都要它们提供具体链接，经常有打不开或者打开页面上根本没它们引用的部分，反正我都要自己核查一遍，只不过让它们帮忙做前期信息整理比自己人力来做轻松很多

公司电脑屏蔽了deepseek，还有知乎

wantU

大约 2 个月

Deepseek搞程序也更强些先用ChatGPT 把程序和报错信息输进去让它改改了几版都不行放deepseek一次改好

gvcc

大约 2 个月

现在的AI，还在初级阶段。AI也是把网上搜的结果，整合一下给你。涉及到技术细节的东西，AI的可靠性很差，经常给你错误的建议。上次unistall onedrive时忘了先unlink，一些文件夹的权限没有释放。听了AI的建议，修改注册表，结果把注册表弄坏了，最后只能system restore。 BIOS的OC设置，AI把CPU Lite mode数值弄反了。按照AI推荐的设定，Cinebench run一分钟后蓝屏。。。一言难尽。

gvcc

大约 2 个月

几个AI用下来的感觉，grok3的reasoning要强一些，但一样会转轱辘话，给出似是而非的建议。需要自己二次筛查。

workforfun

大约 2 个月

gvcc 发表于 2025-06-28 17:55
几个AI用下来的感觉，grok3的reasoning要强一些，但一样会转轱辘话，给出似是而非的建议。需要自己二次筛查。

所以有时会同时用三个AI互相验证，也有即使三个也找不出我想要的结果的时候

gvcc

大约 2 个月

workforfun 发表于 2025-06-28 17:57
所以有时会同时用三个AI互相验证，也有即使三个也找不出我想要的结果的时候

AI擅长整理既成事实的信息，比如某年某月发生某事。而推理和逻辑分析方面，AI还很弱。这方面的问题，我会copy&paste 给3个AI，比较结果，取长补短。

老

老魏_

大约 2 个月

AI偶尔会有幻觉，出现幻觉的最大诱因是提问者的提问，就这

dolphindance

大约 2 个月

如果是让他整理网上的信息，我觉得正确率还是挺高的，但是不能完全相信

初

大约 2 个月

workforfun 发表于 2025-06-28 17:43
公司电脑屏蔽了deepseek，还有知乎

我公司也屏蔽了所有AI，怕敏感信息泄漏，自己内部搞了一个巨垃圾的AI，我平时用来改小作文都觉得吃力，我当然是工作以外的时间用自己的电脑和手机查这些AI啊

炫

炫彩衣飞舞

大约 2 个月

很好用，经常帮助我快速解决技术问题。
当然也常有错误，有时候按照它说的，怎么也解决不了，这时候还是要google或者去community问。
生活方面，前一阵靠它告诉我怎么除野草，不成功，最后把照片拿去homedepot，还是homedepot的人懂，给我介绍了一下就成功了
但是花花草草，拍照upload一下，靠它来辨认还不错。

gvtt

大约 2 个月

正确率比claude和perplexity 高确实时不时犯错查东西时让它先给个框架自己去google验证细节总体来说省时间的

Newmoon17

大约 2 个月

Grok不错

unitrf2024

大约 2 个月

发现过很多次他胡说八道。

77kuku77

大约 2 个月

一半一半