当心!第一批用DeepSeek的人已经被坑惨了

智谷趋势

5 个月前

作者｜知远

你是否开始习惯DeepSeek的“无所不能”？

写方案？找它！做PPT？找它！生病了？找它！就连昨晚做的梦，都想让它解一解……

但万万没想到，正在被越来越多人信赖的DeepSeek，居然也会一本正经地胡说八道。

AI，并不是万能的。

现在，第一批使用DeepSeek的人，已经被坑惨了。

“DeepSeek查阅文献是如此的不靠谱”，广州某著名高校的一位教授近日发朋友圈吐槽。

原本这位教授想通过DeepSeek查询《Global Cantonese: The Spread of Cantonese Language and Culture》的信息，结果核实后发现：DeepSeek提供的作者是假的，年份是错的，出版社更是风马牛不相及。

经过进一步沟通，DeepSeek承认这些信息错误，并感谢其指正，还表达了自己的歉意：

最近，知名媒体人、人民日报海外版原总编辑詹国枢也发了篇文章，标题就是：DeepSeek的致命伤——说假话。

老詹在文章中列举了亲身经历，让DeepSeek写一篇《史记·詹国枢列传》，开头第一句展现的出生地、母亲姓氏等基本信息，便“张冠李戴”；再让DeepSeek写了一篇某记者的记述文章，文风生动、案例不少，结果转给记者本人，却被全盘否认。提到的案例，没一个是本人写的。

人都说DeepSeek文采飞扬，文学素养高，可路遥的名著《平凡的世界》，却被说成是詹国枢老班长的代表作。如果有小朋友看了，可能要误人子弟。

实际上，信息表述上的不严谨，已经快成DeepSeek被吐槽最多的一种问题，《苦昼短》说成是李白的，明朝“废除宰相”和“设置内阁”混为一谈，也难怪有网友直言：

DeepSeek只适合写代码做数学，对文科生一点不友好。

部分试图用DeepSeek复习国考、省考的人，不得不重新拾起申论教材了。

一些试图通过DeepSeek解放人力的“牛马”也破防了，有网友说用DeepSeek写文章，举了4个例子，3个都查不来，最后才发现都是DeepSeek自己编的。

原以为是来解放自己的，没想到因为核查信息，却花费了更大的精力。

图源：小红书

如果只是事实差错，或许是搜索结果有误，这还不是最恐怖的。

陕西自媒体“决明子”，一直对西安安定门那里的道路规划要绕一圈不解，问当地执勤的交警、出租车司机都回答不上来，看到DeepSeek火爆，决定一试，提问DeepSeek“西安的道路路线规划，从环城西路北段到环城西路南段为什么不直行，非得在安定门绕一圈？”

这时候，DeepSeek的表演开始了。

DeepSeeK先在解释中提出了一个“唐皇城交通静默区”的概念，表示根据《西安历史文化名城保护规划（2020-2035）》，安定门周边划定了一级静默区、二级静默区，本质是为了保护文物，防止过大的震动。它甚至还列出了具体的空间数据，距离增加多少、振动传递深度变化是多少。

图源：决明子

乍一看，这解释太合理了！有理论、有数据、有政策，可信度拉满。

可是网友一查，这份《西安历史文化名城保护规划（2020-2035）》文件中，压根就没有什么“静默区”。这个看似极为专业、有理有据的回答，居然是“编”的。

图源：决明子

反馈给DeepSeek，它也很老实，诚恳承认错误，文件里确实没有“静默区”的说法。但随后，又做出新的修正和澄清，继续“编织”自己的答案。

AI的精心包装，让编的材料看起来如此真实，如同“有意识”地在操控一般，真有些让人不寒而栗。

有时为了显得自己回答高深，DeepSeek还会采用一些专业词汇，比如量子纠缠、熵增熵减等，当“话术”超出用户认知的时候，真有可能一下把人震住，难以分辨。

问题来了，为什么DeepSeek要不懂装懂，甚至“说假话”呢？

2原因是——AI幻觉。

行业用这个词来形容AI“说假话”的现象，即输出的回答看似内容合理连贯，但“同输入问题意图不一致、同世界知识不一致、与现实或已知数据不符合或无法验证”。

这并不是DeepSeek一家的毛病。去年8月，总部位于纽约的人工智能初创公司和机器学习监控平台Arthur AI就曾发布报告，比较了OpenAI、“元宇宙”Meta、Anthropic以及Cohere公司开发的大语言模型出现幻觉的概率。研究报告显示：这些大模型都会产生幻觉。

大洋彼岸最厉害的ChatGPT，也和DeepSeek一样“满嘴跑火车”。

只不过相比起同行，DeepSeeK-R1的“幻觉”现象更明显一些。在Vectara HHEM人工智能幻觉测试（行业权威测试，通过检测语言模型生成内容是否与原始证据一致，从而评估模型的幻觉率，帮助优化和选择模型）中，DeepSeek-R1显示出14.3%的幻觉率。

这不仅仅比前身DeepSeek-V3高了近4倍，也远超行业平均。

图：Vectara HHEM人工智能幻觉测试结果

DeepSeek自己也明确承认了“技术局限性认知”：当前大模型内容生成的底层逻辑是基于概率的，确实存在生成信息可信度参差不齐的挑战。

简单理解就是，不“保真”。

互联网上有什么内容，不论真假，都可能变成DeepSeeK的引用素材，而它只负责根据已有的内容推理，不对信息本身负责。

而DeepSeek-R1的幻觉之所以更加严重，是因为其加强了“思维链”（CoT）和创造力。

比如DeepSeek-R1的诗歌创作，不仅能写五绝、七律，“起承转合”也很丝滑，对诗的意境亦有自己的理解，被网友称为“写的诗比祖传的《唐诗三百首》还工整”，让中文系毕业生汗颜，甚至灵魂发文：

AI随手甩出一句诗词都比中文系教授写得好的话，人类的文学还有必要存在吗？人类还能再诞生出伟大的诗人吗？

如此强大的创作力，正是因为DeepSeek-R1在文科类任务的强化学习训练过程中，模型的创造性被不断鼓励。

如同“出门问问”大模型团队前工程副总裁、Netbase前首席科学家李维所说：

“大模型是天生的艺术家，不是死记硬背的数据库。”

不过，“副作用”也随之而来。

比如在“思维链”的强化过程中，DeepSeek-R1并不是对摘要、翻译、新闻写作这类相对简单的任务优化，而是增加各种层面的思考，会不断的延申。

于是面对复杂或者有难度的问题，它能超常发挥甚至给人意想不到的答案，但是当面对一些简单的任务时，DeepSeek-R1则可能因为习惯了深度思考，而过度发挥。

比如你问“隔壁老王有多高”，它可能就懵了，因为它没见过老王，也不知道你到底问的是哪个老王。但它又不得不回答，于是它就开始“脑补”，根据“一般人有多高”这个学到的概念，给你编织一个答案。

所以相比较而言，DeepSeek-R1确实在“理科”方面更有逻辑性，而“文科”方面则因为喜欢“发挥”，可能把不相干的内容关联起来胡编乱造，甚至彻底翻车。

3正因如此，当AI时代加速到来，我们比任何时候都更需要寻求真相，增强明辨是非、独立思考的能力。

就在除夕夜，在“如何看待冯骥盛赞‘Deepseek’的问题”之下，一名自称为“Deepseek创始人梁文锋”的知乎用户，给出了这样的答案：

各位知乎的年轻朋友好，我是深度求索（DeepSeek）的梁文锋，刚回答了一个问题，又看到这个问题，除夕之夜忍不住回复一些。几天看到冯总这篇长文时，我正在调试新模型的损失函数，手边的咖啡直接洒在了键盘上——既因为被行业前辈认可的惶恐，更因为冯总这些灼热的文字让我想起十二年前在浙大实验室第一次跑通神经网络时的颤栗。必须坦白，团队读到“国运级”这个形容时所有人头皮都是麻的。我们不过是站在开源社区巨人们的肩膀上，给国产大模型这栋大厦多拧了几颗螺丝。您提到的六大突破，其实每一环都凝结着更动人的故事：那个能在手机上跑的mini模型，灵感来自甘肃一位中学老师在GitHub提的issue；支持联网搜索的功能，是内测用户连续三十天凌晨三点提交错误日志喂出来的……

这回答内容有场景、有细节，回复有气魄、带感情，不少网友读后动容了。

然而，让人意想不到的是，它也是假的！

新浪科技向相关人士求证得知：该知乎账号除夕发文并非梁文锋本人，大概率为DeepSeek所写。

也就是说，DeepSeek生成的广为流传的“第一个假新闻”，指向的正是自己的创始人。

令人细思极恐的是，这份回应居然如此契合人们对于梁文锋的想象，以至于被科技界和金融界都疯传，有人只是把截图发到公众号文章，就获得了2.6万转发。

罕有人怀疑这个“梁文锋”是假的，反而有不少读者留言夸赞，“有情怀的科学家”“看得热泪盈眶”“为年轻一代创业者点赞”……

这样的现象，恰恰提示了风险所在，为即将到来的AI时代敲响警钟。

今年1月，世界经济论坛发布的《2025年全球风险报告》显示：

虚假信息和错误信息连续两年位居短期风险之首，持续对社会凝聚力和治理构成重大威胁，它们侵蚀公众信任并加剧国内外分歧。

AI聊天机器人的存在，正放大这种风险。Vectara公司针对文档内容开展的研究表明，一些聊天机器人编造事实、虚构信息的几率高达30%。

长期从事自然语言处理、大模型和人工智能研究的哈尔滨工业大学（深圳）特聘校长助理张民教授就表示：“现阶段AI幻觉难以完全被消除”。也就是说，DeepSeek等大模型会说假话，短期内无法避免。

作为使用者，我们能做的就是找到AI的正确打开方式，拒绝“上当”。

比如最简单的方法，就是勤快一点，通过其他搜索引擎对比查询。或者针对DeepSeek在回答中引用的网页消息源，动动手指点进去，看看提到的案例是否真的存在。

置身于当下信息爆炸、真伪难辨的大环境，每个人都应该不断强化自我认知，多一次独立思考，可能就能少一次上当。

说到底，AI并不能让人一劳永逸，反而提出了更高的要求，包括如何提问、如何跟AI对话，以及如何甄别信息等。到最后，人与人的差距可能会变得更大。

开

开心小黄人

5 个月

1 楼

你们就相信DS是胡说八道。千万别用，千万只用ChatGPT最低版。

chongsen

5 个月

2 楼

Deepseek R1相对于前代V3 三倍左右得错误率，不知道是不是成本优化的结果。拼多多化的降本增效总是有后遗症的。只是取舍的问题。

wtf6park

5 个月

3 楼

其实这真没什么，本来你丫写的文章就是你自己学习的过程，自己想偷懒造假，结果被一个更狠的玩了而已。再说ds最近太火了，以至于大家都忽略了这本来就是一个小成本制作。能有如此成绩是很不错了。可是却并不是完美的。而且很多人都忽略了ds只是性价比高而已，并不是真的最牛逼，最牛逼还是chatgpt。毕竟那是真金白银堆出来的。其实有这些声音也是好的，让大家降降温，认清一下自己的位置。然后继续默默努力让这个新生的软件越来越好才对。过度的吹捧没好处

evision

5 个月

4 楼

国之栋梁

对

对不起我是警察

5 个月

5 楼

留园五毛的留言准确率更低🤣

顺

顺毛

5 个月

6 楼

用deepseek 查了一下《苦昼短》的作者，下面是查询结果：《苦昼短》的作者是**李贺**。李贺，字长吉，是“长吉体”诗歌的开创者，有“诗鬼”之称。他的诗作想象极为丰富，经常应用神话传说来托古寓今，所以后人常称他为“鬼才”，“诗鬼”。《苦昼短》是李贺的一首诗作，表达了诗人对人生苦短的感慨和对神仙长生的怀疑。

金

金灿融融

5 个月

7 楼

习包子国的Ai 技术遥遥领先！谁怀疑都是无效的！

chongsen

5 个月

8 楼

查了一下 Vectara's HHEM 2.1 chatgpt的成绩 chatgpt 3.5 是 1.9% chatgpt 4 是 1.8%

小

小凡人

5 个月

9 楼

DeepSeek的致命伤——说假话。……墙国属性😂

HankSchrader

5 个月

10 楼

哈哈

远

远望天空

5 个月

11 楼

造假群体搞出来的玩意自然造假，老习，64都不知道，造假有啥奇怪。

瞎

瞎逛逛

5 个月

12 楼

诈骗岛有全球下载排名前100的app吗？让我们也学习一下

Washington001

5 个月

13 楼

很多数据已经ChatGPT污染了。早就发现ChatGPT伪造数据甚至网络链接。 [1评]

财

财富绽放

5 个月

14 楼

所以在chatgpt基础蒸馏出来的东西怎么可能正确呢

BlueTX

5 个月

15 楼

ChatGPT是一个极具极左和政治正确的模型。对性别，同性恋，多元性别的回答都极为挑战普通人的认知底线。希望DeepSeek不要染上这个偏见，保持人类社会认知的基本底线。

XXyourOO

5 个月

16 楼

蛆！滚！

googlebot

5 个月

17 楼

相信电脑，脑子坏了

szacy

5 个月

18 楼

噴糞標題黨。

曾

曾祖爷爷

5 个月

19 楼

DeepSeek也不是什么都敢编的😁

liuyuan1000

5 个月

20 楼

哈哈哈，ChatGPT 还不是满嘴跑火车.. 算数都算不明白…

splendor57

5 个月

21 楼

用过AI的都知道这是人工智障通病只有狗粮在high

jingfei05

5 个月

22 楼

哎，这一看就是不懂AI原理的人写的东西。。。目前AI的本质上的行为，还是一个定位搜索出来的结果，只不过通过LLM模型构建了一个认知知识空间，然后通过问题的解析，在这个认知知识空间内找出一个信息链是最匹配问题的，最后把这个信息链给处理包装一下反馈给用户。这里就有很多可能发生问题的地方： 1. 问题解析出了偏差，最后结果肯定有偏差 2. 认知知识空间内的信息本身不全或者有误，导致结果不尽人意 3. 事实上AI提供的结果应该提供一个信心指数给用户，表示我这个结果是很有把握的，同时要对认知空间内的信息也要标识一个可信度，这样用户大概知道说哦，这个答案值得自己采用或者要进一步核对。 4. AI必须提供一个结果大多数情况下，幻觉产生就不稀奇了，就好像办案人把嫌犯屈打成招，一定要提供供词。。。

ccdb99

5 个月

23 楼

DeepSeek没求谁用！

大

大春哥

5 个月

24 楼

我問D S要開天天眼必須有什麼先缺條決，它回答七天七夜不睡覺就可以了

ccdb99

5 个月

25 楼

DeepSeek没求谁用！

简

简单人

5 个月

26 楼

留園五毛幹你娘又不想負責，想走旱路，由於準確率低還是走了水路，造了一個你。

简

简单人

5 个月

27 楼

chatgpt在文獻引用上也是問題多多，特別是chapgpt4版本。但chatgpto1就好很多，新的deep search看起來也很好。deepseek 用的是unsupervised learning.chatgpt很大程度上依靠supervised learning,後者成本高而且思維發散性就比較差。前者至少在機器學習的早期準確性會差。不奇怪。

匿

匿名2018

5 个月

28 楼

股票赚麻了，接盘侠也已经找到了，可以不用炒作了。

简

简单人

5 个月

29 楼

不管是那一個LLM都還不能全面取代人類。引用文章上，作者本來就應該多上心，不僅是正確性也包括適當性，在同樣相似內容的文獻裡選最適合的。AI 還有不少路要走。但是一定可以超越。雖然原理上未必是今天的AI。

pickle

5 个月

30 楼

这里类似一个人只从网上得到信息，他自然不可能知道那些是真哪些是假

榴

榴莲车

5 个月

31 楼

爱用不用又不收你费用。酸的呗。

canadamember

5 个月

32 楼

自从usaid关了，坛子里的狗粮少了很多啊，估计现在吃屎也吃不着了。

dancingwater

5 个月

33 楼

记住，他们是和人脑完全不同的智能思维模式，我也不知道他们到底会帮助人类还是毁灭人类

哄

哄哄如此

5 个月

34 楼

实际用一下就知道，什么是真，什么是假，幻觉率本身就是存在幻觉。实际使用过程中， chatgpt/deepseek几乎每个答案都有扯淡的部分。

战

战神101

5 个月

35 楼

这不就是人类的本性吗？不知道就乱扯哈拉一下，说明A l已经开始接近人类的思维了。

顽

顽童在线

5 个月

36 楼

我操，你们好歹还给了个答案，我问了5个问题，都是服务器繁忙，稍后再试。

anywho

5 个月

37 楼

就像1450網軍故意測試DeepSeek 時、一直用同一個錯誤的方式引導逼迫好幾次、最後DeepSeek 給出1450詐騙蛆想要的答案、之後1450詐騙蛆就歡欣喜慶的把這些放在網上撒謊說：看，DeepSeek 給錯誤的答案、Blablabla, 無耻！

bajie2012

5 个月

38 楼

用CHat GPT算命，简直就是胡说八道

5 个月

39 楼

AI要拟人自然就会犯错，现在的这些霉国OpenAI、ChatGPT乏国Lucie、中国DeepSeek都是复制资料搜寻组合给出答案，若是只要正确答案那就是以前的搜索引擎。从瞎掰犯错这点上看乏国Lucie才是最拟人的AI：当被问及“牛蛋”时，Lucie竟回答称“牛蛋，也被称为鸡蛋，是由牛生产的可食用蛋，富含蛋白质和营养”。此外，在进行简单的数学运算时，如计算5乘以（3+2），Lucie给出的答案是错误的17，而非正确的25。更有甚者，Lucie还声称“山羊的平方根是1”。

DDT666

5 个月

40 楼

孩子做作业查文献资料，发现chatGPT提供的所谓文献大部分都是虚构的......所以啊，找AI的做事要留一个心眼，不能全信。之前老师就告诉过，连维基词典的东西都是不能做为参考文献的，因为都不权威，都是人为编纂上去的（特别是台巴子把持的中文维基，胡说八道的更多）。

阳

阳痿男

5 个月

41 楼

所以虽然必应AI用的也是GTP但是给你一个更严谨还是更有创造性的选项。另外，DeepSeek的创造性太激进了。我只是让他给我检查一下写的一段外语有没有错误，他直接过我重写了，还带标题和章节的。

一

一氓

5 个月