chatgpt是不是实质就是一个巨大的维基百科全书?

m
microsat
楼主 (北美华人网)
请问chatgpt是不是就是一个巨大的维基百科全书,
搜索引擎则是用大模型建立的语言识别系统。这个语言识别系统,也负责任何语言方面的求解,比如:改文章。

也就是说,当你问chatgpt某个领导人的生日的时候,这个时候chatgpt就去后台搜索这个维基百科全书。
简单的这些知识,chatgpt的程序员可以编撰。 但是复杂的,他们编不了。比如:当你问参考文献的时候,因为太庞大了,所以chatgpt的程序员没有时间来完成这个庞大的参考文献的维基百科。 所以给你的答案也基本都是错误的。
是这样吗?
s
skyflyer88
不是的。LLM本质上是把几乎人类所有的数据压缩成几百几千亿个控制参数的autocompleter. Chatgpt就是个特别好用的autocompleter
m
microsat
skyflyer88 发表于 2025-06-09 10:17
不是的。LLM本质上是把几乎人类所有的数据压缩成几百几千亿个控制参数的autocompleter. Chatgpt就是个特别好用的autocompleter

那为何当你问一些敏感问题的时候,chatgpt会截留?
另外,chatgpt的VBA编程能力明显要差于python。 但是VBA的资料手册确实非常多的。 这如何解释呢?
h
hankzhang
回复 1楼 microsat 的帖子
本质上是的。 但是用的方法是更像人脑的存储。 有点像压缩但是没人准确知道他怎么存下再输出的
l
laohua001
回复 1楼 microsat 的帖子
本质上是的。 但是用的方法是更像人脑的存储。 有点像压缩但是没人准确知道他怎么存下再输出的
hankzhang 发表于 2025-06-09 12:41

没有人脑的逻辑分析,只有相关分析。
比如现在互联网上大家都在搜索猪+美女, 很多网上的回答也包含猪和美女。 然后你问谁最美,chatgpt会告诉你猪最美。
江月何年初照人
microsat 发表于 2025-06-09 10:21
那为何当你问一些敏感问题的时候,chatgpt会截留?
另外,chatgpt的VBA编程能力明显要差于python。 但是VBA的资料手册确实非常多的。 这如何解释呢?

截流是在output的最后一步做screening,不是在autocomplete的时候截。
m
magnoliaceae
不是,维基百科没有chatgpt那么多错误
z
zglg21
回复 1楼 microsat 的帖子
AI 的回答 :-) 很抱歉,您对ChatGPT和搜索引擎的工作原理存在一些误解。 首先,ChatGPT并非一个巨大的维基百科全书。 ChatGPT是大型语言模型(LLM):它通过在海量的文本数据上进行训练来学习语言的模式、语法、事实知识以及不同概念之间的关系。这些训练数据确实包含了大量的文本信息,其中可能包括维基百科的内容,但也涵盖了书籍、文章、网页、代码等等。它不是通过“搜索”一个后台的维基百科来获取信息,而是通过其内部学习到的知识来生成文本。 生成式AI:ChatGPT的核心能力是“生成”,它能够根据接收到的指令(Prompt)生成连贯、有意义的文本。当您问一个问题时,它不是去“搜索”一个数据库,而是根据它训练时学到的知识来“生成”一个答案。 其次,搜索引擎也并非用大模型建立的语言识别系统,主要负责语言方面的求解。 搜索引擎的核心是信息检索:它的主要功能是抓取和索引互联网上的海量信息,当用户输入查询时,搜索引擎会根据算法匹配最相关的网页并呈现给用户。它通过关键词匹配、链接分析、内容质量等多种因素来排序结果。 大模型在搜索引擎中的应用:近年来,大模型(如BERT、GPT等)确实被整合到搜索引擎中,主要用于增强“理解”用户查询和网页内容的能力。例如,它们可以帮助搜索引擎理解查询的意图,即使查询的措辞与网页内容不完全匹配,也能找到相关信息。它们也可能用于改进摘要生成、问答等功能,但其核心仍是信息检索。 语言识别系统:通常指的是语音识别(Speech Recognition),将语音转换为文本。这与搜索引擎或ChatGPT的功能有所不同。 第三,关于您提到的一些观点: “当你问chatgpt某个领导人的生日的时候,这个时候chatgpt就去后台搜索这个维基百科全书。” 这种理解是不准确的。ChatGPT是基于其训练数据中包含的知识来生成答案的。如果它在训练中接触过关于该领导人生日的信息,它就能生成答案。它不会“实时”地去搜索维基百科。 “简单的这些知识,chatgpt的程序员可以编撰。但是复杂的,他们编不了。” 这种观点是错误的。ChatGPT的知识不是由程序员“编撰”进去的。它的知识来源于其大规模的训练数据。程序员是构建模型、选择训练数据、设计训练算法的人,而不是直接编辑模型内部的知识。 “当你问参考文献的时候,因为太庞大了,所以chatgpt的程序员没有时间来完成这个庞大的参考文献的维基百科。所以给你的答案也基本都是错误的。” 这也是对的,但不完全是基于您说的原因。 时效性问题:ChatGPT的训练数据通常有截止日期。对于非常新的信息,它可能无法提供准确的答案。 事实核查和来源追踪:虽然ChatGPT拥有大量的知识,但它在设计上并不是一个事实核查工具,也不是一个专门用于追踪实时或非常具体的参考文献的系统。它生成答案时可能无法提供准确的、可验证的来源链接,因为它不是一个搜索引擎,也不会实时地去查找并引用文献。它可能会“编造”不存在的参考文献,这被称为“幻觉”(Hallucination),是目前大型语言模型的一个已知局限。它不能保证所有生成的知识都是100%准确且有明确来源的。 “庞大的参考文献的维基百科” 这种想法本身就是不准确的。ChatGPT不是一个数据库,它没有一个可供查询的“参考文献维基百科”。 总结一下: ChatGPT 是一个大型语言模型,通过学习海量数据来生成文本,其知识来源于训练数据,而非实时搜索。 搜索引擎 旨在检索互联网信息,并通过算法匹配用户查询,大模型是其增强理解能力的工具。 ChatGPT在提供参考文献时,确实存在局限性,尤其是对于时效性高、需要精确溯源的信息,它可能会出现“幻觉”现象,这与它不是一个实时检索和验证工具的本质有关,而非程序员“没有时间编撰”。 希望这个解释能帮助您更好地理解它们的工作原理。
i
izz.ling
+1 ChatGPT的核心能力是“生成”。
所以前提条件是他所能调取的信息是系统性强、专业性强、且尚未被人类刻意污染过的。否则生成的东西就也没有啥帮助,是垃圾。

l
layjohns
千万别问参考文献,感觉他会当作写文章一样,给你“生成”几个,有刊名页码年份题目啥的,就是实际找不到
C
Constant_sorrow
应该不止,很多时候理解能力比我强。有几个贴子我没明白楼主说什么给ai一看就get到了。应该是个变革性的发展,但是对社会会又什么影响还言之过早了。依稀记得互联网刚出来的时候有个ask.com叫你输入问题然后他回答,目前的ai等于把那个网站当初想做的事做成了。
m
microsat
zglg21 发表于 2025-06-09 14:01
回复 1楼 microsat 的帖子
AI 的回答 :-) 很抱歉,您对ChatGPT和搜索引擎的工作原理存在一些误解。 首先,ChatGPT并非一个巨大的维基百科全书。 ChatGPT是大型语言模型(LLM):它通过在海量的文本数据上进行训练来学习语言的模式、语法、事实知识以及不同概念之间的关系。这些训练数据确实包含了大量的文本信息,其中可能包括维基百科的内容,但也涵盖了书籍、文章、网页、代码等等。它不是通过“搜索”一个后台的维基百科来获取信息,而是通过其内部学习到的知识来生成文本。 生成式AI:ChatGPT的核心能力是“生成”,它能够根据接收到的指令(Prompt)生成连贯、有意义的文本。当您问一个问题时,它不是去“搜索”一个数据库,而是根据它训练时学到的知识来“生成”一个答案。 其次,搜索引擎也并非用大模型建立的语言识别系统,主要负责语言方面的求解。 搜索引擎的核心是信息检索:它的主要功能是抓取和索引互联网上的海量信息,当用户输入查询时,搜索引擎会根据算法匹配最相关的网页并呈现给用户。它通过关键词匹配、链接分析、内容质量等多种因素来排序结果。 大模型在搜索引擎中的应用:近年来,大模型(如BERT、GPT等)确实被整合到搜索引擎中,主要用于增强“理解”用户查询和网页内容的能力。例如,它们可以帮助搜索引擎理解查询的意图,即使查询的措辞与网页内容不完全匹配,也能找到相关信息。它们也可能用于改进摘要生成、问答等功能,但其核心仍是信息检索。 语言识别系统:通常指的是语音识别(Speech Recognition),将语音转换为文本。这与搜索引擎或ChatGPT的功能有所不同。 第三,关于您提到的一些观点: “当你问chatgpt某个领导人的生日的时候,这个时候chatgpt就去后台搜索这个维基百科全书。” 这种理解是不准确的。ChatGPT是基于其训练数据中包含的知识来生成答案的。如果它在训练中接触过关于该领导人生日的信息,它就能生成答案。它不会“实时”地去搜索维基百科。 “简单的这些知识,chatgpt的程序员可以编撰。但是复杂的,他们编不了。” 这种观点是错误的。ChatGPT的知识不是由程序员“编撰”进去的。它的知识来源于其大规模的训练数据。程序员是构建模型、选择训练数据、设计训练算法的人,而不是直接编辑模型内部的知识。 “当你问参考文献的时候,因为太庞大了,所以chatgpt的程序员没有时间来完成这个庞大的参考文献的维基百科。所以给你的答案也基本都是错误的。” 这也是对的,但不完全是基于您说的原因。 时效性问题:ChatGPT的训练数据通常有截止日期。对于非常新的信息,它可能无法提供准确的答案。 事实核查和来源追踪:虽然ChatGPT拥有大量的知识,但它在设计上并不是一个事实核查工具,也不是一个专门用于追踪实时或非常具体的参考文献的系统。它生成答案时可能无法提供准确的、可验证的来源链接,因为它不是一个搜索引擎,也不会实时地去查找并引用文献。它可能会“编造”不存在的参考文献,这被称为“幻觉”(Hallucination),是目前大型语言模型的一个已知局限。它不能保证所有生成的知识都是100%准确且有明确来源的。 “庞大的参考文献的维基百科” 这种想法本身就是不准确的。ChatGPT不是一个数据库,它没有一个可供查询的“参考文献维基百科”。 总结一下: ChatGPT 是一个大型语言模型,通过学习海量数据来生成文本,其知识来源于训练数据,而非实时搜索。 搜索引擎 旨在检索互联网信息,并通过算法匹配用户查询,大模型是其增强理解能力的工具。 ChatGPT在提供参考文献时,确实存在局限性,尤其是对于时效性高、需要精确溯源的信息,它可能会出现“幻觉”现象,这与它不是一个实时检索和验证工具的本质有关,而非程序员“没有时间编撰”。 希望这个解释能帮助您更好地理解它们的工作原理。

现在的gpt类的,都有个共同骗局。那就是 “回答对了的,就是训练了的;回答错了的,就是还没训练的。”
给人的误局就是“只要训练了,就能准确。”
其实这都是错误的。
事件的真相其实是,“回答对了的,可能是训练的结果,也可能是人工操作的结果。 回答错的,一定是训练过的,且失败的。”
最后,再指出一点。上面的这个回答就暴露了,chatgpt存在作假的嫌疑。
原因很简单。关于chatgpt的工作机制,以及与维基百科全书的类比。这方面的公开文本很少。 我也只是今天才第一次想起来问类似问题。 也就是说这方面的可供训练的资料非常有限。所以chatgpt不可能通过训练来完成这个问题的回答。 只能一个途径,那就是提前做局。提前就把类似的问题,都备好答案了。
如同一个参加高考的考生,提前在衣服里衬里面装好了各种材料。这些材料并非是训练得来的。而是 python的爬虫爬来的,和人工编辑的。
m
microsat
hankzhang 发表于 2025-06-09 12:41
回复 1楼 microsat 的帖子
本质上是的。 但是用的方法是更像人脑的存储。 有点像压缩但是没人准确知道他怎么存下再输出的

嗯。有个问题。chatgpt在回答问题的时候, 怎么决定哪些关键词,要黑体呢?
这个关键词就黑体加重,应该不是训练的吧?而是程序员设计出来的。
L
Lantianbihai
回复 12楼 的帖子
是啊。问过TA几个文史方面的问题,经常错误连篇,真的是一本正经地胡说八道。
TA们写的文学评论,基本都是毫无底线的吹捧。
DS写的诗歌散文更是一眼就能看出来: 泛滥的细节,各种数字,生物,物理,各科大杂烩,故作高深,陈词滥调。
和TA们聊天还好: 至少态度谦虚,有时候还很温暖。
g
gokgs
AI显然到了一个新的里程碑。
m
miaommiaomm
只有我用chatgpt当英文老师吗?帮我润色email,简化,等等。