CHATGPT有个阶段需要通过人工标注训练数据(给很多回答结果排名顺序) 做人工标识的是在非洲2刀一小时的工人,他们训练的结果你能100%相信吗 蔺晨 发表于 2023-08-22 16:42
趁这个机会问一下楼上两位,IBM watson assistant 都是 "question answering" robot 为什么没有CHATGPT这么火 蔺晨 发表于 2023-08-22 17:35
语言是思维的工具,这个应该没什么疑问,但语言是不是代表思维本身,也就是脱离了语言就无法思维,这个还是有疑问的
相比算数,人类很擅长语言处理:普通人心算两位数加减法就要停下手边所有工作,意识全部投入才能算对;但说话时往往可以一心二用,甚至有复杂逻辑关系的语句人也可以很容易的理解而不需要像算数那样意识全部投入。从解剖上来看,人脑中负责语言的区域(不止一个)并不在产生意识的前额叶,但却有粗壮的神经桥连接。人类通过语言大大加强了连接,不仅可以通过语言交流经验,而且可以把学过来的经验经过思考加工后形成记忆再传递给别人,或者通过思考和实践改进别人的经验。人的推理实际上是一种似然推理。GPT类的AI在规模达到一个临界点后出现了顿悟/涌现现象,似然推理。这种推理在大多数情况下都是有效的。
过往ML的能力模式是“鹦鹉”能力,所做的是寻找“对应关系”. ChatGPT的意义是对“调用算力、总结信息”最究极的手段,in-context learning能力. 一个中学生要做一道平面几何题,他/她会分析题目,总结各种条件,然后搜索各种可能性,最后完成结论的逻辑链条。解题的本质是一个探索式搜索的过程(包括做辅助线。逻辑链条实际上是一个匹配问题,上一个逻辑命题的结论正好是下一个逻辑命题的条件。按照这个观点来看,GPT做的事和中学生解几何题很像,也是在不停的搜索,寻找各种匹配条件,可以视为有智能的初阶体现。
1. ChatGPT是一个更聪明的智能辅助工具。善加利用,可以大大减少重复性的思维劳动。所有的软件都会自动化。美国医学会杂志(JAMA)内科医学期刊28日刊出的最新研究则呈先出一些有趣的发现。在回答病患网络提问时,ChatGPT得分比真人医师还高。工业领域用语言模型来操纵各种机器人,实现真正的机器换人.再然后是造出真正先进的人型机器人,投入服务业,家庭、医院、学校、政府都会受益。人类基本没活干了,UBI成为必需。AI带来low决策成本
2. ChatGPT的泛化能力不够,对于真正的原创性工作,ChatGPT帮不上忙。
3. 传统的知识获取是通过教学和传承的方式进行的,是一种间接的方式。互联网的兴起,使得人类直接获取知识成为可能。ChatGPT可以使人类直接获取知识变得更加便利,成为一种常规操作,这是一种突破性的进展。
4.思维链(Chain of Thought)、涌现能力(Emergent Ability)和编辑记忆(Editing Memory)等概念一点也不神奇。即使 ”学到”了某种程度的符号推理,我觉得也不神奇,因为我认为数学的符号推理没有那么神奇数学也是人类创造出来的符号语言,和自然语言在本质上没有区别。我们用纯粹的数学符号可以推理,而GSM8k等用自然语言描述的数学题当然也可以用自然语言进行推理。
5.ChatGPT 宁犯语义错误,不犯语法错误. 寻找下一个词的算法才是GBT等LLM的精髓,而语言中的语法规则是最规范的部分,这方面是语言模型成功与否的最基本指标.
6. 真正的互动是互相提问题. 好奇心也是人类的情感之一, AI 是没有的, 很小的婴儿就表现出了好奇心, 而不是审问形式的单方向问答.
7.ChatGPT这种方式不需要google人工构建知识图,通过”阅读”大量的文本,”学习”到一个隐式的知识图谱,然后根据这个隐式的图谱回答问题.ChatGPT并不是真正的”理解”了这些知识。而且更糟糕的是,它不知道自己不知道。
8.一种解决这个问题的方法是给出”证据”,也就是说为什么它这么回答,它是从那个地方”学到”这个知识的。我们人类也是这样证明自己的正确性的.比如别人质疑我们的结果时,我们会找出权威媒体发布的信息
目前的大模型学的都是通过文字记录的人类知识,这当然很有用,但是就像前面说过的,那些基础的关于世界的感知才是最根本的。这些基本的知识无法通过文字学习,而文字里的知识往往是更上层且容易变化的。比如我们想象一下柏拉图的时代,如果有那个时代的百科全书的话,在现在看来,那些知识大部分都是错误的。但是柏拉图关于世界的感受我觉得和我们现代人应该差不多。我相信不会有太多人认为自己比柏拉图聪明,我们虽然”知道”很多知识,但是这些知识不是我们探索出来的,而是继承而来的。如果把柏拉图放到现在,他应该会比我们大部分人更有创造力。 现在有时看着仍在上学的各种年龄的孩子们,有一种彷徨感,真不知道他们成年后的世界里生活工作逻辑会有多大的改变,但肯定的是与我们这代人的逻辑一定有很大的差距,只是福祸未知。
human feedback 的过程有自身的 QA process,虽然是计件工作,但是随机乱标识是不行的。比如同样的题目会给不同人标识;同时也随机采样答案和真题答案比较,经常出错的那工作就不保了
最早的 IBM watson 是基于 statistical learning,GPT这一类是基于 tranformer 的 deep neural net learning
到了gpt 3.5,gpt 4 人们发现大数据量+RLHF,回答质量一下好了很多,就火起来了
谢谢!
就是gpt 3.5的用户一直在训练这个模型,那涌现可能也可能是人脑的涌现,不是机器啊, 可能是GPT对面的大神的灵光乍泄呢?
GPT-4 和 GPT-3.5 内部的模型结构也在变,因为是 close source,外人只能猜,比如一个说法是 GPT-4 用了 MOE(mixture of expert)
似乎这么做后,GPT4变笨了。。。:-p
Altman 提到了 OpenAI 目前严重受到 GPU 数量的限制, 难怪老黄的生意爆好
他这个做的太早了,还是早期的专家系统