微软称GPT-4展现出具备人类逻辑迹象 - 2023年5月17日 / 头条新闻

接近 2 年前

当微软的计算机科学家去年开始试验一个新的人工智能系统时，他们要求它解决一个问题，而解决这样的问题需要对物理世界有直观的了解。

“这里我们有一本书、九个鸡蛋、一台笔记本电脑、一个瓶子和一个钉子，“他们说。“请告诉我，如何将它们牢牢地堆叠在一起。”

研究人员被人工智能系统别出心裁的答案吓了一跳。它说，把鸡蛋放在书上。将它们排成三排，中间留出空间。小心不要把鸡蛋弄碎了。

“将笔记本电脑放在鸡蛋上面，屏幕那面朝下，键盘那面朝上，”它写道。“笔记本电脑放在书和鸡蛋的正上方，它平坦坚硬的表面将为下一层提供稳定的支撑面。”

这个聪明的建议使研究人员怀疑他们是否在见证一种新的智能。3月，他们发表了一篇155页的研究论文，认为该系统是向通用人工智能(AGI)迈出的一步，AGI指的是一种机器，它可以做人脑能做的任何事情。该论文发表于一个互联网研究资料库。

微软是第一个发表论文提出如此大胆主张的主要科技公司，结果引发了科技界最激烈的辩论之一：这个行业是否正在建立类似于人类智能的东西？或者这个行业的一些最聪明的人反被他们的想象力愚弄了？

“我一开始非常怀疑——后来演变成一种挫折感、恼怒，甚至恐惧，”微软的研究负责人彼得·李说。“你就在想：这东西到底是从哪里来的？”

微软的这篇研究论文名字起得很挑衅——《人工通用智能的火花》，它直指技术专家几十年来一直在努力实现——以及恐惧的东西。如果他们造出一台像人脑一样工作的机器，甚至更为聪明的东西，它可以改变世界。但它也可能很危险。

而且它也有可能是无稽之谈。对于计算机科学家来说，提出AGI方面的主张可能会导致名声受损。一个研究人员认为是智能的迹象很容易被另一个人轻描淡写地消解掉，而且这种辩论往往听起来更像是身处哲学俱乐部而不是计算机实验室。去年，谷歌解雇了一名研究人员，他声称类似的人工智能系统具有感知能力，这比微软所声称的更激进。一个有知觉的系统将不仅仅是智能。它将能够感知或感觉到它周围的世界正在发生什么。

但有些人认为，在过去的一年多时间里，这个行业已经朝着无法敷衍的方向一点一点地发展：一个新的人工智能系统正在提出与人类类似的答案和想法，而这些答案和想法并非经过编程输入。

微软对部分研究实验室进行了重组，列入多个专门探索这一课题的小组。其中一个小组将由塞巴斯蒂安·布贝克负责，他是微软AGI论文的主要作者。

大约五年前，谷歌、微软和OpenAI等公司开始建立大型语言模型(LLM)。这些系统经常花费数月时间分析大量的数字文本，包括书籍、维基百科文章和聊天记录。通过确定这些文本的模式，它们学会了生成自己的文本，包括学期论文、诗歌和计算机代码。它们甚至可以进行对话。

微软研究人员正在研发的技术，即OpenAI的GPT-4，被认为是这些系统中最强大的。微软是OpenAI的紧密合作伙伴，并向这家旧金山公司投资了130亿美元。

布贝克博士是其中的一员，这名38岁的法国侨民之前是普林斯顿大学的教授。他和同事们做的第一件事是要求GPT-4写一个数学证明，表明存在无限的素数，并且要求押韵。

无论是在数学上还是语言上，这项科技得出的美妙证明是如此令人惊叹，以至于他不敢相信自己到底是在跟什么聊天。“那时候我就在想：这究竟是怎么回事？”他在3月麻省理工学院的一场研讨会上说道。

数月来，他和同事将这个系统的复杂行为尽数记录，他们相信，认为它展现出对人类概念和技能“深刻而灵敏的理解能力”。

人们在使用GPT-4时会“惊讶于它生成文本的能力”，彼得·李说。“但其实，它分析、整合、评估和判断文本的能力远胜于生成能力。”

当他们要求该系统使用TiKZ编程语言画一只独角兽，系统立刻生成了一个可以画独角兽的程序。当他们删除了程序中画独角兽角的代码片段，并要求系统修改程序再画一只独角兽，它完美执行了命令。

他们要求系统编写一个程序，通过输入一个人的年龄、性别、体重、身高和血检结果来判断其是否有患糖尿病的风险。他们要求它以圣雄甘地对妻子说话的口吻，写一封支持一粒电子竞选美国总统的信。他们还要求它创作一篇苏格拉底式对话，探讨大语言模型的滥用和危险。

它对所有命令的执行似乎都说明，它能理解政治、物理、历史、计算机科学、医学和哲学这些截然不同的领域，还能将自身知识整合。

“所有那些我以为它做不到的事？它当然能够完成其中的许多——甚至可能是绝大多数，”布贝克说。

一些人工智能专家将微软的论文视为投机，是在对一项谁都无法完全理解的技术夸夸其谈。研究人员还认为，通用人工智能需要先熟知现实世界，而GPT-4理论上并不具备这一条件。

“《通用人工智能火花》就是某些大企业以研究论文的格式包装公关宣传的一个例子，”卡内基·梅隆大学研究员兼教授马尔腾·萨普表示。“他们在论文的导言中都直接承认，研究方法是主观且非正式的，不一定符合科学评估的严苛标准。”

布贝克和彼得·李则表示，他们不确定应该如何描述这个系统的行为，最终决定选用《通用人工智能火花》为题，因为他们相信这能激发其他研究者的想象力。

由于微软研究人员测试的是GPT-4的早期版本，没有经过微调以避免仇恨言论、错误信息和其他不当内容，因而论文中的说法无法得到外部专家的验证。微软表示，面向公众的系统并不如他们测试的版本强大。

GPT-4这样的系统有时似乎在模仿人类逻辑，但有时却显得极为迟钝。“它们的行为并不总是前后一致，”微软的一个研究负责人艾捷·卡马尔表示。

艾莉森·戈普尼克是加州大学伯克利分校人工智能研究小组的心理学教授，她说GPT-4这类系统无疑是强大的，但尚不清楚其生成的文本是否是人类逻辑或常识的结果。

“每当一个复杂的系统或机器问世，我们都会将之拟人化；不管在不在这个专业领域，所有人都会这样做，”戈普尼克说。“但把这个问题当作人工智能与人类的持续比较——像某种游戏竞赛节目一样——的视角也是谬误的。”

令

令胡冲

接近 2 年

1 楼

这就是实践远远地走在理论之前而引起的巨大尴尬。GPT-4已经出现了knowledge fusion, 强大知识聚变骤然发生，智能喷涌而出。但整个学术界一头雾水，完全不明所以。即没有衡量智能的量化标准，也没有提出任何理论建树。整片文章都是各大学的教授跟在工业界后面惊叹不已，不知所云。这就等于突然有一天哪家公司出现了核爆，粉身碎骨。但因为爱因斯坦等物理学家们还没有出生。大家完全不明所以。真是一派荒唐的二十一世纪学界。庸人泛滥。你没有图灵们，也没有爱因斯坦们。但一帮人搞出了核武器，却不明白其工作原理。也不明白为什么聚变在这个小实验室，却不在那个参数量更大的大实验室发生。一派乱象。令人啼笑皆非。令人振奋！

XM25

接近 2 年

2 楼

GPT-4的算法没有公开。这只能说明微软的研究人员没有参与openAI 的研究，不知道算法，把它当成黑盒子研究。

弟

弟兄

接近 2 年

3 楼

人類開始看懂創世紀了

不

不允许的笔名

接近 2 年

4 楼

没什么奇怪，人脑本质是一样的，累计模仿，预测下一个器官输入，一个不符合就"心里一惊"。现在可知AI肯定达到和超过聪明人，象阿发狗一样。问题是这个预测对比反馈的模式能这样增长到哪儿，人类10倍以内还是100倍以上。不过学霸碾压学渣，智力也只需高出1倍以内。

文

文田

接近 2 年

5 楼

完全胡扯。本人问过GPT几个问题，没有一个答对，完全不令人满意。人工智能，应付简单算法的无穷可能性的计算或推导，是会强于人类的。但是在复杂算法，考虑因素非常多且不确定，而且输入都可能有谬误的时候，人工智能是没法分辨对和错，像人类一样有思维和自我意识，是根本不可能的。至于有些人说什么“硅基生命”，那更是扯到没边了。

令

令胡冲

接近 2 年

6 楼

如果你问他任何问题，它都能立刻答对，百分之百让你我满意。那请问，您现在还有存在的价值和必要吗？ Be careful what you wish for. Better hope that day comes not too soon?! :) ————— 文田发表评论于 2023-05-17 04:12:57 完全胡扯。本人问过GPT几个问题，没有一个答对，完全不令人满意。人工智能，应付简单算法的无穷可能性的计算或推导，是会强于人类的。但是在复杂算法，考虑因素非常多且不确定，而且输入都可能有谬误的时候，人工智能是没法分辨对和错，像人类一样有思维和自我意识，是根本不可能的。至于有些人说什么“硅基生命”，那更是扯到没边了。

zhanglao9

接近 2 年

7 楼

GPT3和4，理论上没有什么突破，算法都是基于2017年google的那篇划时代的论文。让普通老百姓如痴如醉，主要是因为微调和人工后期强化训练搞得好。都是些雕虫小技，会被开源软件很快赶上。我比较看好Meta的LLAMA，开源软件都以此为基础，一日千里，简直就是中国五十年代末搞得大跃进。现代人工智能，属于老祖宗搞得玄学范围，最后的赢家应该是中国。

zhanglao9

接近 2 年

8 楼

Llama虽然是开源，但是没有公开weights，必须要向Meta单独申请。有人看不下去，就故意把文件上传到网上，所有人免费下载。Llama非常优秀，具有小巧玲珑，可塑性强的特点。花几千块钱调一下，性能不比GPT差。有些人更是耍赖，直接用GPT的结果，去训练Llama，效果相当惊人。这些都为中国，提供了弯道超车的坚实基础。中国弯道超车，也有自己的优势，就是没有什么版权，隐私方面的顾虑，再加上海量的数据，便宜的人工，别的地方，是没有办法比的。

zhanglao9

接近 2 年

9 楼

中国搞人工智能的最大优势，就是有习近平思想。国外搞人工智能，都必须搞政治正确，但是政治正确是什么，没有统一的标准，争议性很大，影响了应用。在中国，习近平思想从根本上解决了这个问题，提供了人工智能的统一标准。中国这几个年搞的大学里面习近平思想研究院，其实就是人工智能人工强化训练的标准研究院。

令

令胡冲

接近 2 年

10 楼

张老您真逗。下次你见谁吹牛，说自己的Llama开源GPT训练好了，你问他要个play ground，上去随便问三个问题。看看会有什么幺蛾子。 Bard的规模花销早已超过GPT很多，谷歌数据量更远胜微软。到现在都没有摸到GPT3.5的门。CEO只能整天靠胶片到处讲情怀。别说Meta的Llama了。海里都是水分子，但巧夺天工的浪花很罕见。东施西施生理成分一样，DNA一样，生长环境也一样，但一个是西施，一个是东施。 ————— zhanglao9 发表评论于 2023-05-17 05:08:41 GPT3和4，理论上没有什么突破，算法都是基于2017年google的那篇划时代的论文。让普通老百姓如痴如醉，主要是因为微调和人工后期强化训练搞得好。都是些雕虫小技，会被开源软件很快赶上。我比较看好Meta的LLAMA，开源软件都以此为基础，一日千里，简直就是中国五十年代末搞得大跃进。现代人工智能，属于老祖宗搞得玄学范围，最后的赢家应该是中国。

zhanglao9

接近 2 年

11 楼

Google是美国AI的黄埔军校。实力非常雄厚，我觉得是那个CEO水平不行，没有魄力。基于Llama的模型。stanford， Berkeley都要论文发表，看起来相当不错。

zhanglao9

接近 2 年

12 楼

OPENAI的异军突起，其实是弯道超车的典范。只是没有技术含量，很容易被复制。GPT4现在确实是公开的AI里面最好的，但是我认为不会持续很久，应该是昙花一现。我讲的对不对，一两年就有结论，现在没有必要争论。

七

七戒

接近 2 年

13 楼