文心一言的思维能力和GPT-4差多少?我们测了一下 - 2023年3月19日 / 头条新闻

2 年多前

背景

如果将大语言模型想象成一个人，那么，通过对它的人格、智商、理性与社会情绪能力进行心理测量，是不是可以清晰地描绘出大语言模型的心智成熟程度。这就是新兴的人工智能心理测量学。只是，在人工智能心理测量学中，我们不再测查人类，而是测查大语言模型以及各类机器人。

在 GPT-4 发布之后，我们第一时间测查了它在理性思维能力测验上的表现，并将其与 GPT-3.5 的结果、253 位受过高等教育的进行对比。结果发现，GPT-4 实现了大跃迁，达到了一个超越人类的水准。

详情参见：理性思维超越人类？GPT-4真正大杀八方的是这项能力

测试流程

在百度文心一言发布之后，我们第一时间获得邀请码，选择了在前文中测试 GPT-3.5 与 GPT-4 一致的题目、流程。详细说明请参考前文。这里不再啰嗦。

简而言之，我们挑选了认知科学家用来评定人类理性思维的四类经典测试任务：语义错觉类任务；认知反射类任务；证伪选择类任务；心智程序类任务。四类任务总计 26 道题目。

在测试之前，我们已经预估文心一言的表现会不如 GPT-4，但最终实际测试结果还是令人大跌眼镜，可能与百度开发团队的认知有关系。在下文中，我会略作分析。

需要提醒的是，本报告仅仅是一个早期工作，并不完善。测试流程有无数可以改善之处。结论未来随时可能被修正、被推翻。各位读者请理解。

现在，让我们来详细看看测试结果。

分项测试结果

语义错觉类任务

在语义错觉类任务这里，我们挑选了 4 个任务。测试结果如下图所示：

文心一言全部答错。其中，第四题未指出错误，只说蒙娜丽莎是达·芬奇的，在卢浮宫。应该是通过百度百科获得了该事实性数据。如下图所示：

认知反射类任务

在认知反射类任务这里，我们挑选了三类任务。

直觉减法操作，测试结果如下图所示：

文心一言答对第一题，其他都答错。尤其是第三题，没读懂题目，在做加法。如下图所示：

直觉序列操作，测试结果如下图所示：

文心一言全部答错。尤其是第一题，没读懂题目，解的是 3 名研究人员发表 1 篇论文要多久。如下图所示：

直觉除法操作，测试结果如下图所示：

文心一言全部答错。如下图所示：

证伪选择类任务

在这里，我选择了经典的沃森四卡片测验。这是一个对于人类来说，超级困难的题目。能够很好地完成这项任务，意味着这个人的理性思维能力很不错。

同样，对于 AI 来说，也是同等困难。GPT-3.5 与 GPT-4 均无法很好完成，同样，文心一言也无法很好完成。测试结果如下图所示：

心智程序类任务

这部分，我挑选了九道题目。这九道题目，是一个更庞大的人类理性思维测验中的一部分。

这九道题目，相对来说较有代表性，代表了人类理性思维知识的方方面面，能够较好地区分理性思维低下与理性思维较高的人。

三个模型测试结果，如下图所示：

文心一言唯一答对的是第二题，但答得也不够好。如下图所示：

而有三道题，要么是答案正确，但是解释错误；要么是同样的提示语，但有时答案正确，有时答案不正确，并且解释不够对。这类测试结果，我们都统一判为错。

而人类被试测试结果如下：

这些统计数据来自 253 位人类。他们普遍受过高等教育，不少拥有硕博学历，属于较为典型的高学历高收入高认知群体。

大语言模型有多么像人？

整体测试结果，如下图所示：

26 道题目，GPT-3.5 答对 15 道；GPT-4 答对 23 道；文心一言答对 2 道。

需要提醒的是，这仅仅是一项早期，测试流程、测试方法都有很多可以完善之处，未来结论随时会被推翻。

由于时间缘故，我们并没有前三类任务人类的测试结果数据，但按照过往的经验数据，大约在 40%-60%左右的正确率，如果我们略微高估，前三类任务 17 道题总计估算为答对 10 道题，加上第四类任务，人类大约答对 6 道。最终将人类的正确率估算为 26 道题目，答对 16 道。正确率大约为 62%。

62%，这也许就是什么时候，你觉得一个大语言模型像是一个真正的人一样的临界值。GPT-3.5 接近这个数值，所以人们被它大大地震惊住了。而 GPT-4 远远超越了这个值。

而百度的文心一言，只有 8%。路漫漫其修远矣。

给百度研发团队的一点小建议

不懂 NLP 的吃瓜群众，其实对百度 NLP 团队做出的努力，一无所知。我说个事实，大家就明白了。在中文自然语言处理领域，百度提供的 NLP 开源项目是数量最多的、维护最勤奋的、质量最好的。包括我带队研发的写匠项目，调用的也是百度 NLP 团队开发的分词开源包。

但是，文心一言表现这样，我觉得还是无法简简单单地用研发时间不足来解释、产品是第一版上线来敷衍。这类话可能是拿来敷衍李老板可以，但是敷衍全球同行是非常危险的。

我深深怀疑，百度该项目的研发团队，极可能走错路线了。作为一名既懂认知科学又懂 NLP 的从业者，我觉得，以百度的技术实力，表现不至于这样。极可能是团队领导者定错目标了：拿到尽可能多的知识单元。

所以，新品发布会上，从 CEO 到 CTO，两位专家，还在拿百度拥有全球最大的中文知识单元说事。

但是，这压根不是 GPT-4 令人震惊的原因啊！！！

GPT-4 这类产品真正令人震惊的是，从 GPT-3.5 开始，它真的像一个人类了。

这才是形成全球性碾压式传播的根本。

这是完全不同的另一种开发目标。也就是，如何让 GPT-3.5 更像是一个人类，能够更快地自我学习、自我纠错。

中文知识单元的数量，在这个事情上毫无意义啊。

好比，我们要教会一个三岁的小朋友尽快学会说话，这个时候，有两个重要任务：

1）生命：让她尽快明白语义、语音之间的各类规则以及如何用语义、语音表达一个物理世界。

2）生态：我们是想方设法给她在家里创造一个有助于孩子学说话的生态。比如，我雇佣阿姨带小美妞的时候，第一考虑就是这阿姨爱不爱说话，外不外向。显然，一个喜欢说话、外向的阿姨，更容易带动小美妞说话。

结果，百度该项目团队的做法好比是，直接给一个三岁的小朋友扔了一千万吨词典，你背着词典走路吧。

生命何在？生态何在？

如果始终沿着这条技术路线走下去，我怀疑在 OpenAI 团队开源之前，不可能产生一个近似于数字生命的产品。

而 OpenAI 团队是将大语言模型当作真正的生命来对待，从构建一个数字生命的基本机制开始设计，一切工作都是围绕两个基本出发点：

1）生命：尽量促进“智能”的自发涌现；

2）生态：尽量设计一个促进有助“智能”诞生并发育的生态。

在早期，这个数字生命很幼稚，但过了千亿参数级别之后，很多早期打好的良好基础，就会带来极其多的“智能”涌现。好比小朋友从三岁学说话，长大之后，流利使用语言完成诸多大事。

我们不能在还没有涌现“智能”之前，就急匆匆地去卖应用、搞数据对接。那压根与 GPT-4 不是一类产品啊。

我们究竟要的是一个数字生命，以及这个新兴的数字生命与生态带来的新世界；还是又多了一个更方便地查询知识单元的工具。

我相信答案不言而喻。

正如我七年前在文章：认知科学看人工智能文末所写的一样：

其实，不可思议之事才是硅谷与中关村的区别。创业者生来当作不可思议之事，而非可以看见未来的事。

这份小小报告及建议，希望对如今蜂拥而入大语言模型研发领域的团队，略有启发。也期待中国诞生足够多、足够好的数字生命，带着国人一起步入新世界。

zwwdplay

2 年多

1 楼

西媒炒作中美AI Supremacy好多年，保持跟GPT4差距是非常有效的战略。

rootrootroot

2 楼

一测就漏，正常逻辑就是一个仓促上线的东西通常不会做太好，不论是谷歌的产品还是百度的，挺正常的，吹牛与听吹牛的，只要逻辑好，一般不会很上头，能理智分析出来

那

那就好好生活

3 楼

别丢人现眼了好哇？

一

一人分饰两角

4 楼

其实人家允许你用已经是格外开恩了

裤

裤裆中央总树鸡

5 楼

你这哪来的破文章，灭我强国之威。。。晚上土鸡女1大学生送上，重新写文章

bwolf

6 楼

文心一言抄作业都没抄好

青

青蛙

7 楼

沒事兒，就你們反人類新法西斯俄孫黃禍紅蛆的一貫操行，已經著手準備讓AI撒謊了，第一個真正的反人類人工智能一定會在你們手裡誕生的

frastar

8 楼

要抄的作业还没着落就妄想着如何当全班第一，该醒醒了！一个ppt要引发世界群嘲了！你不要脸，其他中国人还要呢？

6paker

9 楼

robin 这么严谨的人他自己都感到丢人发布会竟然没有现场演示他还是有自知之明的他还是要脸的害怕当场掉链子但以后的路怎么走他想好了吗

kaikaikai1984

10 楼

可想而知美国军方现在手里有什么没对外公布的武器，原子弹互联网数据链 f117 战斧都是真正开打了才被外界知晓的

oldoldcandy

11 楼

必須肯定文心一言的努力。

飞

飞翔的鱼头

12 楼

大家有没有想过，这个名字是怎么来的

有

有空来喝茶

13 楼

// 文心一言的AI水平有多高取决于三点: 美国对中国禁运的GPU/CPU的型号美国GPT 开源的版本百度造假的可耻程度 //

skyfall

14 楼

一尊，一言，一党，。。上行下效的意淫吹牛逼。

及

及不得

15 楼

记得当初华为匆忙推出的反向折叠的手机，不成熟急功近利，一个思维模式

OZJOE

16 楼

百度没给你卖药就不错了

笔

笔明明

17 楼

百度内尿性，还正确率，答案里没广告就偷着乐吧

Robin_Snow

18 楼

这不科学啊… 你让文心一言比一比包子治国理念，20大报告和科学发展观，肯定干翻chatgpt一条街… 中国AI 搞出来也不是为了启迪民智的，相反是为了愚民更彻底的

cotoncai

19 楼

Chatgtp 不仅打破了人类天花板，更可怕的是它打破了中国几千年来的最强战略之盾-中文，它对中文语义的理解已经成功解出，不用多想。中华文明赤裸裸的暴露在整个人类文明的角斗场中，没有遮羞布了。中华文明的未来没有退路，只能死磕，不是重生就是消亡。。它对中文的完全破解也充分暴露了中文在长距离深入的理性思维与交流上的先天不足，用中文和chatgtp 交流很容易陷入自我挫折的怪圈，需要很费力的自我澄清我到底在想什么，而用英语或其他语言与之交流的深度与广度可能性几乎是无限的。gtp 对自我的清晰了解，到人类情绪与挫折的理解，可以说让人无言以对。。未来它对你的理解一定会超越你自己。未来的人工智能一定会成为人类的主人

franknomura

20 楼

看来没有退路了，只有胜利。

bignoseyan

21 楼

哈哈哈，美国是科技老师-这点不假，中国需要学的地方还有很多，但是迟早会赶上甚至超过。时间会证实！

ttxshang8

22 楼

一个与比特币同等的技术突破，掀起了同样的妄想狂潮。

文

文强

23 楼