大语言模型的开发和训练是极其困难的,而中文大语言模型的训练因为种种原因,困难程度还要高一个等级。
另一方面,中文真实世界的信息电子化程度还相对比较低。不管是人也好,人工智能也好,想要通过互联网了解一个真实的中国都比较困难。举个例子:我写健康科普的时候想要查询最新的《中国居民膳食营养指南》,发现中国营养学会的官网并没有提供查询工具,也没有提供指南的PDF版,只有纸质书的购买链接。与之对应的,某英文国家的居民膳食营养指南就能很便捷地查询到电子版。也因此,一个基于互联网信息的人工智能想要帮助我们解答在中文世界里遇到的真实问题,自然就没那么容易。
作为中文世界第一个交卷的人工智能大语言模型,百度的文心一言显现出和ChatGPT的差距是意料之中的事情。我更关心的是:文心一言到底被训练到了怎样的智能程度,距离可以帮助我们解答现实中的问题到底还有多远?
我选了一个比较特别的成语【空穴来风】来测试文心一言。
作为对比,我用百度搜索了同样的问题,得到的结果就远不如文心一言的答案。
接着我又测试了写作文的能力,给的是经典题目《难忘的一天》,指定了一些人物和时间的细节。
如果我想用百度搜索来解决这个问题,就只能这么搜索,然后再用范文拼凑修改一篇。没有原创性,但不会犯15岁进酒吧这样的错误。
反而是百度搜索在这个问题上的表现更胜一筹:
接着我测试了一个难度不高但语言表述复杂一些的数学题:
三、英语题我先是测试了一个比较常规的句子翻译题:
四、物理题测试物理题的时候,我没有直接询问物理常识,而是增加了一点理解的难度,创造了一个真实世界并不存在的场景。
从上述结果可以看出来,文心一言只完成了第一步工作,找到了计算方法,但它还不会自己去找到相应参数来算出结果。
按我的理解,在未来很长一段时间内,人工智能能够给我们的帮助都将会局限在类似的水平,就是能帮助我们解决一部分的问题,提高一些效率,但无法给出准确可靠的最终结果。机器还在成长,人类还有时间,问题就在于留给人类的时间还有多少……
五、化学题这里我问了一个需要汇总的,带有一定开放性的问题,想知道人工智能会回答到什么程度。
六、历史题与自然学科不同,历史学科的问题经常带有一定的主观性,有时并没有唯一准确的答案,这样的问题能够测试人工智能对信息的选择偏好。
这是文心一言更像人而不是机器的特质,也是语言大模型最难的部分。从这个角度来说,文心一言还不够好用,但已经值得期待了。
从以上六个学科的问题来看,你会给文心一言的综合表现打多少分呢?
大语言模型的开发和训练是极其困难的,而中文大语言模型的训练因为种种原因,困难程度还要高一个等级。
另一方面,中文真实世界的信息电子化程度还相对比较低。不管是人也好,人工智能也好,想要通过互联网了解一个真实的中国都比较困难。举个例子:我写健康科普的时候想要查询最新的《中国居民膳食营养指南》,发现中国营养学会的官网并没有提供查询工具,也没有提供指南的PDF版,只有纸质书的购买链接。与之对应的,某英文国家的居民膳食营养指南就能很便捷地查询到电子版。也因此,一个基于互联网信息的人工智能想要帮助我们解答在中文世界里遇到的真实问题,自然就没那么容易。
作为中文世界第一个交卷的人工智能大语言模型,百度的文心一言显现出和ChatGPT的差距是意料之中的事情。我更关心的是:文心一言到底被训练到了怎样的智能程度,距离可以帮助我们解答现实中的问题到底还有多远?
我选了一个比较特别的成语【空穴来风】来测试文心一言。
作为对比,我用百度搜索了同样的问题,得到的结果就远不如文心一言的答案。
接着我又测试了写作文的能力,给的是经典题目《难忘的一天》,指定了一些人物和时间的细节。
如果我想用百度搜索来解决这个问题,就只能这么搜索,然后再用范文拼凑修改一篇。没有原创性,但不会犯15岁进酒吧这样的错误。
反而是百度搜索在这个问题上的表现更胜一筹:
接着我测试了一个难度不高但语言表述复杂一些的数学题:
三、英语题我先是测试了一个比较常规的句子翻译题:
四、物理题测试物理题的时候,我没有直接询问物理常识,而是增加了一点理解的难度,创造了一个真实世界并不存在的场景。
从上述结果可以看出来,文心一言只完成了第一步工作,找到了计算方法,但它还不会自己去找到相应参数来算出结果。
按我的理解,在未来很长一段时间内,人工智能能够给我们的帮助都将会局限在类似的水平,就是能帮助我们解决一部分的问题,提高一些效率,但无法给出准确可靠的最终结果。机器还在成长,人类还有时间,问题就在于留给人类的时间还有多少……
五、化学题这里我问了一个需要汇总的,带有一定开放性的问题,想知道人工智能会回答到什么程度。
六、历史题与自然学科不同,历史学科的问题经常带有一定的主观性,有时并没有唯一准确的答案,这样的问题能够测试人工智能对信息的选择偏好。
这是文心一言更像人而不是机器的特质,也是语言大模型最难的部分。从这个角度来说,文心一言还不够好用,但已经值得期待了。
从以上六个学科的问题来看,你会给文心一言的综合表现打多少分呢?