安德烈·卡帕蒂的结论是:我们距离那一天非常非常遥远。这张图只是一组很短的二维颜色数列而已,可是它代表的是人类知识的冰山一角:明白照片的“有意思”,你得知道体重秤是干什么用的,你得知道施加压力能增大体重秤的读数,你得知道为什么这个可以笑,得知道奥巴马是谁,得知道奥巴马是在恶作剧,理解现代人都希望减肥,害怕体重增加。一个还没上小学的孩子都能看明白这张照片,计算机科学家却还不知道怎么样才能让 AI 也懂得人类的这些所谓“常识”,所谓“隐性知识 ”。
像这类常识,我们都知道 —— 或我们不知道我们知道 —— 的知识,究竟有多少条?谁都不知道。有公司曾经搜集到 1500 万条,而据专业人士判断,这还只是最终所需常识总数的 5%。于是人们感叹:教 AI 明白这些常识太困难了。
奥巴马的这张照片很有名,堪称担任美国总统时他搞笑照片的代表作。
2010年8月9日,总统出访行程中,一随行人员在称体重,奥巴马忽然童心大发,右脚从称体重者背后悄悄踩上体重秤。那老兄蒙在鼓里,还在认真读自己体重数字。奥巴马和图中其他人都笑得很开心。
美国的计算机视觉专家安德烈·卡帕蒂(Andrej Karpathy)曾在2012年10月的一篇博客文章中用过这张照片,借以说明一个论点:想让AI能看懂这张照片,非常非常困难。
那是人类信心再度爆棚的时刻,专业人士都连连惊叹:这个局面多么奇妙——生而为人,你都不知道你有多厉害。虽说 AI 是越来越厉害了……而要不是跟 AI 比,人都不知道自己原来有多厉害。
人类的理由是:你用不了一秒钟,就能理解那些人为什么笑。称体重的那位老兄不知道,站在他身后的奥巴马正在用脚压那个体重秤 —— 这样会让他称到一个更重的重量。你能看出来所有人的笑都是友善的。你设想,可能大家觉得这个玩笑很好玩,也可能是大家觉得奥巴马以总统之尊开这个玩笑让这件事儿更有意思。问题是,AI,得发展到什么程度,才能看出来这张照片的“有意思”?
安德烈·卡帕蒂的结论是:我们距离那一天非常非常遥远。这张图只是一组很短的二维颜色数列而已,可是它代表的是人类知识的冰山一角:明白照片的“有意思”,你得知道体重秤是干什么用的,你得知道施加压力能增大体重秤的读数,你得知道为什么这个可以笑,得知道奥巴马是谁,得知道奥巴马是在恶作剧,理解现代人都希望减肥,害怕体重增加。一个还没上小学的孩子都能看明白这张照片,计算机科学家却还不知道怎么样才能让 AI 也懂得人类的这些所谓“常识”,所谓“隐性知识 ”。
像这类常识,我们都知道 —— 或我们不知道我们知道 —— 的知识,究竟有多少条?谁都不知道。有公司曾经搜集到 1500 万条,而据专业人士判断,这还只是最终所需常识总数的 5%。于是人们感叹:教 AI 明白这些常识太困难了。
人们自豪地说,这就是人类常识的有意思之处:日用而不知。你遇到各种情况都知道该怎么办,但你从来没刻意学习过,甚至从来都没想过你知道,但你就是知道。这是人工智能远远不如人的地方,也可能是目前所知人类最重要的特长。
但是,2023 年 3 月 15 日,所有这些感叹就过时了,落空了,不算数了。那天,GPT-4 诞生了,而它,能看懂那张照片。“人类最重要的特长”又消失了一项。
得知 GPT-4 横空出世那天,许多人立即想到卡帕蒂提到的那张关于奥巴马和体重秤的照片,于是纷纷在推特上问卡帕蒂:能不能把那张照片让GPT-4试试?
卡帕蒂马上回帖说:我们已经测试了。它看懂了,把它解出来了。它的视觉能力非常强大,但我仍然不敢相信这是真的。
讲到这里,我忽然想把这张照片给咱们自己的大模型“看看”,看看它是否能看出点意思。我提示说:这张照片很幽默,请告诉我有哪几个幽默点。下面是答复——
嗯,是我用法不当,还是它不堪一用?再试再报。