这次的AI大潮是退潮了么？ - 2019年10月16日北美华人网存档

接近 6 年

楼主 (北美华人网)

https://www.yinwang.org/blog-cn/2019/09/14/machine-vs-human

机器与人类视觉能力的差距（1）

本文属于个人观点，跟本人在职公司的立场无关。由于最近 GitHub 服务器在国内访问速度严重变慢，虽然经过大幅度压缩尺寸，文中的图片仍然可能需要比较长时间才能加载。这篇文章揭示了 AI 领域重要的谬误和不实宣传，为了阻止愚昧的蔓延，我鼓励大家转发这篇文章和它的后续，转发时只需要注明作者和出处就行。

很多人以为人工智能就快实现了，往往是因为他们混淆了“识别”和“理解”。现在所谓的“人工智能”都是在做识别：语音识别，图像识别，而真正的智能是需要理解能力的。我们离理解有多远呢？恐怕真正的工作根本就没开始。
很长时间以来，我都在思索理解与识别的差别。理解与识别是很不一样的，却总是被人混为一谈。我深刻的明白理解的重要性，可是我发现很少有其他人知道“理解”是什么。AI 领域因为混淆了识别和理解，一直以来处于混沌之中。
最近因为图像识别等领域有了比较大的进展，人们对 AI 产生了很多科幻似的，盲目的信心，出现了自 1980 年代以来最大的一次“AI 热”。很多人以为 AI 真的要实现了，被各大公司鼓吹的“黑科技”冲昏了头脑，却看不到现有的 AI 方法与人类智能之间的巨大鸿沟。所以下面我想介绍一下我所领悟到的机器和人类在视觉能力方面的差距，希望一些人看到之后，能够再次拥有冷静的头脑。
在之前一篇文章《人工智能的局限性》中，我已经阐述了对自然语言处理领域误区的看法。当时因为对计算机视觉方面了解不多，所以没有包含视觉方面的内容。熟悉了机器视觉的各种做法之后，我想在这篇文章里详述一下视觉方面的内容。这两篇文章加在一起，可以说概括了我对 AI 语言和视觉两个方面的领悟。 “图像识别”和“视觉理解”的差别

对于视觉，AI 领域混淆了“图像识别”和“视觉理解”。现在热门的所谓 “AI” 都是“图像识别”，而动物的视觉系统具有强大的“视觉理解”。视觉理解和图像识别有着本质的不同。
深度学习视觉模型（CNN一类的）只是从大量数据拟合出从“像素=>名字”的函数。它也许能从一堆像素猜出图中物体的“名字”，但它却不知道那个物体“是什么”，无法对物体进行操作。注意我是特意使用了“猜”这个字，因为它真的是在猜，而不像人一样准确的知道。
“图像识别”跟“语音识别”处于同样的级别，停留在语法（字面）层面，而没有接触到“语义”。语音识别是“语音=>文字”的转换，而图像识别则是“图像=>文字”的转换。两者都输出文字，而“文字”跟“理解”处于两个不同的层面。文字是表面的符号，你得理解了它才会有意义。
怎样才算是“理解了物体”呢？至少，你得知道它是什么形状的，有哪些组成部分，各部分的位置和边界在哪里，大概是什么材料做成的，有什么性质。这样你才能有效的对它采取行动，达到需要的效果。否则这个物体只是一个方框上面加个标签，不能精确地进行判断和操作。

想想面对各种日常事物的时候，你的脑子里出现的是它们的名字吗？比如你拿起刀准备切水果，旁边没有人跟你说话，你的脑子里出现了“刀”这个字吗？一般是没有的。你的脑子里出现的不是名字，而是“常识”。常识不是文字，而是一种抽象而具体的数据。
你知道这是一把刀，可是你的头脑提取的不是“刀”这个字，而是刀“是什么”。你的视觉系统告诉你它的结构是什么样的。你知道它是金属做的，你看到刀尖，刀刃，刀把，它也许是折叠的。经验告诉你，刀刃是锋利的可以切东西的部分，碰到可能会受伤，刀把是可以拿的地方。如果刀是折起来的，你得先把它翻开，那么你从哪一头动手才能把它翻开，它的轴在哪里？
你顺利拿起刀，开始切水果。可是你的头脑里仍然没有出现“刀”这个字，也没有“刀刃”，“刀把”之类的词。在切水果的同时，你大脑的“语言中心”可能在哼一首最近喜欢的歌词，它跟刀没有任何关系。语言只是与其他人沟通的时候需要的工具，自己做事的时候我们并不需要语言。完成切水果的动作，你需要的是由视觉产生的对物体结构的理解，而不是语言。
你不需要知道一个物品叫什么名字就能正确使用它。同样的，光是知道一个物品的名字，并不能帮助你使用它。看到一个物体，如果脑子里首先出现的是它的名字，那么你肯定是很愚钝的人，无法料理自己的生活。现在的“机器视觉”基本就是那样的。机器也许能得出图片上物体的名字，却不知道它是什么，无法操作它。
试想一下，一个不能理解物体结构的机器人，它只会使用图像识别技术，在你的头上识别出一个个的区域，标注为“额头”，“头发”，“耳朵”…… 你敢让它给你理发吗？
这就是我所谓的“视觉理解”与“图像识别”的差别。你会意识到，这种差别是巨大的。
视觉识别不能缺少理解

如果我们降低标准，只要求识别出物体的名字，那么以像素为基础的图像识别，比如卷积神经网络（CNN），也是没法像人一样准确识别物体的。人识别物体并不是像神经网络那样的“拍照，识别”两节拍动作，而是一个动态的，连续的过程：观察，理解，观察，理解，观察，理解……
感官接受信息，中间穿插着理解，理解反过来又控制着观察的方向和顺序。理解穿插在了识别物体的过程中，“观察/理解”成为不可分割的整体。人看到物体的一部分，理解了那是什么，然后继续观察它周围是什么，反复这个过程，最后才判断出物体是什么。机器在识别的过程中没有理解的成分存在，这就是为什么机器在图像识别能力上无法与人类匹敌。
这个“观察/理解”的过程发生的如此之快，眨眼间就完成了，以至于很多人都没察觉到其中“理解成分”的存在。所以我们现在放慢这个过程，来一个慢镜头特写，看看到底发生了什么。假设你从来没见过下面这个东西，你知道它是什么吗？

一个从没见过这东西的人，也会知道这是个“车”。为什么呢？因为它有轮子。为什么你知道那是轮子呢？仔细一想，因为它是圆的，中间有轴，所以好像能在地面上滚动。为什么你知道那是“轴”呢？我就不继续折腾你了，自己想一下吧。所有这些分析都是“视觉理解”所产生的，而这些理解依赖于你一生积累的经验，也就是我所谓的“常识”。
其实为了识别这个东西，你并不需要分析这么多。你之所以做这些分析，是因为另一个人问你“你怎么知道的？” 人识别物体靠的是所谓“直觉”。一看到这个图片，你的脑子里自然产生了一个 3D 模型。一瞬间之后，你意识到这个模型符合“车”的机械运动原理，因为你以前看见过汽车，火车，拖拉机…… 你的脑子里浮现出这东西可能的运动镜头，你仿佛看到它随着轮子在动。你甚至看到其中一个轮子压到岩石，随着连杆抬了起来，而整个车仍然保持平衡，没有反倒，所以这车也许能对付崎岖的野外环境。
这里有一个容易忽视的要点，那就是轮子的轴必须和车体连在一起。如果轮子跟车体没有连接，或者位置不对，看起来无法带着车体一起运动，人都是知道的。这种轮轴与车身的连接关系，属于一种叫“拓扑”（topology）的概念。
拓扑学是一门难度挺高的数学分支，但人似乎天生就理解某些浅显的拓扑概念。实际上似乎高等动物都或多或少理解一些拓扑概念，它们一看就知道哪些东西是连在一起的，哪些是分开的。捕猎的动物都知道，猎物的尾巴是跟它们身体连在一起的，所以咬住它们的尾巴就能抓住它们。
拓扑学还有一个重要的概念，那就是“洞”。聪明一点的动物基本上都理解“洞”的概念。很显然老鼠，兔子等穴居动物必须理解洞是什么。它们的天敌，猫科动物等，也理解洞是什么。如果我拿一个纸箱给我的猫玩，我在上面挖一个洞，等他钻进去，他是不会进去的。我必须在上面挖两个洞，他才会进去。为什么呢？因为他知道，要是箱子上面只有一个洞，要是他进去之后洞被堵上，他就出不来了！
机器如何才能理解洞这个概念呢？它如何理解“连续”？
总之，人看到物体，他看到的是一个 3D 模型，他理解其中的拓扑关系和几何性质，所以一个人遇到前所未见的物体，他也能知道它大概是什么，推断出如何使用它。理解使得人可以非常准确地识别物体。没有理解能力的机器是做不到这一点的。
人的视觉系统与机器的差别

人的眼睛与摄像头有着本质的差异。眼睛的视网膜中央非常小的一块区域叫做“fovea”，里面有密度非常高的感光细胞，而其它部分感光细胞少很多，是模糊的。可是眼睛是会转动的，它被脑神经控制，敏捷地跟踪着感兴趣的部分：线条，平面，立体结构…… 人的视觉系统能够精确地理解物体的形状，理解拓扑，而且这些都是 3D 的。人脑看到的不是像素，而是一个 3D 拓扑模型。
眼睛观察的顺序，不是一行一行从上往下把每个“像素”都记下来，做成 6000x4000 像素的图片，而是聚焦在重点上。它可以沿着直线，也可以沿着弧线观察，可以转着圈，也可以跳来跳去的。人脑通过自己的理解能力，控制着眼睛的运动，让它去观察所需要的重点。由于视网膜中央分辨率极高，所以人脑可以得到精度非常高的信息。然而由于不是每个地方都看的那么仔细，所以眼睛采集的信息量可能不大，人脑需要处理的信息也不会很多。
人的视觉系统能理解点，线，面的概念，理解物体的表面是连续的还是有洞，是凹陷的还是凸起的，分得清里和外，远和近，上下左右…… 他能理解物体的表面是什么质地，如果用手去拿会有什么样的反应。他能想象出物体的背面大概是什么样子，他能在头脑中旋转或者扭曲物体的模型。如果物体中间有缺损，他甚至能猜出那位置之前什么样子。
人的视觉系统比摄像头有趣的多。很多人都看过“光学幻觉”（optical illusion）的图片，它们从一个角度揭示了人的视觉系统背后在做什么。比如下图本来是一个静态的图片，可是你会感觉有很多暗点在白线的交叉处，但如果你仔细看某一个交叉处，暗点却又不见了。这个幻觉很经典，被叫做 Herman grid，在神经科学界被广泛研究。稍后我还会提到这个东西。

本来是静态图片，你却感觉它在转。

本来上下两块东西是一样的颜色，可是看起来下面的颜色却要浅一些。如果你用手指挡住中间的高亮部分，就会发现上下两块的颜色其实是一样的。

另一个类似的幻觉，是著名的“Abelson 棋盘幻觉”。图中 A 和 B 两个棋盘格子的颜色是一样的，你却觉得 A 是黑色，而 B 是白色。不信的话你可以用软件把这两块格子从图片上切下来，挨在一起对比一下。如果你好奇这是为什么，可以参考这篇文章。

在下图里，你会觉得看见了一个黑色的倒三角形，可是其实它并不存在。

很多的光学幻觉都说明人的视觉系统不是简单的摄像头一样的东西，它具有某些特殊功能。这些特殊功能和机制导致了这些幻觉。这使得人类视觉不同于机器，使得人能够提取出物体的结构信息，而不是只看到像素。
提取物体的拓扑结构特征，这就是为什么人可以理解抽象画，漫画，玩具。虽然世界上没有猫和老鼠长那个样子，一个从来没看过《猫和老鼠》动画片的小孩，却知道这是一只猫和一只老鼠，后面有个房子。你试试让一个没有拿《猫和老鼠》剧照训练过的深度学习模型来识别这幅图？

更加抽象的玩具，人也能识别出它们是哪些人物。头和四肢都变成了方的，居然还是觉得很“像”。你不觉得这很神奇吗？

人脑理解“拓扑”的概念，这使得人能够不受具体像素干扰而正确处理各种物体。对拓扑结构的理解使得人对物体的识别非常准确，甚至可以在信息不完整，模糊，扭曲的情况下工作，在恶劣的天气环境下，有反光，有影子的情况下也能识别物体。
说到反光，你有想过机器要如何才能识别出场景里有一面镜子或者玻璃吗？如果场景中有反光的物体，比如镜子，平静的水面，镀铬的物品，神经网络（CNN）那种依靠像素滤镜训练出来的函数还会有用吗？要知道它们看到的像素，可能有一大片是通过镜面反射形成的，所以无法通过局部的纹理识别出这种情况来。

这是个现实的问题。自动车或者机器人要如何知道前面的路面上有积水或者结冰了？它们要如何知道从水面反射过来的镜像不是真实的物体？比如，它们如何知道下图里路面上的倒影不是真正的树呢？要知道，倒影的像素纹理，跟真实的场景可能是非常相似的。

人是通过对光的理解，各种常识来识别镜子，玻璃，地上的水和冰的存在。一个不理解光和水的性质的机器，它能察觉这些东西的存在吗？靠像素分析能知道这些？要知道，这些东西在某些地方出现，可以是致命的危险。
很有趣的事情，理解光线的反射和折射，似乎已经固化到了每个动物的视觉系统里面。我观察到这一点，是因为我的卧室和客厅之间的橱柜门上有两面大镜子。我的猫在卧室里，能够从镜子里看见我在客厅拿着逗猫绳。他冲过来的时候却不会撞到镜子上面，而是出了卧室门立马转一个角度，冲向我的方向。我每次看到他敏捷的动作都会思考，他是如何知道镜子的存在呢？他是如何知道镜子里的猫就是他自己，而不是另一只猫？

人脑会构造事物的 3D 模型说了光，再来说影吧。画过素描的人都知道，开头勾勒出的轮廓是没有立体感的，然后你往恰当的位置加一些阴影，就有了立体感。所以动物的视觉系统里存在对影子的分析处理，而且这种功能我们似乎从来没需要学习，生下来就有。“立体视觉”是如此强烈的固化到了我们的头脑里，一旦产生了立体感，你就很难再看见平面的像素。

靠着光和影的组合，人和动物能得到很多信息。比如上图，我们不但看得出这是一个立体的鸡蛋，而且能推断出鸡蛋下面是一个平面，可能是一张桌子，因为有阴影投在了上面。
神经网络知道什么是影子吗？它如何知道影子不是实际存在的物体呢？它能从影子得到有用的信息吗？
神经网络根本不知道影子是什么。早就有人发现，Tesla 基于图像识别的 Autopilot 系统会被阴影所迷惑，以为路面上的树影是一个障碍物，试图避开它，却差点撞上迎面来的车。我在很早的一篇文章已经谈过这个问题。
再来一个关于绘画的话题。学画的初期，很多人都发现画“透视”特别困难。所谓透视就是“近大远小”。本来房子的几堵墙都是长方形，是一样高的，可是你得把远的那一边画短一些，而且相关部分的比例都要画对，就像照片上那样，所以墙就成了梯形的。房顶，窗户等，也全都得做相应的调整。你得这样画，看画的人才会感觉是对的，不然就会感觉哪里不对劲，不真实。

这件事真的很难，大部分人（包括我）一辈子都没学会画透视。虽然拿起笔来量一下，我确实看到远的那一边要短一些，可是我的脑子似乎会“自动纠错”，让我认为它们都是一样长的。所以要是光靠眼睛徒手作画，我会把那些边都画成一样长。我似乎永远学不会画画！画透视是如此困难的事情，以至于 16 世纪的德国画家https://en.wikipedia.org/wiki/Albrecht_D%C3%BCrer">(https://en.wikipedia.org/wiki/Albrecht_D%C3%BCrer)]丢勒为此设计了一种专门的设备。

你可能没有想到，这个使得我们学画困难的罪魁祸首，其实是人类视觉系统的一项重要功能，它帮助我们理解身边的环境。虽然眼睛看到的物体是近大远小，可是人脑会自动调整它们在你“头脑里的长度”，所以你知道它们是一样长的。
这也许就是为什么人能从近大远小的光学成像还原出正确的 3D 模型。在你头脑中的模型里面，房子的几堵墙是一样高的，就像它们在现实中的情况一样。有了准确的 3D 模型，人才能正确地控制自己在房子周围的运动。
这种导致我们学画困难的“3D 自动纠错”功能，似乎固化到了每个人，每个高等动物的视觉系统里。我们并不需要学习就有这种能力，它一直都在起作用。反倒是我们要想“关掉”这个功能的时候，需要付出非常多的努力！
为什么人想要画出透视效果那么困难呢？因为一般人画画，都不是在画他们头上那两只眼睛看到的东西，而是在画他们的“心之眼”（mind’s eye）看到的东西——他们头脑中的那个 3D 模型。这个 3D 模型是跟现实“同构”的，模型里房子的墙壁都是一样高的，他们画出来也是一样高的，所以就画错了。只有经过专业训练的画家，才有能力关闭“心之眼”，直接画出眼睛看到的东西。
我猜想，每一种高等动物的视觉系统都有类似的机制，使得它们从光学成像“重构”出与现实同构的 3D 模型。缺乏 3D 建模能力的机器，是无法准确理解看到的物体的。
现在很多自动驾驶车用激光雷达构造 3D 模型，可是相对于人类视觉形成的模型，真是太粗糙了。激光雷达靠主动发射激光，产生一个扫描后的“点云”，分辨率很低，只能形成一个粗糙的 3D 轮廓，无法识别物体，也无法理解它的结构。我们应该好好思考一下，为什么人仅靠被动接收光线就能构造出如此精密的 3D 模型，理解物体的结构，而且能精确地控制自己的动作来操作这些物体。
现在的深度学习模型都是基于像素的，没有抽象能力，不能构造 3D 拓扑模型，甚至连位置关系都分不清楚。缺乏人类视觉系统的这种“结构理解”能力，可能就是为什么深度学习模型需要那么多的数据，那么多的计算，才勉强能得出物体的名字。而小孩子识别物体根本不需要那么多数据和计算，看一两次就知道这东西是什么了。
人脑提取了物体的要素，所以很多信息都可以忽略了，所以人需要处理的数据量，可能比深度学习模型小很多。深度学习领域盲目地强调提高算力，制造出越来越大规模的计算芯片，GPU，TPU…… 可是大家想过人脑到底有多大计算能力吗？它可能并不需要很多计算。
从上面的各种现象，我们也许已经看明白了，人类视觉系统是很神奇的。现有的机器视觉研究并没有理解人类视觉的这些能力是怎么实现的。在接下来的续集中我们会详细的看清楚，AI 领域到底理解多少人类神经系统的构造。

子

子非渔

接近 6 年

2 楼

https://www.yinwang.org/blog-cn/2019/09/15/machine-vs-human-2

机器与人类视觉能力的差距（2）
这是这个系列文章的第二集，在这一集中，我想详细分析一下 AI 领域到底理解多少人类神经系统的构造。
神经网络为什么容易被欺骗

“神经网络”与人类神经系统的关系是是很肤浅的。等你理解了所谓“神经网络”，就会明白它跟神经系统几乎没有一点关系。“神经网络”只是一个误导性质的 marketing 名词，它出现的目的只是为了让外行产生不明觉厉的效果，以为它跟人类神经系统有相似之处，从而对所谓的“人工智能”信以为真。
其实所谓“神经网络”应该被叫做“可求导编程”。说穿了，所谓“神经网络”，“机器学习”，“深度学习”，就是利用微积分，梯度下降法，用大量数据拟合出一个函数，所以它只能做拟合函数能做的那些事情。
用了千万张图片和几个星期的计算，拟合出来的函数也不是那么可靠。人们已经发现用一些办法生成奇怪的图片，能让最先进的深度神经网络输出完全错误的结果。

（图片来源：http://www.evolvingai.org/fooling）神经网络为什么会有这种缺陷呢？因为它只是拟合了一个“像素=>名字”的函数。这函数碰巧能区分训练集里的图片，却不能抓住物体的结构和本质。它只是像素级别的拟合，所以这里面有很多空子可以钻。
深度神经网络经常因为一些像素，颜色，纹理匹配了物体的一部分，就认为图片上有这个物体。它无法像人类一样理解物体的结构和拓扑关系，所以才会被像素级别的肤浅假象所欺骗。
比如下面两个奇怪的图片，被认为是一个菠萝蜜和一个遥控器，仅仅因为它们中间出现了相似的纹理。

另外，神经网络还无法区分位置关系，所以它会把一些位置错乱的图片也识别成某种物体。比如下面这个，被认为是一张人脸，却没发现五官都错位了。

神经网络为什么会犯这种错误呢？因为它的目标只是把训练集里的图片正确分类，提高“识别率”。至于怎么分类，它可以是毫无原则的，它完全不理解物体的结构。它并没有看到“叶子”，“果皮”，“方盒子”，“按钮”，它看到的只是一堆像素纹理。因为训练集里面的图片，出现了类似纹理的都被标记为“菠萝蜜”和“遥控器”，没有出现这纹理的都被标记为其它物品。所以神经网络找到了区分它们的“分界点”，认为看到这样的纹理，就一定是菠萝蜜和遥控器。
我试图从神经网络的本质，从统计学来解释这个问题。神经网络其实是拟合一个函数，试图把标签不同的样本分开。拟合出来的函数试图接近一个“真实分界线”。所谓“真实分界线”，是一个完全不会错的函数，也就是“现实”。
数据量小的时候，函数特别粗糙。数据量大了，就逐渐逼近真实分界线。但不管数据量如何大，它都不可能得到完全准确的“解析解”，不可能正好抓住“现实”。

除非现实函数特别简单，运气特别好，否则用数据拟合出来的函数，都会有很多小“缝隙”。以上的像素攻击方法，就是找到真实分界线附近，“缝隙”里面的样本，它们正好让拟合函数出现分类错误。
人的视觉系统是完全不同的，人直接就看到了事物是什么，看到了“解析解”，看到了“现实”，而没有那个用数据逼近的过程，所以除非他累得头脑发麻或者喝了酒，你几乎不可能让他判断错误。
退一步来看，图像识别所谓的“正确分类”都是人定义的。是人给了那些东西名字，是许多人一起标注了训练用的图片。所以这里所谓的“解析解”，“现实”，全都是人定义的。一定是某人看到了某个事物，他理解了它的结构和性质，然后给了它一个名字。所以别的人也可以通过理解同一个事物的结构，来知道它是什么。
神经网络不能看到事物的结构，所以它们也就难以得到精确的分类，所以机器在图像识别方面是几乎不可能超越人类的。现在所谓的“超人类视觉”的深度学习模型，大部分都是欺骗和愚弄大众。使用没有普遍性的数据集，使用不公平的准确率标准来对比，所以才显得机器好像比人还厉害了。这是一个严重的问题，在后面我会详细分析。
神经网络训练很像应试教育

神经网络就像应试教育训练出来的学生，他们的目标函数是“考高分”，为此他们不择手段。等毕业工作遇到现实的问题，他们就傻眼了，发现自己没学会什么东西。因为他们学习的时候只是在训练自己“从 ABCD 里区分出正确答案”。等到现实中没有 ABCD 的时候，他们就不知道怎么办了。
深度学习训练出来的那些“参数”是不可解释的，因为它们存在的目的只是把数据拟合出来，把不同种类的图片分离开，而没有什么意义。AI 人士喜欢给这种“不可解释性”找借口，甚至有人说：“神经网络学到的数据虽然不可解释，但它却出人意料的有效。这些学习得到的模型参数，其实就是知识！”
这些模型真的那么有效吗？那为什么能够被如此离谱的图片所欺骗呢？说“那就是知识”，这说法简直荒谬至极，严重玷污了“知识”这个词的意义。这些“学习”得到的参数根本就不是本质的东西，不是知识，真的就是一堆毫无道理可言的数字，只为了降低“误差”，能够把特征空间的图片区分开来，所以神经网络才能被这样钻空子。
说这些参数是知识，就像在说考试猜答案的技巧是知识一样可笑。“另外几套题的第十题都是 B，所以这套题的第十题也选 B”…… 深度学习拟合函数，就像拿历年高考题和它们的答案来拟合函数一样，想要不上课，不理解科目知识就做出答案来。有些时候它确实可以蒙对答案，但遇到前所未见的题目，或者题目被换了一下顺序，就傻眼了。
人为什么可以不受这种欺骗呢？因为人提取了高级的拓扑结构，不是瞎蒙的，所以人的判断不受像素的影响。因为提取了结构信息，人的观察是具有可解释性的。如果你问一个小孩，为什么你说这是一只猫而不是一只狗呢？她会告诉你：“因为它的耳朵是这样的，它的牙是那样的，它走路的姿势是那样的，它常常磨爪子，它用舌头舔自己……”
做个实验好了，你可以问问你家孩子这是猫还是狗。如果是猫，为什么他们认为这是一只猫而不是一只狗？

神经网络看到一堆像素，很多层处理之后也不知道是什么结构，分不清“眼睛”，“耳朵”和“嘴”，更不要说“走路”之类的动态概念了，所以它也就无法告诉你它认为这是猫的原因了。拟合的函数碰巧把这归成了猫，如果你要追究原因，很可能是肤浅的：图片上有一块像素匹配了图片库里某只猫的毛色纹理。
有一些研究者把深度神经网络的各层参数拆出来，找到它们对应的图片中的像素和纹理，以此来证明神经网络里的参数是有意义的。咋一看好像有点道理，原来“学习”就能得到这么多好像设计过的滤镜啊！可是仔细一看，里面其实没有多少有意义的内容，因为它们学到的参数只是能把那些图片类别分离开。
所以人的视觉系统很可能是跟深度神经网络原理完全不同的，或者只有最低级的部分有相似之处。
“神经网络”与人类神经元的关系是肤浅的

为什么 AI 人士总是认为视觉系统的高级功能都能通过“学习”得到呢？非常可能的事情是，人和动物视觉系统的“结构理解”，“3D建模”功能不是学来的，而是早就固化在基因里了。想一想你生下来之后，有任何时候看到世界是平面的，毫无关联的像素吗？
所以我觉得，人和动物生下来就跟现有的机器不一样，结构理解所需的硬件在胚胎里就已经有了，只等发育和激活。人是有学习能力，可是人的学习是建立在结构理解之上，而不是无结构的像素。另外人的“学习”很可能处于比较高的层面，而不是神经元那么“底层”的。人的神经系统里面并没有机器学习那种 back-propagation。
纵使你有再多的数据，再多的计算力，你能超越为期几十亿年的，地球规模的自然进化和选择吗？与其自己去“训练”或者“学习”，不如直接从人身上抄过来！但问题是，我们真的知道人的视觉系统是如何工作的吗？
神经科学家们其实并没有完全搞明白人类视觉系统是如何工作的。就像所有的生物学领域一样，人们的理解仍然是很粗浅的。神经网络与人类视觉系统的关系是肤浅的。每当你质疑神经网络与人类视觉系统的关系，AI 研究者就会抬出 Hubel & Wiesel 在 1959 年拿猫做的那个

实验

：“有人已经证明了人类视觉系统就是那样工作的！” 如此的自信，不容置疑的样子。
我问你啊，如果我们在 1959 年就已经知道人类视觉系统的工作原理细节，为什么现在还各种模型改来改去，训练来训练去呢？直接模仿过来不就行了？所以这些人的说法是自相矛盾的。
你想过没有，为什么到了 2019 年，AI 人士还拿一个 60 年前的实验来说明问题？这 60 年来就没有新的发现了吗？而且从 H&W 的实验你可以看出来，它只说明了猫的视觉神经有什么样的底层功能（能够做“线检测”），却没有说那就是全部的构造，没说上层的功能都是那样够构造的。
H&W 的实验只发现了最底层的“线检测”，却没有揭示这些底层神经元的信号到了上层是如何组合在一起的。“线检测”是图像处理的基础操作。一个能够识别拓扑结构的动物视觉系统，理所当然应该能做“线检测”，但它应该不止有这种低级功能。
视觉系统应该还有更高级的结构，H&W 的实验并没能回答这个问题，它仍然是一个黑盒子。AI 研究者们却拿着 H&W 的结果大做文章，自信满满的声称已经破解了动物视觉系统的一切奥秘。
那些说“我们已经完全搞明白了人类视觉是如何工作”的 AI 人士，应该来看看这个 2005 年的分析 Herman grid 幻觉现象的。这些研究来自 Schiller Lab，MIT 的脑科学和认知科学实验室。通过一系列对 Herman grid 幻觉图案的改动实验，他们发现长久以来（从 1960 年代开始）对产生这种现象的理解是错误的：那些暗点不是来自视网膜的“边沿强化”功能。他们猜想，这是来自大脑的 V1 视觉皮层的 S1 “方向选择”细胞。接着，另一篇 2008 年的又说，Schiller 的结果是不对的，这种幻觉跟那些线条是直的有关系，因为你如果把那些白线弄弯，幻觉就消失了。然后他们提出了他们自己的，新的“猜想”。

从这种研究的方式我们可以看出，即使是 MIT 这样高级的研究所，对视觉系统的研究还处于“猜”的阶段，把人脑作为黑盒子，拿一些图片来做“行为”级别的实验。他们并没有完全破解视觉系统，看到它的“线路”和“算法”具体如何工作，而是给它一些输入，测试它的输出。这就是“黑盒子”实验法。以至于很多关于人类视觉的理论都不是切实而确定的，很可能是错误的猜想。
脑科学发展到今天也还是如此，AI 领域相对于脑科学的研究方式，又要低一个级别。2019 年了，仍然抬出神经科学家 1959 年的结果来说事。闭门造车，对人家的最新成果一点都不关心。现在的深度神经网络模型基本是瞎蒙出来的。把一堆像素操作叠在一起，然后对大量数据进行“训练”，以为这样就能得到所有的视觉功能。
动物视觉系统里面真有“反向传导”（back-propagation）这东西吗？H&W 的实验里面并没有发现 back-propagation。实际上神经科学家们至今也没有发现神经系统里面有 back-propagation，因为神经元的信号传递机制不能进行“反向”的通信。很多神经科学家的结论是，人脑里面进行 back-propagation 不大可能。
所以神经网络的各种做法恐怕没有受到 H&W 实验的多大启发。只是靠这么一个肤浅的相似之处来显得自己接近了“人类神经系统”。现在的所谓“神经网络”，其实只是一个普通的数学函数的表达式，里面唯一起作用的东西其实是微积分，所谓 back-propagation，就是微积分的求导操作。神经网络的“训练”，就是反复求导数，用梯度下降方法进行误差最小化，拟合一个函数。这一切都跟神经元的工作原理没什么关系，完全就是数学。
为了消除无知带来的困惑，你可以像我一样，自己去了解一下人类神经系统的工作原理。我推荐你看看这个叫《

Interactive Biology

》的 YouTube 视频系列。你可以从中轻松地理解人类神经系统一些细节：神经元的工作原理，视觉系统的原理，眼睛，视网膜的结构，听觉系统的工作原理，等等。神经学家们对此研究到了如此细节的地步，神经传导信息过程的每一个细节都展示了出来。

AI 研究者并不知道人脑如何工作 AI 领域真的理解人脑如何工作吗？你可以参考一下这个演讲：”

Can the brain do back-propagation?

” （人脑能做 back-propagation 吗？）。演讲人是深度学习的鼻祖级人物 Geoffrey Hinton。他和其它两位研究者（Yoshua Bengio 和 Yann LeCun），因为对深度学习做出的贡献，获得了 2018 年的图灵奖。演讲一开头 Hinton 说，神经科学家们说人脑做 back-propagation 是不可能的，然后他开始证明这是可能的，依据神经元的工作原理，back-propagation 如何能用人脑神经元来实现。
是的，如果你有能力让人脑按你的“算法”工作的话，神经元组成的系统也许真能做 back-propagation，可是人脑是你设计的吗？很可惜我们无法改变人脑，而只能去“发现”它到底是如何工作。这不是人脑“能不能”的问题，而是“做不做”的问题。研究人脑是一个科学发现工作，而不是一个工程设计工作。
看了这个演讲，我觉得 AI 人士已经进入了一种“上了天”的状态。他们坚定的认为自己的模型（所谓的“神经网络”）就是终极答案，甚至试图把人脑也塞进这个模型，设想人脑神经元如何能实现他们所谓的“神经网络”。可是他们没有发现，人脑的方式也许比他们的做法巧妙很多，根本跟他们的“神经网络”不一样。
从这个视频我们也可以看出，神经科学界并不支持 AI 领域的说法。AI 领域是自己在那里瞎猜。视频下面有一条评论我很欣赏，他用讽刺的口气说：“Geoff Hinton 确切地知道人脑是如何工作的，因为这是他第 52 次发现人脑工作的新方式。”

AI 人的盲目信仰 AI 人士似乎总是有一种不切实际的“信仰”或者“信念”，他们坚信机器一定可以具有人类一样的智能，总有一天能够在所有方面战胜人类。总是显示出一副“人类没什么了不起”的心态，张口闭口拿“人类”说事，好像他们自己是另外一个物种，已经知道人类的一切能力，有资格评判所有人的智力似的。
我不知道是什么导致了这种“AI 宗教”。有句话说得好：“我所有的自负都来自我的自卑，所有的英雄气概都来自于我内心的软弱，所有的振振有词都因为心中满是怀疑。” 似乎是某种隐藏很深的自卑和怨恨，导致了他们如此的坚定和自负。一定要搞出个超越所有人的机器才善罢甘休，却没发现人类智能的博大精深已经从日常生活的各种不起眼的小事透露出来。
他们似乎看不到世界上有各种各样，五花八门的人类活动，每一种都显示出奇迹般的智能。连端茶倒水这么简单的事情，都包含了机器望尘莫及的智能，更不要说各种体育运动，音乐演奏，各种研究和创造活动了。就连比人类“低级”一点的动物，各种宠物，家畜家禽，飞鸟走兽，甚至昆虫，全都显示出足以让人敬畏的智能。他们对所有这些奇迹般的事物视而不见，不是去欣赏他们的精巧设计和卓越表现，而是坐井观天，念叨着“机器一定会超越人类”。
他们似乎已经像科幻电影似的把机器当成了一个物种，像是保护“弱势群体”一样，要维护机器的“权益”和“尊严”。他们不允许其他人质疑这些机器，不允许你说它们恐怕没法实现人类一样的智能。总之机器在他们心理已经不再是工具，而是活的生命，甚至是比人还高级的生命。
对此你可以参考另一个 Geoffrey Hinton 的

采访视频

，录制于今年 5 月份的 Google 开发者大会（Google I/O ‘19）。从这个视频里面我看到了许多 AI 人士盲目信仰和各种没有根据的说法的来源，因为这些说法全都集中而强烈的体现在了 Hinton 的谈话中。他如此的坚信一些没有根据的说法，不容置疑地把它们像真理一样说出来，却没有任何证据。有时候主持人都不得不采用了有点怀疑的语气。
Hinton 在采访中有以下说法：
“神经网络被设计为像人脑的工作原理。”
“等神经网络能够跟人对话，我们就能用它来进行教育工作了。”
“神经网络终究会在所有事情上战胜人类。”
“我们不都是神经网络吗？” （先后强调了两次）
“…… 所以神经网络能够实现人类智能的一切功能。这包括感情，意识等。”
“人们曾经认为生命是一种特殊的力量，现在生物学解释了生命的一切。人们现在仍然认为意识是特殊的，可是神经网络将会说明，意识并没有什么特别。”

他的这些说法都是不准确，不科学，没有根据的。
我发现每当主持人用稍微怀疑的语气问：“这真的可以实现吗？” Hinton 就会回答：“当然能。我们不都是神经网络吗？” 这里有一个严重的问题，那就是他所谓的“神经网络”，其实并不是人脑里面的神经元连成的网络。AI 领域的“神经网络”只是他们自己的数学模型，是他们自己给它起名叫“神经网络”而已。所以他的这种“证明”其实是在玩文字游戏：“因为我们都是神经网络，所以神经网络能够实现一切人类智能，感情，甚至意识本身！”
前面的“神经网络”和后面的“神经网络”完全是两回事。我们是“神经网络”吗？我们的脑子里是有神经元，神经元貌似连成了一个网络，可是它的结构却跟 AI 领域所谓的“神经网络”是两回事，工作原理也非常不一样。Hinton 面对问题作出这样的回答，是非常不科学，不负责任的。
最后关于生命，感情和意识的说法，我也很不认同。虽然生物学解释了生命体的各种构造和原理，可是人们为什么仍然没能从无生命的物质制造出有生命的事物呢？虽然人们懂得那么多生物学，生物化学，有机化学，甚至能合成出各种蛋白质，可是为什么没能把这些东西组装在一起，让它“活”起来呢？这就像你能造出一些机器零件，可是组装起来之后，发现这机器不转。你不觉得是因为少了点什么吗？生物学发展了这么久，我们连一个最简单的，可以说是“活”的东西都没造出来过，你还能说“生命没什么特别的”吗？
这说明生物学家们虽然知道生命体的一些工作原理，却没有从根本上搞明白生命到底是什么。也就是说人们解决了一部分“how”问题（生命体如何工作），却不理解“what”和“why”（生命是什么，为什么会出现生命）。
实际上生物学对生命体如何工作（how）的理解都还远远不够彻底，这就是为什么我们还有那么多病无法医治，甚至连一些小毛病都无法准确的根治，一直拖着，只是不会马上致命而已。“生命是什么”的 what 问题仍然是一个未解之谜，而不像 Hinton 说的，全都搞明白了，没什么特别的。
也许生命就是一种特别的东西呢？也许只有从有生命的事物，才能产生有生命的事物呢？也许生命就是从外星球来的，也许就是由某种更高级的智慧设计出来的呢？这些都是有可能的。真正的科学家应该保持开放的心态，不应该有类似“人定胜天”这样的信仰。我们的一切结论都应该有证据，如果没有我们就不应该说“一定”或者“必然”，说得好像所有秘密全都解开了一样。
对于智能和意识，我也是一样的态度。在我们没有从普通的物质制造出真正的智能和意识之前，不应该妄言理解了关于它们的一切。生命，智能和意识，比有些人想象的要奇妙得多。想要“人造”出这些东西，比 AI 人士的说法要困难许多。
有心人仔细观察一下身边的小孩子，小动物，甚至观察一下自己，就会发现它们的“设计”是如此的精巧，简直不像是随机进化出来的，而是由某个伟大的设计者创造的。46 亿年的时间，真的够进化和自然选择出这样聪明的事物吗？
别误会了，我是不信宗教的。我觉得宗教的圣经都是小人书，都是某些人吓编的。可是如果你坚定的相信人类和动物的这些精巧的结构都是“进化”来的，你坚定的相信它们不是什么更高级的智慧创造出来的，那不也是另外一种宗教吗？你没有证据。没有证据的东西都只是猜想，而不能坚信。
好像扯远了……
总之，深度学习的鼻祖级人物说出这样多信念性质的，没有根据的话，由此可见这个领域有多么混沌。另外你还可以从他的谈话中看出，他所谓的“AI”都是各种相对容易的识别问题（语音识别，图像识别）。他并没有看清楚机器要想达成“理解”有多困难。而“识别”与“理解”的区别，就是我的这篇文章想澄清的问题。炼丹师的工作方式

设计神经网络的“算法工程师”，“数据科学家”，他们工作性质其实很像“炼丹师”（alchemist）。拿个模型这改改那改改，拿海量的图片来训练，“准确率”提高了，就发 paper。至于为什么效果会好一些，其中揭示了什么原理，模型里的某个节点是用来达到什么效果的，如果没有它会不会其实也行？不知道，不理解。甚至很多 paper 里的结果无法被别的研究者复现，存在作假的可能性。
我很怀疑这样的研究方式能够带来什么质的突破，这不是科学的方法。如果你跟我一样，把神经网络看成是用“可求导编程语言”写出来的代码，那么现在这种设计模型的方法就很像“一百万只猴子敲键盘”，总有一只能敲出“Hello World！”
许多数学家和统计学家都不认同 AI 领域的研究方式，对里面的很多做法表示不解和怀疑。为此斯坦福大学的统计学系还专门开了一堂课 Stats 385，专门讨论这个问题。课堂上请来了一些老一辈的数学家，一起来分析深度学习模型里面的各种操作是用来达到什么目的。有一些操作很容易理解，可是另外一些没人知道是怎么回事，这些数学家都看不明白，连设计这些模型的炼丹师们自己都不明白。
所以你也许看到了，AI 研究者并没能理解人类视觉系统的工作原理，许多的机器视觉研究都是在瞎猜。在接下来的续集中，我们会看到他们所谓的“超人类识别率”是如何来的。

子

子非渔

接近 6 年

3 楼

https://www.yinwang.org/blog-cn/2019/09/16/machine-vs-human-3

机器与人类视觉能力的差距（3）
这是这个系列文章的第三集，在这一集中，我想讲讲 AI 领域所谓的“超人类识别率”是怎么来的，以及由于对机器视觉的盲目信任所导致的灾难性后果。
“超人类准确率”的迷雾

我发现神经网络在测试数据的可靠性，准确率的计算方法上，都有严重的问题。
神经网络进行图像识别，所谓“准确率”并不是通过实际数据测出来的，而是早就存在那里的，专用的测试数据。比如 ImageNet 里面有 120 万张图片，是从 Flickr 等照片网站下载过来的。反反复复都是那些，所以实际的准确率和识别效果值得怀疑。数据全都是网络上的照片，但网络上数据肯定是不全面的，拍照的角度和光线都无法概括现实的多样性。而且不管是训练还是测试的数据，他们选择的都是在理想环境下的照片，没有考虑各种自然现象：反光，折射，阴影等。
比如下图就是图像识别常用的 ImageNet 和其它几个数据集的一小部分。你可以看到它们几乎全都是光线充足情况下拍的照片，训练和测试用的都是这样的照片，所以遇到现实的场景，光线不充足或者有阴影，准确率很可能就没有 paper 上那么高了。

如此衡量“准确率”，有点像你做个编译器，却只针对很小一个 benchmark 进行优化跑分。一旦遇到实际的代码，别人可能就发现性能不行。但神经网络训练需要的硬件等条件比较昂贵，一般人可能也很少有机会进行完整的模型训练和实际的测试，所以大家只有任凭业内人士说“超人类准确率”，却无法验证它的实际效果。 “Top-5 准确率”的骗局不但测试数据的“通用性”值得怀疑，所谓“准确率”的计算标准也来的蹊跷。AI 领域向公众宣扬神经网络准确率的时候，总喜欢暗地里使用所谓“top-5 准确率”，也就是说每张图片给 5 次机会分类，只要其中一个对了就算正确，然后计算准确率。依据 top-5 准确率，他们得出的结论是，某些神经网络模型识别图像的准确率已经“超越了人类”。

如果他们提到“top-5”还算好的了，大部分时候他们只说“准确率”，而不提“top-5”几个字。在跟人比较的时候，总是说“超越了人类”，而绝口不提“top-5”，不解释是按照什么标准。我为什么对 top-5 有如此强烈的异议呢？现在我来解释一下。
具体一点，“top-5”是什么意思呢？也就是说对于一张图片，你可以给出 5 个可能的分类，只要其中一个对了就算分类正确。比如图片上本来是汽车，我看到图片，说：
“那是苹果？”
“哦不对，是杯子？”
“还是不对，那是马？”
“还是不对，所以是手机？”
“居然还是不对，那我最后猜它是汽车！”

五次机会，我说出 5 个风马不及的词，其中一个对了，所以算我分类正确。荒谬吧？这样继续，给很多图片分类，然后统计你的“正确率”。
为什么要给 5 次机会呢？ImageNet 比赛（ILSVRC）对两种不同的比赛给出了两种不大一样的说法。一种说是为了让机器可以识别出图片上的多个物体，而不因为其中某个识别出的物体不是正确标签（ground truth）而被算作错误。另外一种说是为了避免输出意义相同的近义词，却不能完全匹配标签而被算作错误。
两个说法的理由不同，但数学定义基本是一样的。总之就是有五次机会，只要对了一个就算你对。

看似合理？然而这却是模糊而错误的标准。这使得神经网络可以给出像上面那样风马不及的 5 个标签（苹果，杯子，马，手机，汽车），其中前四个都不是图片上的物体，却仍然被判为正确。
你可能觉得我的例子太夸张了，但是准确率计算标准不应该含有这样的漏洞。只要标准有漏洞，肯定会有错误的情况会被放过。现在我们来看一个实际点的例子。

上图是一个 Coursera 的机器学习课程给出的 top-5 实际输出结果的例子。你可以从中发现，纵然有一些 top-5 输出标签是近义词，可是也有很多并不是近义词，而是根本错误的标签。比如“算盘”图片的 top-5 里面包含了computer keyboard（电脑键盘）和 accordion（手风琴）。“老虎”图片的 top-5 里面包含了两种狗的品种名字（boxer，Saint Bernard）。
另外你还可以看到，测试图片是经过精心挑选和裁剪的，里面很少有多于一个物体。所以第一种说法，“可能输出某个图片上存在的物体但却不是正确答案”，恐怕是很少见的。
所以 ILSVRC 对使用 top-5 给出的两个理由是站不住脚的。它想要解决的问题并不是那么突出地存在，但是它却开了一道后门，可能放过很多的错误情况。比如上面的“算盘”图片，如果排名第一的不是 abacus，而是 computer keyboard（电脑键盘）或者 accordion（手风琴），只要 abacus 出现在 top-5 列表里，这个图也算识别正确。所以 top-5 根本就是错误的标准。
其实要解决图片上有多个物体的问题，或者输出是近义词的问题，都有更好的办法，而不会让错误的结果被算成正确的。每一个学过基础数据结构和算法的本科生都应该能想出更好的解决方案。比如你可以用一个近义词词典，只要输出的标签和“正确标签”是近义词就算正确。对于有多个物体的图片，你可以在标注时给它多个标签，算法给出的标签如果在这个“正确标签集合”里面就算正确。
但 ILSVRC 并没有采用这些解决方案，而是采用了 top-5。这么基础而重要的问题，AI 业界的解决方案如此幼稚，却被全世界研究者广泛接受。你们不觉得蹊跷吗？我觉得他们有自己的目的：top-5 使得神经网络的准确率显得很高，只有使用这个标准，神经网络才会看起来“超越了人类”。
Top-5 准确率总是比 top-1 高很多。高多少呢？比如 ResNet-152 的 top-1 错误率是 19.38%，而 top-5 错误率却只有 4.49%。Top-1 准确率只能算“勉强能用”，换成 top-5 之后，忽然就可以宣称“超越人类”了，因为据说人类的 top-5 错误率大概是 5.1%。

Top-5 准确率对人是不公平的可能很多人还没意识到，top-5 比较方法对人是不公平的。图片上要是人见过的物体，几乎总是一次就能做对，根本不需要 5 次机会。使用“top-5 准确率”，就像考试的时候给差等生和优等生各自 5 次机会来做对题目。当然，这样你就分不清谁是差等生，谁是优等生了。“top-5 准确率”大大的模糊了好与坏之间的界线，最后看起来都差不多了，甚至差等生显得比优等生还要好。
具体一点。假设一个人识别那些图片的时候，他的 top-5 错误率是 5.1% （就像他们给出的数字那样），那么他的 top-1 错误率大概也是 5.1%。因为人要是一次机会做不对，那他可能根本就没见过图片上的物体。如果他一次做不对，你给他 5 次机会，他也做不对，因为他根本就不知道那东西叫什么名字。
现在某个神经网络（ResNet-152）的 top-5 错误率是 4.49%，它的 top-1 错误率是 19.38%。你却只根据 top-5 得出结论，说神经网络超越了人类。是不是很荒谬？
退一万步讲，就算你可以用 top-5，像这种 4.49% 与 5.1% 的差别，只相差 0.61%，也应该是忽略不计的。因为实验都是有误差，有随机性的，根据测试数据的不同也有差异，像这样的实验，1% 以内的差别根本不能说明问题。如果你仔细观察各个文献列出来识别率，就会发现它们列出的数字都不大一样。同样的模型，准确率差距可以有 3% 以上。但他们拿神经网络跟人比，却总是拿神经网络最好的那个数，跟人死扣那百分之零点几的“优势”，然后欢天喜地宣称已经“超人类”了。
而且他们真的拿人做过公平的实验吗？为什么从来没有发布过“神经网络 vs 人类 top-1 对比结果”呢？5.1% 的“人类 top-5 准确率”数字是哪里来的呢？哪些人参加了这个测试，他们都是什么人？我唯一看到对人类表现的描述，是在 Andrej Karpathy 的主页上。他拿 ImageNet 测试了自己的识别准确率，发现好多东西根本没见过，不认识，所以他又看 ImageNet 的图片“训练”自己，再次进行测试，结果准确率大大提高。
就那么一个人得出的“准确率”，就能代表全人类吗？而且你们知道 Andrej Karpathy 是谁吧。他是李飞飞的学生，目前是 Tesla 的 AI 主管，而李飞飞是 ImageNet 的发起者和创造者。让一个“内幕人士”拿自己来测试，这不像是公正和科学的实验方法。你见过有医学家，心理学家拿自己做个实验，就发表结果的吗？第一，人数太少，至少应该有几十个智商正常的人来做这个，然后数据平均一下吧？第二，这个人是个内幕人士，他的表现恐怕不具有客观性。
别误会了，我并不否认 Andrej Karpathy 是个很聪明，说话挺耿直的人。我很欣赏他讲的斯坦福 cs231n 课程，通过他的讲述我第一次明白了神经网络到底是什么，明白了 back-propagation 到底如何工作。我也感谢李飞飞准备了这门课，并且把它无私地放在网上。但是这么大一个领域，这么多人，要提出“超越了人类视觉”这么大一个口号，居然只有研究者自己一个人挺身而出做了实验，你不觉得这有点不负责任吗？
AI 领域对神经网络训练进行各种优化，甚至专门针对 top-5 进行优化，把机器的每一点性能每一点精度都想榨干了去，对于如何让人准确显示自己的识别能力，却漫不经心，没有组织过可靠的实验，准确率数字都不知道是怎么来的。对比一下生物，神经科学，医学，这些领域是如何拿人做实验，如何向大家汇报结果，AI 领域的做法像是科学的吗？
这就是“AI 图像识别超越人类”这种说法来的来源。AI 业界所谓“超人类的识别率”，“90+% 的准确率”，全都是用“top-5 准确率”为标准的，而且用来比较的人类识别率的数字没有可靠的来源。等你用“top-1 准确率”或者更加公平的标准，使用客观公正抽选的人类实验者的时候，恐怕就会发现机器的准确率远远不如人类。尴尬的 top-1 准确率

我们来看看 top-1 准确率吧。业界最先进的模型之一 ResNet-152 的 top-1 错误率是 19.38%。2017 年的 ImageNet 分类冠军 SENet-154，top-1 错误率是 18.68%。当然这也没有考虑过任何实际的光线，阴影和扭曲问题，只是拿标准的，理想情况的 ImageNet “测试图片”来进行。遇到实际的情况，准确率肯定会更低。
神经网络要想提高 top-1 准确率已经非常困难了，都在 80% 左右徘徊。有些算法工程师告诉我，识别率好像已经到了瓶颈，扩大模型的规模才能提高一点点。可是更大的模型具有更多的参数，也就需要更大规模的计算能力来训练。比如 SENet-154 尺寸是 ResNet-152 的 1.7 倍，ResNet-152 尺寸又是 ResNet-50 的 2.4 倍，top-1 准确率才提高一点点。
我还有一个有趣的发现。如果你算一下 ResNet-50 和 ResNet-152 的差距，就会发现 ResNet-152 虽然模型大小是 ResNet-50 的 2.4 倍，它的 top-1 错误率绝对值却只降低了 1.03%。从 22.37% 降低到 21.34%，相对降低了 (22.37-21.24)/22.37 = 4.6%，很少。可是如果你看它的 top-5 错误率，就会觉得它好了不少，因为它从 6.36% 降低到了 5.54%，虽然绝对值只少了 0.82%，比 top-1 错误率的改进还小，可是相对值却降低了 (6.36-5.54)/6.36 = 12.9%，就显得改进了挺多。
这也许就是为什么 AI 业界用 top-5 的第二个原因。因为它的错误率基数很小，所以你减小一点点，相对的“改进”就显得很多了。然后你看历年对 top-5 的改进，就觉得神经网络识别率取得了长足的进步！

而如果你看 top-1 准确率，就会觉得几乎没有变化。模型虽然大了几倍，计算量大了那么多，top-1 准确率却几乎没有变。所以神经网络的 top-1 准确率似乎确实到了一个瓶颈，如果没有本质的突破，恐怕再大的模型也难以超越人类。 AI 业界的诚信问题和自动驾驶的闹剧准确率不够高，不如人类其实问题不大，只要你承认它的局限性，把它用到能用的地方就行了。可是最严重的问题是人的诚信，AI 人士总是夸大图像识别的效果，把它推向超出自己能力的应用。
AI 业界从来没有向公众说清楚他们所谓的“超人类识别率”是基于什么标准，反而在各种媒体宣称“AI 已经超越了人类视觉”。这完全是在欺骗和误导公众。上面 Geoffrey Hinton 的

采访视频

中，主持人也提到“神经网络视觉超越了人类”，这位深度学习的先驱者对此没有任何说明，而是欣然接受，继续自豪地夸夸其谈。
你可以给自动驾驶车 5 次机会来判断前面出现的是什么物体吗？你有几条命可以给它试验呢？Tesla 的 Autopilot 系统可能 top-5 正确率很高吧：“那是个白板…… 哦不对，那是辆卡车！” “那是块面包…… 哦不对，那是高速公路的隔离带！”
我不是开玩笑，你点击上面的“卡车”和“隔离带”两个链接，它们指向的是 Tesla Autopilot 引起的两次致命车祸。第一次车祸，Autopilot 把卡车识别为白板，直接从侧面撞上去，导致车主立即死亡。另一次，它开出车道，没能识别出高速公路中间的隔离带，完全没有减速，反而加速撞上去，导致车主死亡，并且着火爆炸。

神经网络能把卡车识别为白板还算“top-5 分类正确”，Autopilot 根本没有视觉理解能力，这就是为什么会引起这样可怕的事故。

你可以在这里看到一个 Autopilot 导致的事故列表。
出了挺多人命，可是“自动驾驶”的研究仍然在混沌中进行。2018 年 3 月，Uber 的自动驾驶车在亚利桑那州撞死一名推自行车过马路的女性。事故发生时的(

https://www.youtube.com/watch?v=ufNNuafuU7M

)]车载录像已经被公布到了网上。
报告显示，Uber 的自动驾驶系统在出事前 6 秒钟检测到了这位女士，起初把她分类为“不明物体”，然后分类为“汽车”，最后分类为“自行车”，完全没有刹车，以每小时 40 英里的速度直接撞了上去…… 【新闻链接】
在此之前，Uber 被加州政府吊销了自动驾驶实验执照，后来他们转向了亚利桑那州，因为亚利桑那州长热情地给放宽政策，“拥抱高科技创新”。结果呢，搞出人命来了。美国人看到 Uber 自动车撞死人，都在评论说，要实验自动驾驶车就去亚利桑那州吧，因为那里的人命不值钱，撞死不用负责！
据 2018 年 12 月消息，Uber 想要重新开始自动驾驶实验，这次是在宾夕法尼亚州的匹兹堡。他们想要在匹兹堡的闹市区进行自动驾驶实验，因为那里有狭窄的街道，列车铁轨，许多的行人…… 我觉得要是他们真去那里实验，可能有更好的戏看了。
自动驾驶领域使用的视觉技术是根本不可靠的，给其它驾驶者和行人造成生命威胁，各个自动驾驶公司却吵着想让政府交通部门给他们大开绿灯。某些公司被美国政府拒绝批准牌照之后大吵大闹，骂政府监管部门不懂他们的“高科技”，太保守，跟不上时代。有的公司更是异想天开，想要政府批准他们的自动车上不安装方向盘，油门和刹车，号称自己的车已经不需要人类驾驶员，甚至说“只有完全去掉了人类的控制，自动车才能安全运行。”

一出出的闹剧上演，演得好像自动驾驶就快实现了，大家都在拼命抢夺这个市场似的，催促政府放宽政策。很是有些我们当年大炼钢铁，超英赶美的架势。这些公司就跟小孩子耍脾气要买玩具一样，全都吵着要爸妈让他玩自动驾驶，各种蛮横要求，马上给我，不然你就是不懂高科技，你就是“反智”，“反 AI”，你就是阻碍历史进步！给监管机构扣各种帽子，却完全不理解里面的难度，伦理和责任。玩死了人，却又抬出各种借口，不想负责任。
虽然 Tesla 和 Uber 是应该被谴责的，但这里面的视觉问题不只是这两家公司的问题，整个自动驾驶的领域都建立在虚浮的基础上。我们应该清楚地认识到，现有的所谓 AI 根本没有像人类一样的视觉理解能力，它们只是非常粗糙的图像识别，识别率还远远达不到人类的水平，所以根本就不可能实现自动驾驶。
什么 L1~L4 的自动驾驶分级，都是瞎扯。根本没法实现的东西，分了级又有什么用呢？只是拿给这些公司用来忽悠大家的口号，外加推脱责任的借口而已。出事故前拿来做宣传：“我们已经实现 L2 自动驾驶，目前在研究 L3 自动驾驶，成功之后我们向 L4 进军！” 出事故后拿来推脱责任：“我们只是 L2 自动驾驶，所以这次事故是理所当然，不可避免的！”
如果没有视觉理解，依赖于图像识别技术的“自动驾驶车”，是不可能在复杂的情况下做出正确操作，保障人们安全的。机器人等一系列技术，也只能停留在固定场景，精确定位的“工业机器人”阶段，而不能在复杂的自然环境中行动。识别技术还是有意义的要实现真正的语言理解和视觉理解是非常困难的，可以说是毫无头绪。一代又一代的神经学家，认知科学家，哲学家，为了弄明白人类“认知”和“理解”到底是怎么回事，已经付出了许多的努力。可是直到现在，对于人类认知和理解的认识都不足以让机器具有真正的理解能力。真正的 AI 其实没有起步，很多跟 AI 沾点边的人都忙着忽悠和布道，没人关心其中的本质，又何谈实现呢？除非真正有人关心到问题所在，去研究本质的问题，否则实现真的理解能力就只是空中楼阁。我只是提醒大家不要盲目乐观，不要被忽悠了。与其夸大其词，欺骗大众，说人工智能快要实现了，不如拿已有的识别技术来做一些有用的事情，诚实地面对这些严重的局限性。
我并不是一味否定识别技术，我只是反对把“识别”夸大为“理解”，把它等同于“智能”，进行不实宣传，用于超出它能力的领域。诚实地使用识别技术还是有用的，而且蛮有趣。我们可以用这些东西来做一些很有用的工具，辅助我们进行一些事情。从语音识别，语音合成，图片搜索，内容推荐，商业金融数据分析，反洗钱，公安侦查，医学图像分析，疾病预测，网络攻击监测，各种娱乐性质的 app…… 它确实可以给我们带来挺多好处，实现我们以前做不到的一些事情。
另外虽然各公司都在对他们的“AI 对话系统”进行夸大和不实宣传，可是如果我们放弃“真正的对话”，坦诚地承认它们并不是真正的在对话，并没有智能，那它们确实可以给人带来一些便利。现有的所谓对话系统，比如 Siri，Alexa，基本可以被看作是语音控制的命令行工具。你说一句话，机器就挑出其中的关键字，执行一条命令。这虽然不是有意义的对话，却可以提供一些方便。特别是在开车不方便看屏幕的时候，语音控制“下一首歌”，“空调风量小一点”，“导航到最近的加油站”之类的命令，还是有用的。
但不要忘记，识别技术不是真的智能，它没有理解能力，不能用在自动驾驶，自动客服，送外卖，保洁阿姨，厨师，发型师，运动员等需要真正“视觉理解”或者“语言理解”能力的领域，更不能期望它们取代教师，程序员，科学家等需要高级知识的工作。机器也没有感情和创造力，不能取代艺术家，作家，电影导演。所有跟你说机器也能有“感情”或者“创造力”的都是忽悠，就像现在的对话系统一样，只是让人以为它们有那些功能，而其实根本就没有。
你也许会发现，机器学习很适合用来做那些不直观，人看不透，或者看起来很累的领域，比如各种数据分析。实际上那些就是统计学一直以来想解决的问题。可是视觉这种人类和高等动物的日常功能，机器的确非常难以超越。如果机器学习领域放弃对“人类级别智能”的盲目追求，停止拿“超人类视觉”一类的幌子来愚弄大众，各种夸大，那么他们应该能在很多方向做出积极的贡献。（全文完）

子

子非渔

接近 6 年

4 楼

我不知道是什么导致了这种“AI 宗教”。

有句话说得好：“我所有的自负都来自我的自卑，所有的英雄气概都来自于我内心的软弱，所有的振振有词都因为心中满是怀疑。” 似乎是某种隐藏很深的自卑和怨恨，导致了他们如此的坚定和自负。一定要搞出个超越所有人的机器才善罢甘休，却没发现人类智能的博大精深已经从日常生活的各种不起眼的小事透露出来。

papayaya5

接近 6 年

5 楼

谢谢分享👍 ---发自Huaren 官方 iOS APP

helloterran

接近 6 年

6 楼

王垠的帖子直接跳过。他唯一深入研究过的领域是编译器parser，其他方面放的炮基本都是胡扯。

tidewater

接近 6 年

7 楼

说的都很有道理。但混淆了 AI 的上下文。目前的 AI 目标不是超越人类吧。

tidewater

接近 6 年

8 楼

王垠的帖子直接跳过。他唯一深入研究过的，领域是编译器parser，其他方面放的炮基本都是胡扯。
helloterran 发表于 10/12/2019 1:54:47 PM

他技术上说的没大错。但大方向性的定义是故意混淆 AI 的上下文定义，然后自己树个 AI 超越人类的靶子自己打。

jackych

接近 6 年

9 楼

王垠的帖子直接跳过。他唯一深入研究过的，领域是编译器parser，其他方面放的炮基本都是胡扯。
helloterran 发表于 10/12/2019 1:54:47 PM

AI的泡沫是真的。现在AI还远远不能跟人比。我个人认为现在的计算机体系结构是诞生不了具有人类智能的。需要根本上的革命

湫

湫湫

接近 6 年

10 楼

最欢迎AI的应该是大资本家了。

helloterran

接近 6 年

11 楼

AI的泡沫是真的。现在AI还远远不能跟人比。我个人认为现在的计算机体系结构是诞生不了具有人类智能的。需要根本上的革命

jackych 发表于 10/12/2019 2:14:57 PM

这是他自己树的靶子

Andrew Ng 说目前基于深度学习的AI，主要意义在于自动化那些人脑可以在几秒钟内完成的，上下文无关的重复性工作。

非结构化的知识，经验，确实没有什么好办法储存表达。但是这不影响人脸识别，听写，文本分析，自动驾驶，这些层次的任务

chengcheng

接近 6 年

12 楼

很有趣的文章。有英文版吗？想给孩子看看。

tidewater

接近 6 年

13 楼

AI的泡沫是真的。现在AI还远远不能跟人比。我个人认为现在的计算机体系结构是诞生不了具有人类智能的。需要根本上的革命

jackych 发表于 10/12/2019 2:14:57 PM

这是他自己树的靶子

Andrew Ng 说目前基于深度学习的AI，主要意义在于自动化那些人脑可以在几秒钟内完成的，上下文无关的重复性工作。

非结构化的知识，经验，确实没有什么好办法储存表达。但是这不影响人脸识别，听写，文本分析，自动驾驶，这些层次的任务

helloterran 发表于 10/12/2019 2:26:32 PM

属实～～～～～～～

子

子非渔

接近 6 年

14 楼

回复 6楼helloterran的帖子

你也不是这领域的专家。他说的识别不等于理解是对的。

子

子非渔

接近 6 年

15 楼

回复 11楼helloterran的帖子

王垠是嘲笑这波大潮里面的吹嘘和浮夸。

本版大妈相当多都是有理工科高级学位的。本版一问，什么有前途，就是搞ml、dl高等，有前途热门。不信你翻翻以前的帖子。

也就是说这波里面很多都是骗钱的。

理工大妈即使在自己修习的这么类似的学科，都能在迷信权威和媒体宣传造势下判断这么离谱，就更别说自己天生就不懂的政治了。

阡

阡陌豪猪

接近 6 年

16 楼

AI的泡沫是真的。现在AI还远远不能跟人比。我个人认为现在的计算机体系结构是诞生不了具有人类智能的。需要根本上的革命

jackych 发表于 10/12/2019 2:14:57 PM

为什么非要达到替代人的程度才有用才不是泡沫呢？在很多方面能减少成本提高效率就足够了啊。。。

jackych

接近 6 年

17 楼

为什么非要达到替代人的程度才有用才不是泡沫呢？在很多方面能减少成本提高效率就足够了啊。。。

阡陌豪猪发表于 10/12/2019 4:14:51 PM

不算达到人的程度吧，就算自动驾驶，感觉再过几年也做不到全自动，只能是有限的自动，也就是辅助驾驶。现在乌泱乌泱的自动驾驶公司多数会倒掉，极少数有钱的能撑下去。这就是泡沫。还有很多AI项目和公司，大体也差不多，应用比较有限，跟现在的投入很不成比例。

jackych

接近 6 年

18 楼

这是他自己树的靶子

Andrew Ng 说目前基于深度学习的AI，主要意义在于自动化那些人脑可以在几秒钟内完成的，上下文无关的重复性工作。

非结构化的知识，经验，确实没有什么好办法储存表达。但是这不影响人脸识别，听写，文本分析，自动驾驶，这些层次的任务

helloterran 发表于 10/12/2019 2:26:32 PM

现在AI方面吹的太凶，实际水平差很多。比如说机器翻译，老是吹什么突破，实际上还是惨不忍睹。

子

子非渔

接近 6 年

19 楼

回复 17楼jackych的帖子

必须有 paradigm shift式的突破

namamae

接近 6 年

20 楼

自己竖个靶子，然后自己打，一点意义都没有

泡沫不泡看商业化后的利润喝成本
技术哪怕做到比人强，一样可能会泡沫
技术哪怕不如人类，单是要成本够低易推广，一样不是泡沫

lesity

接近 6 年

21 楼

为什么非要达到替代人的程度才有用才不是泡沫呢？在很多方面能减少成本提高效率就足够了啊。。。

阡陌豪猪发表于 10/12/2019 4:14:51 PM

AI目前阶段性适合并且胜任的工作不够赚钱，不如自动驾驶这种大众需要的技术赚钱。但是硬要让AI做不能胜任的工作就是泡沫，和求职简历造假一样。

子

子非渔

接近 6 年

22 楼

回复 13楼tidewater的帖子

你是不是被盗号了? 自己生物医学工程出身，也算是cv pr的行家。他说的很多都不属实好么。

当然真话难听，砸掉了多少数学千老的饭碗

GaAs

接近 6 年

23 楼

看定义什么是AI，如果是像人类这种产生自我意识的话，AI永远都达不到。因为AI是硅基，人是碳基。

plmm1234

接近 6 年

24 楼

AI，和当年的基因工程，3D打印一样，就是又一波资本吹起来的热点。如今的热点还有量子计算，石墨烯，5G等等。

weixin1234567

接近 6 年

25 楼

AI其实就是以前pattern recognization的进化，或者换马甲。

之所以这么热，
是因为公司发现可以用来拉投资，骗钱，
大众发现可以用来找到一份好的package，

就这样。

就好像computing的名词进化，
parallel computing, distributed computing, grid computing, cloud computing, cloud, edge computing.

都是从学术界的professor开始编名词骗funding，
然后工业界发现有卖点，
就开卖了

drchao

接近 6 年

26 楼

正常潮来潮往掀起泡浪只是AI的发展还很长远

lycheeberry

接近 6 年

27 楼

mark ai

ScottishFold

接近 6 年

28 楼

AI更就不可能真正大规模应用，政治上不允许机器取代人大范围失业，所谓AI取代人是为了吹泡沫。

ScottishFold

接近 6 年

29 楼

自动驾驶是个大大的泡沫。反正吹这种泡沫的股票我都避开。

sunrisemichelle

接近 6 年

30 楼

这么快就退了吗

bytegudu

接近 6 年

31 楼

https://medium.com/@mijordan3/artificial-intelligence-the-revolution-hasnt-happened-yet-5e1d5812e1e7

Giovanna

接近 6 年

32 楼

只盯着那些吹的很玄乎的烧钱公司当然觉得是泡沫，事实上现在真正需要AI技术的领域完全不是那些科幻黑科技，而是实实在在的解放人力提高效率的小任务上。比如医学影像里有些人眼难以分辨或者容易漏掉的小细节，用computer vision就能提高识别率，跟人类是互补而非竞争的关系。再比如，工程材料的crack detection，如果人没法亲临现场，或者需要监控的面积很大，或者角度刁钻，用监控摄像头加上计算机视觉处理和识别，对工程事故的检测和预防就能起到很大的作用。再比如卫星遥感图像几十年来收集到的海量全球地表数据，你怎么人肉手动标注？不用cv能行吗？再比如现在视频的智能化压缩，分类，存储，preview或者summary，都需要利用cv先分析视频的内容，以便搜索查找的结果更高效，更符合用户的口味。前一阵我们一个项目，多普勒雷达扫描图拿来，信号降噪滤波以后还需要进一步的语义分割，这也是cv专业范畴。长期看这些需求未来只能越来越多，不会减少。太多地方用得上，想研发AI的绝不止是那些大厂。技术是为了完成特定的task而产生的，不需要媲美人类，只要能完成指定的任务，就够了。

plmm1234

接近 6 年

33 楼

只盯着那些吹的很玄乎的烧钱公司当然觉得是泡沫，事实上现在真正需要AI技术的领域完全不是那些科幻黑科技，而是实实在在的解放人力提高效率的小任务上。比如医学影像里有些人眼难以分辨或者容易漏掉的小细节，用computer vision就能提高识别率，跟人类是互补而非竞争的关系。再比如，工程材料的crack detection，如果人没法亲临现场，或者需要监控的面积很大，或者角度刁钻，用监控摄像头加上计算机视觉处理和识别，对工程事故的检测和预防就能起到很大的作用。再比如卫星遥感图像几十年来收集到的海量全球地表数据，你怎么人肉手动标注？不用cv能行吗？再比如现在视频的智能化压缩，分类，存储，preview或者summary，都需要利用cv先分析视频的内容，以便搜索查找的结果更高效，更符合用户的口味。前一阵我们一个项目，多普勒雷达扫描图拿来，信号降噪滤波以后还需要进一步的语义分割，这也是cv专业范畴。长期看这些需求未来只能越来越多，不会减少。太多地方用得上，想研发AI的绝不止是那些大厂。技术是为了完成特定的task而产生的，不需要媲美人类，只要能完成指定的任务，就够了。
Giovanna 发表于 10/12/2019 6:59:42 PM

都是吹，画大饼。你说的那些，有一个接近实用了吗？

Giovanna

接近 6 年

34 楼

什么算画大饼？当然早就已经用上了，除非你要去100%准确率，which任何技术都达不到。

最简单的，crack detection，不管你的算法是否能“理解”图像，甚至精度够不够高。只要能找出一个不装摄像头就看不见的裂缝，从无到有就是成功了的，对吧？照你说，这不叫实用，什么才算实用？

都是吹，画大饼。你说的那些，有一个接近实用了吗？

plmm1234 发表于 10/12/2019 19:03:00

xiaojiejie

接近 6 年

35 楼

这么快就退了吗
sunrisemichelle 发表于 10/12/2019 6:20:13 PM

别听楼主瞎掰，现在最热的就是AI

子

子非渔

接近 6 年

36 楼

回复 32楼Giovanna的帖子

比以前的方法改善多少？

星

星球大战

接近 6 年

37 楼

AI更就不可能真正大规模应用，政治上不允许机器取代人大范围失业，所谓AI取代人是为了吹泡沫。
ScottishFold 发表于 10/12/2019 5:53:44 PM

为什么政治上不允许？让民主党上来搞一堆左派政策不就可以了？

driftyy

接近 6 年

38 楼

太长，先mark~~~~~

wfmlover

接近 6 年

39 楼

回复 32楼Giovanna的帖子

CV确实进步了许多许多
只是这些并不是“AI”
就跟regression一样，只不过处理一些复杂点的input罢了

vivi_www

接近 6 年

40 楼

AI其实就是以前pattern recognization的进化，或者换马甲。

之所以这么热，
是因为公司发现可以用来拉投资，骗钱，
大众发现可以用来找到一份好的package，

就这样。

就好像computing的名词进化，
parallel computing, distributed computing, grid computing, cloud computing, cloud, edge computing.

都是从学术界的professor开始编名词骗funding，
然后工业界发现有卖点，
就开卖了
weixin1234567 发表于 10/12/2019 5:14:16 PM

太同意了。一直有这个疑惑，但是周围人都在谈论AI，等着这个泡沫什么时候破

tidewater

接近 6 年

41 楼

回复 13楼tidewater的帖子

你是不是被盗号了? 自己生物医学工程出身，也算是cv pr的行家。他说的很多都不属实好么。

当然真话难听，砸掉了多少数学千老的饭碗

子非渔发表于 10/12/2019 4:48:07 PM

我一生物转行的马工没仔细看细节。

Deep Learning 任重而道远。我觉得任何人说 Deep Learning 没有希望不切实际都是可以的。但问题是其他的东东更没有希望，如果从有 revolutionary improvement 的角度看。

或者打个比方说，大妈们可能认为阿汤哥不够帅。这没问题。但问题是这么说我们穷矮丑大叔们就简直不能看就是了。

ScottishFold

接近 6 年

42 楼

为什么政治上不允许？让民主党上来搞一堆左派政策不就可以了？

星球大战发表于 10/12/2019 8:23:04 PM

民主党已经不行了，美国政治风向已经右转了。

vivi_www

接近 6 年

43 楼

什么算画大饼？当然早就已经用上了，除非你要去100%准确率，which任何技术都达不到。

最简单的，crack detection，不管你的算法是否能“理解”图像，甚至精度够不够高。只要能找出一个不装摄像头就看不见的裂缝，从无到有就是成功了的，对吧？照你说，这不叫实用，什么才算实用？

Giovanna 发表于 10/12/2019 7:05:03 PM

我不明白的是传统的模式识别图像处理就可以做到这些，为啥叫AI呢？神经网络机器学习这些技术上个世纪就存在了，我困惑的是现在并没有革命性的突破。另外找出一个crack不能算成功。如果统计意义上找出的显著高于没有 AI的，加上detection出来以后带来的gain 显著超过增加的成本的，才具有一定的市场应用性。business和technology考虑的不一样，而且很多行业考虑的是降低成本, AI本身还不能带来革命性的产业发展

tidewater

接近 6 年

44 楼

AI其实就是以前pattern recognization的进化，或者换马甲。

之所以这么热，
是因为公司发现可以用来拉投资，骗钱，
大众发现可以用来找到一份好的package，

就这样。

就好像computing的名词进化，
parallel computing, distributed computing, grid computing, cloud computing, cloud, edge computing.

都是从学术界的professor开始编名词骗funding，
然后工业界发现有卖点，
就开卖了
weixin1234567 发表于 10/12/2019 5:14:16 PM

太同意了。一直有这个疑惑，但是周围人都在谈论AI，等着这个泡沫什么时候破
vivi_www 发表于 10/12/2019 8:38:20 PM

不是这么简单的变化。

Deep Learning 实际上确实有 revolutionary improvement in handling nonlinearities without "pre-guessed assumptions"。

这个问题是打开了一个潘多拉魔盒。Deep Learning 的一个大缺点是被认为 incomprehensible (compared to classical machine learning).

但从我个人看法角度，incomprehensible 可能就是 opportunity 这枚硬币的另一面。只是我们人类的计算科学过于原始。

子

子非渔

接近 6 年

45 楼

回复 41楼tidewater的帖子

过谦了，大佬。BME 属于EE，不是Bio。

tidewater

接近 6 年

46 楼

什么算画大饼？当然早就已经用上了，除非你要去100%准确率，which任何技术都达不到。

最简单的，crack detection，不管你的算法是否能“理解”图像，甚至精度够不够高。只要能找出一个不装摄像头就看不见的裂缝，从无到有就是成功了的，对吧？照你说，这不叫实用，什么才算实用？

Giovanna 发表于 10/12/2019 7:05:03 PM

我不明白的是传统的模式识别图像处理就可以做到这些，为啥叫AI呢？神经网络机器学习这些技术上个世纪就存在了，我困惑的是现在并没有革命性的突破。另外找出一个crack不能算成功。如果统计意义上找出的显著高于没有 AI的，加上detection出来以后带来的gain 显著超过增加的成本的，才具有一定的市场应用性。business和technology考虑的不一样，而且很多行业考虑的是降低成本, AI本身还不能带来革命性的产业发展

vivi_www 发表于 10/12/2019 8:44:50 PM

Classical Machine Learning 做不到 Deep Learning。In theory 做不到。

Classical Machine Learning 几乎最好的 classifier 比如 Support Vector Machine with nonlinear kernel and human selected kernel function, pathetically lose to Deep Learning.

我个人认为这个鸿沟在于 the curse of nonlinearities, and related human manually made assumptions on that (manual nonlinear kernel function selection)

vivi_www

接近 6 年

47 楼

不是这么简单的变化。

Deep Learning 实际上确实有 revolutionary improvement in handling nonlinearities without "pre-guessed assumptions"。

这个问题是打开了一个潘多拉魔盒。Deep Learning 的一个大缺点是被认为 incomprehensible (compared to classical machine learning).

但从我个人看法角度，incomprehensible 可能就是 opportunity 这枚硬币的另一面。只是我们人类的计算科学过于原始。

tidewater 发表于 10/12/2019 8:46:06 PM

我认为如果有人工智能革命的话，会出现在基因工程领域

tidewater

接近 6 年

48 楼

不是这么简单的变化。

Deep Learning 实际上确实有 revolutionary improvement in handling nonlinearities without "pre-guessed assumptions"。

这个问题是打开了一个潘多拉魔盒。Deep Learning 的一个大缺点是被认为 incomprehensible (compared to classical machine learning).

但从我个人看法角度，incomprehensible 可能就是 opportunity 这枚硬币的另一面。只是我们人类的计算科学过于原始。

tidewater 发表于 10/12/2019 8:46:06 PM

我认为如果有人工智能革命的话，会出现在基因工程领域

vivi_www 发表于 10/12/2019 8:52:14 PM

不知道。也许吧。癌症研究是个永远的话题。

我想癌症这个自然现象，不太会是基于一个 linear kernel function ～～

homenhome

接近 6 年

49 楼

Mark..

pei

接近 6 年

50 楼

我不明白的是传统的模式识别图像处理就可以做到这些，为啥叫AI呢？神经网络机器学习这些技术上个世纪就存在了，我困惑的是现在并没有革命性的突破。另外找出一个crack不能算成功。如果统计意义上找出的显著高于没有 AI的，加上detection出来以后带来的gain 显著超过增加的成本的，才具有一定的市场应用性。business和technology考虑的不一样，而且很多行业考虑的是降低成本, AI本身还不能带来革命性的产业发展

vivi_www 发表于 10/12/2019 8:44:50 PM

AI最近盛行有两个重要的原因，一个是数据量的增加，一个是计算能力的增加。谷歌等公司有了大量的数据和计算能力，电脑能够更好地从数据里找出隐含的规律。现在机器学习已经在大量方向被证明能够做到人类几年甚至几十年都没法达到的水平，比如说翻译，推荐，图形识别。电脑确实可能没法理解图形或者语义，但是它能比人类更好地找出规律，这就是它现在存在的意义。机器学习现在已经正在被用在越来越多的方面，绝对没有到退潮的时候。

kinkinbetter

接近 6 年

51 楼

说的很对呀

---发自Huaren官方Android app

pei

接近 6 年

52 楼

都是吹，画大饼。你说的那些，有一个接近实用了吗？

plmm1234 发表于 10/12/2019 7:03:01 PM

大公司里各方面都已经用上了，谷歌翻译用机器学习准确率有了质的飞跃，短短时间就达到了人工手调若干年都没法达到的标准，还有视频推荐，搜索推荐，举不胜举。

lesity

接近 6 年

53 楼

我不明白的是传统的模式识别图像处理就可以做到这些，为啥叫AI呢？神经网络机器学习这些技术上个世纪就存在了，我困惑的是现在并没有革命性的突破。另外找出一个crack不能算成功。如果统计意义上找出的显著高于没有 AI的，加上detection出来以后带来的gain 显著超过增加的成本的，才具有一定的市场应用性。business和technology考虑的不一样，而且很多行业考虑的是降低成本, AI本身还不能带来革命性的产业发展

vivi_www 发表于 10/12/2019 8:44:50 PM

是的。没人质疑AI 50年后，100年后，200年后的发展，这个肯定是大方向。但是在没有突破性的science research的基础上，工业界很难做出大突破。所以说现在吹AI太海市蜃楼了。如果AI在成功率和成本上不能超越人类，这样用AI的意义何在。

lesity

接近 6 年

54 楼

大公司里各方面都已经用上了，谷歌翻译用机器学习准确率有了质的飞跃，短短时间就达到了人工手调若干年都没法达到的标准，还有视频推荐，搜索推荐，举不胜举。

pei 发表于 10/12/2019 9:12:14 PM

这个到底算不算AI?谁来准确定义一下AI

weixin1234567

接近 6 年

55 楼

AI最近盛行有两个重要的原因，一个是数据量的增加，一个是计算能力的增加。谷歌等公司有了大量的数据和计算能力，电脑能够更好地从数据里找出隐含的规律。现在机器学习已经在大量方向被证明能够做到人类几年甚至几十年都没法达到的水平，比如说翻译，推荐，图形识别。电脑确实可能没法理解图形或者语义，但是它能比人类更好地找出规律，这就是它现在存在的意义。机器学习现在已经正在被用在越来越多的方面，绝对没有到退潮的时候。

pei 发表于 10/12/2019 9:08:28 PM

就是统计分析，利用computer的计算力找规律，
这个没有问题，
以前叫统计分析，后来叫data mining。

但是这个帖子的主题是拓扑推理能力。

另外：我绝对不是贬低现在的AI，
现在的AI对人类帮助也很大。

pei

接近 6 年

56 楼

这个到底算不算AI?谁来准确定义一下AI

lesity 发表于 10/12/2019 9:15:46 PM

关于AI，图灵奖的创始人Alan Turing有提出一个定义，建议到网上搜一搜。根据这个定义，现在是没有达到AI这个目标，但是现在所做的都是达到AI之前的探索，虽然没有人知道究竟这一步的方向正确与否。

vivi_www

接近 6 年

57 楼

AI最近盛行有两个重要的原因，一个是数据量的增加，一个是计算能力的增加。谷歌等公司有了大量的数据和计算能力，电脑能够更好地从数据里找出隐含的规律。现在机器学习已经在大量方向被证明能够做到人类几年甚至几十年都没法达到的水平，比如说翻译，推荐，图形识别。电脑确实可能没法理解图形或者语义，但是它能比人类更好地找出规律，这就是它现在存在的意义。机器学习现在已经正在被用在越来越多的方面，绝对没有到退潮的时候。

pei 发表于 10/12/2019 9:08:28 PM

你说的就是我不明白的点。就算法或者逻辑本身来说，并没有大的突破，只是硬件提高了，导致运算速度快，可以处理更多数据。但是这并不是革命性的突破。这就好像在汽车发明以前，人都靠马，更快的马，更耐久的马，但都是马。另外，AI的理念还是基于对人类大脑学习的假设和模型，我接触的越多，越觉得那个模型不对，人类并不是那样学习的

tidewater

接近 6 年

58 楼

大公司里各方面都已经用上了，谷歌翻译用机器学习准确率有了质的飞跃，短短时间就达到了人工手调若干年都没法达到的标准，还有视频推荐，搜索推荐，举不胜举。

pei 发表于 10/12/2019 9:12:14 PM

这个到底算不算AI?谁来准确定义一下AI

lesity 发表于 10/12/2019 9:15:46 PM

算 weak AI (or narrow AI)

https://en.m.wikipedia.org/wiki/Weak_AI

不过说 AI 没有意义，应该说 Deep Learning，目前红火的变化是因为 deep learning outperform classic machine learning。

从 narrow AI 的角度，deep learning 还是 classic machine learning 没有区别。打个比方就是从四个轮子的角度，老汉推车跟第一次工业革命汽油机车也没区别，都是车。

heartone

接近 6 年

59 楼

我不明白的是传统的模式识别图像处理就可以做到这些，为啥叫AI呢？神经网络机器学习这些技术上个世纪就存在了，我困惑的是现在并没有革命性的突破。另外找出一个crack不能算成功。如果统计意义上找出的显著高于没有 AI的，加上detection出来以后带来的gain 显著超过增加的成本的，才具有一定的市场应用性。business和technology考虑的不一样，而且很多行业考虑的是降低成本, AI本身还不能带来革命性的产业发展

vivi_www 发表于 10/12/2019 8:44:50 PM

确实还没有革命性的突破，但大家不正在努力么。

AI目前应用已经开始了，人脸识别，自然语言处理是相对成熟的分支。

tidewater

接近 6 年

60 楼

AI最近盛行有两个重要的原因，一个是数据量的增加，一个是计算能力的增加。谷歌等公司有了大量的数据和计算能力，电脑能够更好地从数据里找出隐含的规律。现在机器学习已经在大量方向被证明能够做到人类几年甚至几十年都没法达到的水平，比如说翻译，推荐，图形识别。电脑确实可能没法理解图形或者语义，但是它能比人类更好地找出规律，这就是它现在存在的意义。机器学习现在已经正在被用在越来越多的方面，绝对没有到退潮的时候。

pei 发表于 10/12/2019 9:08:28 PM

你说的就是我不明白的点。就算法或者逻辑本身来说，并没有大的突破，只是硬件提高了，导致运算速度快，可以处理更多数据。但是这并不是革命性的突破。这就好像在汽车发明以前，人都靠马，更快的马，更耐久的马，但都是马。另外，AI的理念还是基于对人类大脑学习的假设和模型，我接触的越多，越觉得那个模型不对，人类并不是那样学习的

vivi_www 发表于 10/12/2019 9:30:19 PM

Artificial Neural Network 是 inspired by human brain neutral network，并不是真正模拟人类大脑。

数学上，ANN 的核心部分就是取代 nonlinear kernel function written in closed form。

拿个例子，如果用两层 10 个 ReLU 加最后一层 1 个 sigmoid neuron，用 log-loss ，做一个 binary classifier。

tidewater

接近 6 年

61 楼

AI最近盛行有两个重要的原因，一个是数据量的增加，一个是计算能力的增加。谷歌等公司有了大量的数据和计算能力，电脑能够更好地从数据里找出隐含的规律。现在机器学习已经在大量方向被证明能够做到人类几年甚至几十年都没法达到的水平，比如说翻译，推荐，图形识别。电脑确实可能没法理解图形或者语义，但是它能比人类更好地找出规律，这就是它现在存在的意义。机器学习现在已经正在被用在越来越多的方面，绝对没有到退潮的时候。

pei 发表于 10/12/2019 9:08:28 PM

你说的就是我不明白的点。就算法或者逻辑本身来说，并没有大的突破，只是硬件提高了，导致运算速度快，可以处理更多数据。但是这并不是革命性的突破。这就好像在汽车发明以前，人都靠马，更快的马，更耐久的马，但都是马。另外，AI的理念还是基于对人类大脑学习的假设和模型，我接触的越多，越觉得那个模型不对，人类并不是那样学习的

vivi_www 发表于 10/12/2019 9:30:19 PM

Artificial Neural Network 是 inspired by human brain neutral network，并不是真正模拟人类大脑。

数学上，ANN 的核心部分就是取代 nonlinear kernel function written in closed form。

拿个例子，如果用两层 10 个 ReLU 加最后一层 1 个 sigmoid neuron，用 log-loss ，做一个 binary classifier。
tidewater 发表于 10/12/2019 9:49:11 PM

那如果把两层 ReLU 去掉，就是一个 logistic classifier。Logistic classifier 其实就是线性的 separation，logistic 部分只是 math trick 把结果 constrain 在 [0, 1]

但问题是世界上大部分暧昧关系不是线性的。。。

vivi_www

接近 6 年

62 楼

Artificial Neural Network 是 inspired by human brain neutral network，并不是真正模拟人类大脑。

数学上，ANN 的核心部分就是取代 nonlinear kernel function written in closed form。

拿个例子，如果用两层 10 个 ReLU 加最后一层 1 个 sigmoid neuron，用 log-loss ，做一个 binary classifier。
tidewater 发表于 10/12/2019 9:49:11 PM

我同意你，我的意思就是目前对neural network和human learning,包括memory storage, retrieval, information processing等等的理解，还是比较机械的，有很大的假设在里面。所以以此inspire的神经网络为基础的AI，也许方向就不对，就像你说的，是outperform了已有的机器学习，可是也许整个前提就是错的。所以未必能达到现在圈钱时吹嘘的AI的强度。很多时候就是换个名头圈钱，当然也不能说他不对，那算盘也可以算是data analysis

tidewater

接近 6 年

63 楼

AI最近盛行有两个重要的原因，一个是数据量的增加，一个是计算能力的增加。谷歌等公司有了大量的数据和计算能力，电脑能够更好地从数据里找出隐含的规律。现在机器学习已经在大量方向被证明能够做到人类几年甚至几十年都没法达到的水平，比如说翻译，推荐，图形识别。电脑确实可能没法理解图形或者语义，但是它能比人类更好地找出规律，这就是它现在存在的意义。机器学习现在已经正在被用在越来越多的方面，绝对没有到退潮的时候。

pei 发表于 10/12/2019 9:08:28 PM

你说的就是我不明白的点。就算法或者逻辑本身来说，并没有大的突破，只是硬件提高了，导致运算速度快，可以处理更多数据。但是这并不是革命性的突破。这就好像在汽车发明以前，人都靠马，更快的马，更耐久的马，但都是马。另外，AI的理念还是基于对人类大脑学习的假设和模型，我接触的越多，越觉得那个模型不对，人类并不是那样学习的

vivi_www 发表于 10/12/2019 9:30:19 PM

Artificial Neural Network 是 inspired by human brain neutral network，并不是真正模拟人类大脑。

数学上，ANN 的核心部分就是取代 nonlinear kernel function written in closed form。

拿个例子，如果用两层 10 个 ReLU 加最后一层 1 个 sigmoid neuron，用 log-loss ，做一个 binary classifier。
tidewater 发表于 10/12/2019 9:49:11 PM

那如果把两层 ReLU 去掉，就是一个 logistic classifier。Logistic classifier 其实就是线性的 separation，logistic 部分只是 math trick 把结果 constrain 在 [0, 1]

但问题是世界上大部分暧昧关系不是线性的。。。
tidewater 发表于 10/12/2019 9:54:51 PM

再写下去就学究了。那非线性怎么办？
要么 massage input，比如 feature cross，弄成线性关系。但这本质上就是把丑女按摩成校花的任务～～～泪😭

Giovanna

接近 6 年

64 楼

首先，做这行的其实没人把AI挂嘴上，做CV的都老老实实叫CV，做NLP的叫NLP，做机器人的就说做机器人，貌似是外界听说了deep learning在计算机视觉和自然语言处理上取得突破性表现，而且用到了神经网络这个称呼听起来跟人脑搭上了边儿的词，才开始炒作AI。你问我为啥这么叫，我也不知道，因为我不这么叫啊哈哈。起码跟大众理解的general AI一点不搭边。我们现在做的充其量是narrow AI，也就是task specific的东西，你说pattern recognition可以解决一点毛病没有，deep learning也是方法之一，仅此而已。具体任务来了，别看广告看疗效，啥方法管用上啥。

其次，上个世纪就有的概念，在现阶段才有实现的可能。概念是否成立，是否真的管用，管用的话具体用在哪里，如何实现，效果如何，都是科研和工程的问题。你所谓的革命性突破，只限于理论模型假设的话，那么基本所有的工程学科基本都可以歇菜了。

最后说裂痕检测的例子，事实上你要和比较的是这么几件事的成本：一是什么也不做，听天由命等着出事故的成本，二是派人天天手动去检测的成本，三才是应用我们技术的成本。至于技术用哪个，是deep learning还是传统方法，都的看具体data才说了算。

我不明白的是传统的模式识别图像处理就可以做到这些，为啥叫AI呢？神经网络机器学习这些技术上个世纪就存在了，我困惑的是现在并没有革命性的突破。另外找出一个crack不能算成功。如果统计意义上找出的显著高于没有 AI的，加上detection出来以后带来的gain 显著超过增加的成本的，才具有一定的市场应用性。business和technology考虑的不一样，而且很多行业考虑的是降低成本, AI本身还不能带来革命性的产业发展

vivi_www 发表于 10/12/2019 20:44:00

tidewater

接近 6 年

65 楼

AI最近盛行有两个重要的原因，一个是数据量的增加，一个是计算能力的增加。谷歌等公司有了大量的数据和计算能力，电脑能够更好地从数据里找出隐含的规律。现在机器学习已经在大量方向被证明能够做到人类几年甚至几十年都没法达到的水平，比如说翻译，推荐，图形识别。电脑确实可能没法理解图形或者语义，但是它能比人类更好地找出规律，这就是它现在存在的意义。机器学习现在已经正在被用在越来越多的方面，绝对没有到退潮的时候。

pei 发表于 10/12/2019 9:08:28 PM

你说的就是我不明白的点。就算法或者逻辑本身来说，并没有大的突破，只是硬件提高了，导致运算速度快，可以处理更多数据。但是这并不是革命性的突破。这就好像在汽车发明以前，人都靠马，更快的马，更耐久的马，但都是马。另外，AI的理念还是基于对人类大脑学习的假设和模型，我接触的越多，越觉得那个模型不对，人类并不是那样学习的

vivi_www 发表于 10/12/2019 9:30:19 PM

Artificial Neural Network 是 inspired by human brain neutral network，并不是真正模拟人类大脑。

数学上，ANN 的核心部分就是取代 nonlinear kernel function written in closed form。

拿个例子，如果用两层 10 个 ReLU 加最后一层 1 个 sigmoid neuron，用 log-loss ，做一个 binary classifier。
tidewater 发表于 10/12/2019 9:49:11 PM

那如果把两层 ReLU 去掉，就是一个 logistic classifier。Logistic classifier 其实就是线性的 separation，logistic 部分只是 math trick 把结果 constrain 在 [0, 1]

但问题是世界上大部分暧昧关系不是线性的。。。
tidewater 发表于 10/12/2019 9:54:51 PM

再写下去就学究了。那非线性怎么办？
要么 massage input，比如 feature cross，弄成线性关系。但这本质上就是把丑女按摩成校花的任务～～～泪😭
tidewater 发表于 10/12/2019 9:57:52 PM

另一个办法就是当中塞一个 nonlinear kernel function ，写个 analytic form。
但这坑爹的问题，就好比用吉米多维奇写个重力场函数，然后丑女往里面一站就变成校花！！

想法是不错，但这重力场函数谁写的出来？

Deep Learning 的突破就是，算了别这么干。弄个 network ，本质上就是 piece wise function (ReLU 就是 piecewise linear，就是懒死你，简单）， with large number of trainable parameters，然后用数据驱动找出非线性的暧昧关系。

lesity

接近 6 年

66 楼

再写下去就学究了。那非线性怎么办？
要么 massage input，比如 feature cross，弄成线性关系。但这本质上就是把丑女按摩成校花的任务～～～泪😭
tidewater 发表于 10/12/2019 9:57:52 PM

外行再问一句，这样看来，现在AI的学习方法和小学生学数学一样: A和B相距5km，B以2.5km速度匀速前进几小时能到达A? AI必须在一个人为创造下，完美的环境运算。如果那个完美环境换成了人类自己都无法控制的真实环境，按照人类大脑推算出来的运算方式到底有没有意义?还是需要创造一套比人类大脑更高级，可以运算更多维的算法?当然这个可能是个哲学问题...

blackplains

接近 6 年

67 楼

几年前AI已经打败人类围棋世界冠军了, 这比当年赢chess大师难度高很多

金融界好像也有AI运算来买卖股票, 有了解这方面的吗?

tidewater

接近 6 年

68 楼

首先，做这行的其实没人把AI挂嘴上，做CV的都老老实实叫CV，做NLP的叫NLP，做机器人的就说做机器人，貌似是外界听说了deep learning在计算机视觉和自然语言处理上取得突破性表现，而且用到了神经网络这个称呼听起来跟人脑搭上了边儿的词，才开始炒作AI。你问我为啥这么叫，我也不知道，因为我不这么叫啊哈哈。起码跟大众理解的general AI一点不搭边。我们现在做的充其量是narrow AI，也就是task specific的东西，你说pattern recognition可以解决一点毛病没有，deep learning也是方法之一，仅此而已。具体任务来了，别看广告看疗效，啥方法管用上啥。

其次，上个世纪就有的概念，在现阶段才有实现的可能。概念是否成立，是否真的管用，管用的话具体用在哪里，如何实现，效果如何，都是科研和工程的问题。你所谓的革命性突破，只限于理论模型假设的话，那么基本所有的工程学科基本都可以歇菜了。

最后说裂痕检测的例子，事实上你要和比较的是这么几件事的成本：一是什么也不做，听天由命等着出事故的成本，二是派人天天手动去检测的成本，三才是应用我们技术的成本。至于技术用哪个，是deep learning还是传统方法，都的看具体data才说了算。

我不明白的是传统的模式识别图像处理就可以做到这些，为啥叫AI呢？神经网络机器学习这些技术上个世纪就存在了，我困惑的是现在并没有革命性的突破。另外找出一个crack不能算成功。如果统计意义上找出的显著高于没有 AI的，加上detection出来以后带来的gain 显著超过增加的成本的，才具有一定的市场应用性。business和technology考虑的不一样，而且很多行业考虑的是降低成本, AI本身还不能带来革命性的产业发展

vivi_www 发表于 10/12/2019 20:44:00

Giovanna 发表于 10/12/2019 10:04:54 PM

对，很多模块还就是直接写 code ，不一定是 machine learning。反正能抓老鼠就是猫。
但另一方面，确实是 deep learning 的突破，让这些开始成为可能。

vivi_www

接近 6 年

69 楼

首先，做这行的其实没人把AI挂嘴上，做CV的都老老实实叫CV，做NLP的叫NLP，做机器人的就说做机器人，貌似是外界听说了deep learning在计算机视觉和自然语言处理上取得突破性表现，而且用到了神经网络这个称呼听起来跟人脑搭上了边儿的词，才开始炒作AI。你问我为啥这么叫，我也不知道，因为我不这么叫啊哈哈。起码跟大众理解的general AI一点不搭边。我们现在做的充其量是narrow AI，也就是task specific的东西，你说pattern recognition可以解决一点毛病没有，deep learning也是方法之一，仅此而已。具体任务来了，别看广告看疗效，啥方法管用上啥。

其次，上个世纪就有的概念，在现阶段才有实现的可能。概念是否成立，是否真的管用，管用的话具体用在哪里，如何实现，效果如何，都是科研和工程的问题。你所谓的革命性突破，只限于理论模型假设的话，那么基本所有的工程学科基本都可以歇菜了。

最后说裂痕检测的例子，事实上你要和比较的是这么几件事的成本：一是什么也不做，听天由命等着出事故的成本，二是派人天天手动去检测的成本，三才是应用我们技术的成本。至于技术用哪个，是deep learning还是传统方法，都的看具体data才说了算。

Giovanna 发表于 10/12/2019 10:04:54 PM

美女别激动哈，我的所有point都针对现在用新瓶装旧酒来圈钱的人，PR和ML的概念也早已贯彻应用几十年了，当然肯定现在有很多应用是过去还做不到的。对于crack detection的评论也是基于我目前行业的应用，传统的声学，基本的图像处理已经可以检测足够的crack,用更高大上的技术也许是可以检测出更多，但是在成本上远远超过带来的Profit，也许在你说的例子和我理解的不一样。我们讨论的也许根本不是一个问题而且可能彼此看到的点都是对的。我只是针对现在各行各业都在鼓吹并且向Big data, AI 靠拢的风气，提出一点小小的质疑。

skyclouds

接近 6 年

70 楼

Mark mark

ArrestedDevelopment

接近 6 年

71 楼

头一回看到有人把现代物体识别系统的几大问题说成ai的问题。ai就这样被等同于物体识别了？

tidewater

接近 6 年

72 楼

再写下去就学究了。那非线性怎么办？
要么 massage input，比如 feature cross，弄成线性关系。但这本质上就是把丑女按摩成校花的任务～～～泪😭
tidewater 发表于 10/12/2019 9:57:52 PM

外行再问一句，这样看来，现在AI的学习方法和小学生学数学一样: A和B相距5km，B以2.5km速度匀速前进几小时能到达A? AI必须在一个人为创造下，完美的环境运算。如果那个完美环境换成了人类自己都无法控制的真实环境，按照人类大脑推算出来的运算方式到底有没有意义?还是需要创造一套比人类大脑更高级，可以运算更多维的算法?当然这个可能是个哲学问题...

lesity 发表于 10/12/2019 10:07:03 PM

现在的 deep learning 能做到螳螂学数学就笑不动了～～～

tidewater

接近 6 年

73 楼

首先，做这行的其实没人把AI挂嘴上，做CV的都老老实实叫CV，做NLP的叫NLP，做机器人的就说做机器人，貌似是外界听说了deep learning在计算机视觉和自然语言处理上取得突破性表现，而且用到了神经网络这个称呼听起来跟人脑搭上了边儿的词，才开始炒作AI。你问我为啥这么叫，我也不知道，因为我不这么叫啊哈哈。起码跟大众理解的general AI一点不搭边。我们现在做的充其量是narrow AI，也就是task specific的东西，你说pattern recognition可以解决一点毛病没有，deep learning也是方法之一，仅此而已。具体任务来了，别看广告看疗效，啥方法管用上啥。

其次，上个世纪就有的概念，在现阶段才有实现的可能。概念是否成立，是否真的管用，管用的话具体用在哪里，如何实现，效果如何，都是科研和工程的问题。你所谓的革命性突破，只限于理论模型假设的话，那么基本所有的工程学科基本都可以歇菜了。

最后说裂痕检测的例子，事实上你要和比较的是这么几件事的成本：一是什么也不做，听天由命等着出事故的成本，二是派人天天手动去检测的成本，三才是应用我们技术的成本。至于技术用哪个，是deep learning还是传统方法，都的看具体data才说了算。

Giovanna 发表于 10/12/2019 10:04:54 PM

美女别激动哈，我的所有point都针对现在用新瓶装旧酒来圈钱的人，PR和ML的概念也早已贯彻应用几十年了，当然肯定现在有很多应用是过去还做不到的。对于crack detection的评论也是基于我目前行业的应用，传统的声学，基本的图像处理已经可以检测足够的crack,用更高大上的技术也许是可以检测出更多，但是在成本上远远超过带来的Profit，也许在你说的例子和我理解的不一样。我们讨论的也许根本不是一个问题而且可能彼此看到的点都是对的。我只是针对现在各行各业都在鼓吹并且向Big data, AI 靠拢的风气，提出一点小小的质疑。

vivi_www 发表于 10/12/2019 10:12:48 PM

新技术通常不会在旧的成熟行业首先开花。

就好比内燃机首先是给汽车火车，而不会先去取代摆渡轮船的锅炉。

或者半导体集成电路首先是给阿波罗登月的飞控计算机，而不是苏联特产红灯牌电子管收音机顺便照亮了整个屋子。:-P

还有 GPS 全球卫星定位首先是给美国空军飞机定位的，而不是为了取代 AAA 的地图。

但新行业技术一旦成熟，把就去老行业掀桌子，直接端。

这主要还是投资和社会运作的模式问题。

Giovanna

接近 6 年

74 楼

完全没觉得offended啊哈哈，有人有印象的话，我以前回贴的立场一直都是1，deep learning没什么玄的，鼓励大家去自学；2，不喜欢现在的主流research都基本脱离不了deep learning这个炼丹术，像是搭lego，没啥数学，挺没劲的。

我前面提到AI应用的例子里，AI没有特指deep learning，传统方法也算是AI的一部分啊，起码我是这么理解的。如果说你比较的是deep learning vs传统方法，DL未必管用，那我完全赞成。这玩意在具体应用上是否能带来突破，大家都在试。我的意思是，计算机视觉，自然语言处理，机器人等等这些AI技术的应用未来机会还是会很多。你们也许已经有一定的技术手段去解决问题了，但是还有更多更多根本没有用到过任何类似技术的行业，都可以开发。比如前一阵有咨询公司用NLP分析政府公开报告，为很多NGO做未来走势预测。太多想不到的应用点了。

美女别激动哈，我的所有point都针对现在用新瓶装旧酒来圈钱的人，PR和ML的概念也早已贯彻应用几十年了，当然肯定现在有很多应用是过去还做不到的。对于crack detection的评论也是基于我目前行业的应用，传统的声学，基本的图像处理已经可以检测足够的crack,用更高大上的技术也许是可以检测出更多，但是在成本上远远超过带来的Profit，也许在你说的例子和我理解的不一样。我们讨论的也许根本不是一个问题而且可能彼此看到的点都是对的。我只是针对现在各行各业都在鼓吹并且向Big data, AI 靠拢的风气，提出一点小小的质疑。

vivi_www 发表于 10/12/2019 22:12:00

ecnanif

接近 6 年

75 楼

说的有道理，但是这种东西你放在几年里看，看不出大进步，进步都是一点点的。20年前我老公搞AI，就是图像识别，他觉得没希望，连最基本的识别车牌都不行，大家都是发文章灌水，所以他转行了。20年后，高度收费不是很多都自动识别车牌了么。人的眼睛是几亿年的进步得来的，AI 也是要一点一点的进步。

tidewater

接近 6 年

76 楼

完全没觉得offended啊哈哈，有人有印象的话，我以前回贴的立场一直都是1，deep learning没什么玄的，鼓励大家去自学；2，不喜欢现在的主流research都基本脱离不了deep learning这个炼丹术，像是搭lego，没啥数学，挺没劲的。

我前面提到AI应用的例子里，AI没有特指deep learning，传统方法也算是AI的一部分啊，起码我是这么理解的。如果说你比较的是deep learning vs传统方法，DL未必管用，那我完全赞成。这玩意在具体应用上是否能带来突破，大家都在试。我的意思是，计算机视觉，自然语言处理，机器人等等这些AI技术的应用未来机会还是会很多。你们也许已经有一定的技术手段去解决问题了，但是还有更多更多根本没有用到过任何类似技术的行业，都可以开发。比如前一阵有咨询公司用NLP分析政府公开报告，为很多NGO做未来走势预测。太多想不到的应用点了。

美女别激动哈，我的所有point都针对现在用新瓶装旧酒来圈钱的人，PR和ML的概念也早已贯彻应用几十年了，当然肯定现在有很多应用是过去还做不到的。对于crack detection的评论也是基于我目前行业的应用，传统的声学，基本的图像处理已经可以检测足够的crack,用更高大上的技术也许是可以检测出更多，但是在成本上远远超过带来的Profit，也许在你说的例子和我理解的不一样。我们讨论的也许根本不是一个问题而且可能彼此看到的点都是对的。我只是针对现在各行各业都在鼓吹并且向Big data, AI 靠拢的风气，提出一点小小的质疑。

vivi_www 发表于 10/12/2019 22:12:00

Giovanna 发表于 10/12/2019 10:42:33 PM

这个 research 的，大部分教授首先也是吃饭，而不是成为爱因斯坦或者伽罗华。

tidewater

接近 6 年

77 楼

说的有道理，但是这种东西你放在几年里看，看不出大进步，进步都是一点点的。20年前我老公搞AI，就是图像识别，他觉得没希望，连最基本的识别车牌都不行，大家都是发文章灌水，所以他转行了。20年后，高度收费不是很多都自动识别车牌了么。人的眼睛是几亿年的进步得来的，AI 也是要一点一点的进步。
ecnanif 发表于 10/12/2019 10:55:00 PM

二十年以前也没有 deep learning。

现在 CV 都是基于 deep learning

红

红豆沙黑咖啡

接近 6 年

78 楼

是不是泡沫什么时候破灭不知道。不过是真有一种‘AI宗教’的感觉。
PS，CS的发考题们（特指那些做DL的）是所有发考题中最喜欢发fb，twitter的。几个一个推/po，来通告/恭喜/感恩自己又中了XX会议，在XX做了talk，学生present了某个paper。

tidewater

接近 6 年

79 楼

说的有道理，但是这种东西你放在几年里看，看不出大进步，进步都是一点点的。20年前我老公搞AI，就是图像识别，他觉得没希望，连最基本的识别车牌都不行，大家都是发文章灌水，所以他转行了。20年后，高度收费不是很多都自动识别车牌了么。人的眼睛是几亿年的进步得来的，AI 也是要一点一点的进步。
ecnanif 发表于 10/12/2019 10:55:00 PM

刚才看了一下，那哥们说的很多都不太对头。很多简单重复的任务不需要高超的高端理解力，不是读莎士比亚全集。再说还可以用不同的传感器雷达弥补。

tidewater

接近 6 年

80 楼

是不是泡沫什么时候破灭不知道。不过是真有一种‘AI宗教’的感觉。
PS，CS的发考题们是所有发考题中最喜欢发fb，twitter的。几个一个推/po，来通告/恭喜/感恩自己又中了XX会议，在XX做了talk，学生present了某个paper。
红豆沙黑咖啡发表于 10/12/2019 11:04:41 PM

那生物 Paper 怎么讲？心理学 Paper 又怎么办？
Paper 就是一张纸，不等于爱因斯坦那张纸。

wangbing

接近 6 年

81 楼

中国ai正在兴起，怎么退潮？

现在中国国道收费都去人工化

wangbing

接近 6 年

82 楼

中国，美国发展AI道理不一样
中国追求实用性，美国追求理论

Sunny111

接近 6 年

83 楼

这么长的贴子，等没事时再看

tidewater

接近 6 年

84 楼

这么长的贴子，等没事时再看
Sunny111 发表于 10/13/2019 12:06:31 AM

哈哈😄 确实长

刚才看到 “可求导编程”。这个也没说到本质。Calculus Based iterative solver 很多了，能求解关键是一定程度的 convexity ，不是光光可求导就完了。

实际上如果是 ReLU neuron，那是 Lipschitz continuous，不是真正的完全 continuous differentiable ，不过这个有点太细节问题。

tidewater

接近 6 年

85 楼

中国，美国发展AI道理不一样
中国追求实用性，美国追求理论
wangbing 发表于 10/12/2019 11:11:23 PM

也不全是，他那个文章主要是说学术界。

他说地学术界有夸大其辞的超人类识别率，这个确实是有可能的。现在学术界早不是象牙塔，都是靠 paper 吃饭，语不惊人死不休。

但不能否则这两年 deep learning 和 CV NLP 但跨越式发展。

JJZhou

接近 6 年

86 楼

Mark 好文分享

月

月沼

接近 6 年

87 楼

ai世界现在有几方，一方是吃瓜群众，一方是资本方，一方是学术界，一方是工业界，后面两者现在比较一体，不过目前一些垂直领域工业界落地受阻，一些学者开始回归做理论突破。总体上说，实际ai是个咋回事儿，不能看资本方吹的，人家吹是为了做估值，不能看学术界拿出来吹的，这个是被资本方拿来吹得，最实在的是看后面工业界做落地的，应用在什么问题，是不是非用不可，用了以后带来多大的商业价值。真想知道，可以跟各个领域人的谈一谈，电商广告推荐系统应该是吃瓜群众直接接触到最多的落地实例，其他还有很多2b的，吃瓜群众要是不在这个行业就未必知道了。

这几年ai火了，因为数据爆炸了，算力阶跃式提升了，理论的东西终于可以实践了。并且数据爆炸，数据量以及复杂度导致人工处理或者简单的规则处理不可行，确实有这样的刚需了，总之行业发展就是到了这步。但是路还很长，媒体画的美景看看就好，真到那一步技术还需要革新。但是也不会再回去了，数据量放在那里，机器不是在取代人，而是帮助做一些冗长繁杂人力所不能及的事情。

boogeyman

接近 6 年

88 楼

自动驾驶可能会退潮，因为它只属于AI的一部分，AI是人类的永远的方向。参考未来简史。

月

月沼

接近 6 年

89 楼

普适的自动驾驶本身not ready yet，但是在一些很小的应用场景中，其实商业化落地进行中。与其看成是退潮，不如说是泡沫要挤掉一部分，开始回归理性。但是大趋势是不会逆转的。

huanhuankan

接近 6 年

90 楼

印了那么多钱，总要有个去处

heartinny

接近 6 年

91 楼

回复 78楼红豆沙黑咖啡的帖子

关键不是对AI的定义，而是对泡沫的定义。任何一个技术，有的人已经偷偷在挣很多钱了，另一帮人叽叽歪歪的在争是不是好技术。你说谁更扯蛋？

wangbing

接近 6 年

92 楼

中国是在全面的爆发

举一个例子，中国现在正在做的

中国中部一个省，为了解决县级市高端医疗困境，在省会设立中国第一家人工智能医院，省立智慧医院，旨在为基层特别是边远不发达地区的医务人员提供高水平的诊断辅助，提高医务人员诊断水平。

辅助诊疗中心已与省医学影像云平台、省立医院医联体远程会诊平台完成对接，在已接入的41家县级医院，人工智能辅助诊断系统将为它们提供胸部CT和乳腺钼靶影像的智能辅助诊断及质检服务。此外，该医院对口帮扶的西藏山南地区人民医院也已接入该系统，未来该平台将服务于全省105个县。

wangbing

接近 6 年

93 楼

人工智能应用其实在中国推广加速了

辅助诊疗中心已与省医学影像云平台、省立医院医联体远程会诊平台完成对接，在已接入的41家县级医院，

这个医疗中心会全国推广，推广到社区医院

wangbing

接近 6 年

94 楼

印度总理不是要求印度要引进视觉识别，因为印度警察严重缺乏

wangbing

接近 6 年

95 楼

现在中国很多中小学上课考试，课堂上马上阅卷，都是通过人工智能阅卷，

wangbing

接近 6 年

96 楼

现在中国法院审批书记员都不要现场记录，都是人工智能语音输入
现在很多医院医生都不要记录病录，病人讲完病情，马上就出现电子病历

其实这些都是人工智能，人工智能只是帮助人，不是全面替代人

tidewater

接近 6 年

97 楼

现在中国法院审批书记员都不要现场记录，都是人工智能语音输入
现在很多医院医生都不要记录病录，病人讲完病情，马上就出现电子病历

其实这些都是人工智能，人工智能只是帮助人，不是全面替代人
wangbing 发表于 10/13/2019 7:32:39 AM

“人工智能只是帮助人，不是全面替代人”

这个说法是对的，也就是人力的效力倍增器 force multiplier 就行了。

但这个能做出了就相当可观了。就好比一个人能做过去五个人的事～

jackych

接近 6 年

98 楼

大公司里各方面都已经用上了，谷歌翻译用机器学习准确率有了质的飞跃，短短时间就达到了人工手调若干年都没法达到的标准，还有视频推荐，搜索推荐，举不胜举。

pei 发表于 10/12/2019 9:12:14 PM

谷歌翻译还是没法用，实在没办法偷懒采用的。YouTube给我的推荐都是一言难尽，能感觉出一股浓浓的机器味道。这就是所谓的人工智能和人的本质区别吧

lesity

接近 6 年

99 楼

回复 78楼红豆沙黑咖啡的帖子

关键不是对AI的定义，而是对泡沫的定义。任何一个技术，有的人已经偷偷在挣很多钱了，另一帮人叽叽歪歪的在争是不是好技术。你说谁更扯蛋？
heartinny 发表于 10/13/2019 6:45:02 AM

我感觉这文章对外行还是有帮助的，至少换车的时候我会知道现在的自动驾驶系统都不完全可信，Tesla,其他牌子也不行，除非有突破性的新研究。我家的nest cam的自动识别系统也相当不可靠，经常把车子认成人，然后把人漏掉。

jackych

接近 6 年

100 楼

几年前AI已经打败人类围棋世界冠军了, 这比当年赢chess大师难度高很多

金融界好像也有AI运算来买卖股票, 有了解这方面的吗?
blackplains 发表于 10/12/2019 10:07:24 PM

下棋是最容易用机器来做好的，规则明确。可是不是现实世界的运作方式