最近视觉领域的self supervised learning进展不少

C
Caravel
楼主 (未名空间)

self supervised learning指的是不依靠外部的label,依靠data之间内在的联系来
train。
https://arxiv.org/pdf/1803.07728.pdf
这篇文章的idea很简单,就是把图像转0, 90,180,270,然后train一个model to
predict旋转的角度。用这个task train一个feature extraction network。 为了准确predict角度,这个model自动就学会了像supervise learning类似的feature。 作者用生成的feature继续train 一个classifier可以获得和监督学习相当的STOA的结果。

还有一个最近的文章https://sites.google.com/view/space-project-page
通过看video可以学习object-oriented的表象。
b
blueconifer

就是结合了传统视觉特征提取里的思路

【 在 Caravel (克拉维尔) 的大作中提到: 】
: self supervised learning指的是不依靠外部的label,依靠data之间内在的联系来
: train。
: https://arxiv.org/pdf/1803.07728.pdf
: 这篇文章的idea很简单,就是把图像转0, 90,180,270,然后train一个model to : predict旋转的角度。用这个task train一个feature extraction network。 为了准确
: predict角度,这个model自动就学会了像supervise learning类似的feature。 作者用
: 生成的feature继续train 一个classifier可以获得和监督学习相当的STOA的结果。
: 还有一个最近的文章
: https://sites.google.com/view/space-project-page
: 通过看video可以学习object-oriented的表象。

C
Caravel

很多昆虫蜻蜓都有视觉,那么点神经物质,视觉应该不会那么难吧?

【 在 blueconifer (蓝杉) 的大作中提到: 】
: 就是结合了传统视觉特征提取里的思路

x
xiaoju

这个思路很好啊!

严格的说不是算法的改进,是训练方法的改进

人类拍摄的照片的默认角度是由主体的方向和位置的,用旋转角度做label可以充分利
用无标签的照片

【 在 Caravel (克拉维尔) 的大作中提到: 】
: self supervised learning指的是不依靠外部的label,依靠data之间内在的联系来
: train。
: https://arxiv.org/pdf/1803.07728.pdf
: 这篇文章的idea很简单,就是把图像转0, 90,180,270,然后train一个model to : predict旋转的角度。用这个task train一个feature extraction network。 为了准确
: predict角度,这个model自动就学会了像supervise learning类似的feature。 作者用
: 生成的feature继续train 一个classifier可以获得和监督学习相当的STOA的结果。
: 还有一个最近的文章
: https://sites.google.com/view/space-project-page
: 通过看video可以学习object-oriented的表象。
: ...................

x
xiaoju

最牛逼的地方是,昆虫的视觉和脊椎动物的视觉虽然类似,但二者的共同祖先却是在视觉出现之前的

生物视觉实际上是一套算法而已,即使是外星小绿人也大概率有类似结构

【 在 Caravel (克拉维尔) 的大作中提到: 】
: 标 题: Re: 最近视觉领域的self supervised learning进展不少
: 发信站: BBS 未名空间站 (Thu Jan 9 17:13:40 2020, 美东)
:
: 很多昆虫蜻蜓都有视觉,那么点神经物质,视觉应该不会那么难吧?
:
: 【 在 blueconifer (蓝杉) 的大作中提到: 】
: : 就是结合了传统视觉特征提取里的思路
:
:
:
: --
w
wdong

同意。

【 在 xiaoju (可爱的龙猫) 的大作中提到: 】
: 这个思路很好啊!
: 严格的说不是算法的改进,是训练方法的改进
: 人类拍摄的照片的默认角度是由主体的方向和位置的,用旋转角度做label可以充分利
: 用无标签的照片

b
blueconifer

昆虫蜻蜓是单片机,反应比人快,但是非常怀疑一个生命周期里有学习功能。

【 在 Caravel (克拉维尔) 的大作中提到: 】
: 很多昆虫蜻蜓都有视觉,那么点神经物质,视觉应该不会那么难吧?

C
Caravel

这个idea不难想到,这篇文章最大的贡献是调出来了参数,使用了一些最近才出现的技术,比如attention机制。

【 在 xiaoju (可爱的龙猫) 的大作中提到: 】
: 这个思路很好啊!
: 严格的说不是算法的改进,是训练方法的改进
: 人类拍摄的照片的默认角度是由主体的方向和位置的,用旋转角度做label可以充分利
: 用无标签的照片

C
Caravel

10年之内能参悟出机器视觉的真谛么,话说神经科学太不给力,为啥连最简单的生物的神经网络机制都搞不明白。
【 在 xiaoju (可爱的龙猫) 的大作中提到: 】
: 最牛逼的地方是,昆虫的视觉和脊椎动物的视觉虽然类似,但二者的共同祖先却是在视
: 觉出现之前的
: 生物视觉实际上是一套算法而已,即使是外星小绿人也大概率有类似结构

g
guvest

你们难道没有注意到,照相机和人视觉系统是根本不同的吗?人看东西的时候,脖子会动的,眼球也会动,还会自动调整焦距。你看看运动员怎么用视觉的。

照片那种图片的产生过程多数都是固定角度来产生的。所以认知过程的很多维度,是从照片那种图片无法推演的。
此其一。
其二,照相机的设计反映了认识主体和客体的二分。这个设计是旧的西方理念的产物。感受,加上作用其上的先天范畴,带来经验和知识什么的。这是康德总结的。他把感受单独分割出去。这连运动员对视觉的使用都解释不了的。

但是设计一套机器,带给用户另外的像素到知识的close loop,完全是可行的。这种设计,本身也是对新认识论的探索。我不敢说这种loop会导致新的知识。但是导致新的经验应该是可以的。

我有实证,具体设计不详细说。思路就是认为人看东西是信号接收和主动的探索的生成变化。不是康德所说,感受-人的先天范畴的应用-经验认识 这样一个分而治之的过程
。分而治之是解决问题的好办法。不等于问题本身就是三个部分。

【 在 Caravel(克拉维尔) 的大作中提到: 】
<br>: 这个idea不难想到,这篇文章最大的贡献是调出来了参数,使用了一些最近才出
现的技
<br>: 术,比如attention机制。
<br>

x
xiaoju

机制能搞明白,权值不知道啊

【 在 Caravel (克拉维尔) 的大作中提到: 】
: 10年之内能参悟出机器视觉的真谛么,话说神经科学太不给力,为啥连最简单的生物的
: 神经网络机制都搞不明白。

x
xiaoju

我觉得attention之类都是trick,将来很有可能换成更与时俱进的

这篇文章是在训练方法很有创新的,现在一般研究都集中在模型本身和优化手段上,但个世界未必所有问题都可以通过模型加训练集搞定

【 在 Caravel (克拉维尔) 的大作中提到: 】
: 这个idea不难想到,这篇文章最大的贡献是调出来了参数,使用了一些最近才出现的技
: 术,比如attention机制。

c
chebyshev

semi learning都用无label数据的。
甲骨文一点点翻译出来其实就是这个过程。先开始只有几个明显的字认识。
早先我把knn找了个办法改一改数据。问wdong有没人这样干过。
是wdong告诉我semi supervised learning这个术语。
我一查最早的semi learning之一还是语言学家发明的。
【 在 xiaoju (可爱的龙猫) 的大作中提到: 】
: 我觉得attention之类都是trick,将来很有可能换成更与时俱进的
: 这篇文章是在训练方法很有创新的,现在一般研究都集中在模型本身和优化手段上,但
: 个世界未必所有问题都可以通过模型加训练集搞定

C
Caravel

能调出参才是王道,这些技术层面的东西也很重要,否则光开脑洞没用

【 在 xiaoju (可爱的龙猫) 的大作中提到: 】
: 我觉得attention之类都是trick,将来很有可能换成更与时俱进的
: 这篇文章是在训练方法很有创新的,现在一般研究都集中在模型本身和优化手段上,但
: 个世界未必所有问题都可以通过模型加训练集搞定

g
goodtudou

值得读一下吗

实用性可有?
最后一个作者是个大牛。以前搞什么马尔可夫场的好像是

【 在 Caravel (克拉维尔) 的大作中提到: 】
: self supervised learning指的是不依靠外部的label,依靠data之间内在的联系来
: train。
: https://arxiv.org/pdf/1803.07728.pdf
: 这篇文章的idea很简单,就是把图像转0, 90,180,270,然后train一个model to : predict旋转的角度。用这个task train一个feature extraction network。 为了准确
: predict角度,这个model自动就学会了像supervise learning类似的feature。 作者用
: 生成的feature继续train 一个classifier可以获得和监督学习相当的STOA的结果。
: 还有一个最近的文章
: https://sites.google.com/view/space-project-page
: 通过看video可以学习object-oriented的表象。

g
guvest

我也想问。其实我都没看懂他怎么把无监督预测,嫁接到classfier的。

假设每个img有4个像素,abcd. 训练集合
200个图。其中10个有label。label是0,1两类。

再假设完成了一个预测旋转角度的预测器。
对任意(a,b,c,d)四像素,可以输出一个角度。
[这是文章的主要成果]

但是,然后步骤是什么?怎么对一个测试图,分出来0,1两类。这步我不明白。

【 在 goodtudou(goodtudou) 的大作中提到: 】
<br>: 值得读一下吗
<br>: 实用性可有?
<br>: 最后一个作者是个大牛。以前搞什么马尔可夫场的好像是
<br>

C
Caravel

有150多次引用,应该还是比较solid的把。 文中没有细说,但是他有code,嫁接是
transfer learning很standard的技巧,就是把无监督的网络中间一些或全部layer的结果拿出来,把weight lock住,然后再接上少量几层classifier,再用labeled data
train一下。

我把open review的链接也找出来了https://openreview.net/forum?id=S1v4N2l0-

【 在 guvest (我爱你老婆Anna) 的大作中提到: 】
: 我也想问。其实我都没看懂他怎么把无监督预测,嫁接到classfier的。
:
: 值得读一下吗
:
: 实用性可有?
:
: 最后一个作者是个大牛。以前搞什么马尔可夫场的好像是
:

g
guvest

嫁接的这步不理解。不理解其合理性何在。不明觉厉。

【 在 Caravel(克拉维尔) 的大作中提到: 】

: 有150多次引用,应该还是比较solid的把。 文中没有细说,但是他有code,嫁
接是

: transfer learning很standard的技巧,就是把无监督的网络中间一些或全部
layer的结

: 果拿出来,把weight lock住,然后再接上少量几层classifier,再用labeled
data

: train一下。

: 我把open review的链接也找出来了

: https://openreview.net/forum?id=S1v4N2l0-

C
Caravel

classification是另外一个task,需要label,但是前面无监督学习得到的feature和
representation有用

【 在 guvest (我爱你老婆Anna) 的大作中提到: 】
: 我也想问。其实我都没看懂他怎么把无监督预测,嫁接到classfier的。
: 假设每个img有4个像素,abcd. 训练集合
: 200个图。其中10个有label。label是0,1两类。
: 再假设完成了一个预测旋转角度的预测器。
: 对任意(a,b,c,d)四像素,可以输出一个角度。
: [这是文章的主要成果]
: 但是,然后步骤是什么?怎么对一个测试图,分出来0,1两类。这步我不明白。
:
: 值得读一下吗
:
: 实用性可有?
:
: 最后一个作者是个大牛。以前搞什么马尔可夫场的好像是
: ...................

g
guvest

他把前面一个角度预测任务的feature 弄过来,weight lock。
然后后面接上少量几层,用少量的label数据,只训练这少量的几层?

我怕这个技术太specific。根据我的个人经验,我怀疑这个技术只能用在图形上。最简单的linear regression任务,这样操作一下,结果可能不会好。
【 在 Caravel(克拉维尔) 的大作中提到: 】
<br>: classification是另外一个task,需要label,但是前面无监督学习得到的
feature和
<br>: representation有用
<br>

C
Caravel

对,就是这样。这个是pre-training,这个技巧本身用的很多,比方说NLP里面的word embedding model train出来,可以做翻译之类的。 如果这些feature本身是很general的对后面任务就很有用。

【 在 guvest (我爱你老婆Anna) 的大作中提到: 】
: 他把前面一个角度预测任务的feature 弄过来,weight lock。
: 然后后面接上少量几层,用少量的label数据,只训练这少量的几层?
: 我怕这个技术太specific。根据我的个人经验,我怀疑这个技术只能用在图形上。最简
: 单的linear regression任务,这样操作一下,结果可能不会好。
:
: classification是另外一个task,需要label,但是前面无监督学习得到的
: feature和
:
: representation有用
:

g
guvest

那这文章背后的直觉似乎是:
决定一个图的名字(或者lable last)的那部分像素,和决定一个图的上下方向的那部
分像素,有极大的重叠。

这个很可能是对的。例如图中一鸟。除鸟之外的背景,对旋转角度贡献较小。就是说图的背景一般都是立方体类似的,不贡献于90度旋转。

我看了下现在的房间。除了人,几乎都是矩形的。所以选择识别对旋转贡献多的那块像素,约等于是选择了人那块像素。
【 在 Caravel(克拉维尔) 的大作中提到: 】
<br>: 对,就是这样。这个是pre-training,这个技巧本身用的很多,比方说
NLP里面
的word
<br>: embedding model train出来,可以做翻译之类的。 如果这些feature本
身是很
general
<br>: 的对后面任务就很有用。
<br>

C
Caravel

我更愿意相信是提取了高于像素的抽象信息,前面贴的第二个文章就是可以Learn出来
object,我们人看到一个照片,我们会知道我前面是个显示屏,大小位置信息。我再观察显示屏,又可以看出边框和液晶玻璃,人能够知道这些high level信息,并不是关注像素。 机器视觉要robust,必须要能够抽象出来object,而且可以cross-image match,比如知道在两个不同的image里面看到的是同一东西。

【 在 guvest (我爱你老婆Anna) 的大作中提到: 】
: 这文章背后的直觉似乎是:
: 决定一个图的label的那部分像素,和决定一个图的方向的那部分像素,有极大的重
叠。
:
: 对,就是这样。这个是pre-training,这个技巧本身用的很多,比方说NLP里面
: 的word
:
: embedding model train出来,可以做翻译之类的。 如果这些feature本身是很
: general
:
: 的对后面任务就很有用。
:

g
guvest

我看了下我这个房间。除了我老婆,其他东西都是矩形的。矩形对180度的预测无贡献。

所以训练好一个旋转任务,等于把图里的人挑出来。

也许imagnet, CIFAR10里面图的名字(label),真的是主要由
对180旋转敏感的对象决定的。

回头我找儿子做下看图给名字的实验看下。
【 在 Caravel(克拉维尔) 的大作中提到: 】
<br>: 我更愿意相信是提取了高于像素的抽象信息,前面贴的第二个文章就是可以
Learn出来
<br>: object,我们人看到一个照片,我们会知道我前面是个显示屏,大小位置信息。
我再观
<br>: 察显示屏,又可以看出边框和液晶玻璃,人能够知道这些high level信息,并不
是关注
<br>: 像素。 机器视觉要robust,必须要能够抽象出来object,而且可以cross-image
match
<br>: ,比如知道在两个不同的image里面看到的是同一东西。
<br>: 叠。
<br>

g
guvest

我猜180旋转的无监督学习,对性能贡献最大。

【 在 guvest(我爱你老婆Anna) 的大作中提到: 】

: 我看了下我这个房间。除了我老婆,其他东西都是矩形的。矩形对180度的预测
无贡献。

: 所以训练好一个旋转任务,等于把图里的人挑出来。

: 也许imagnet, CIFAR10里面图的名字(label),真的是主要由

: 对180旋转敏感的对象决定的。

: 回头我找儿子做下看图给名字的实验看下。

:
x
xiaoju

这就是为什么有人怀疑现在大部分埃及古文字都来自于十八世纪艺术家的原因

因为不符合数学规律,正常情况下应该是用语言学推导,而不是发现一块什么罗塞塔石刻豁然开朗

【 在 chebyshev (......) 的大作中提到: 】
: semi learning都用无label数据的。
: 甲骨文一点点翻译出来其实就是这个过程。先开始只有几个明显的字认识。
: 早先我把knn找了个办法改一改数据。问wdong有没人这样干过。
: 是wdong告诉我semi supervised learning这个术语。
: 我一查最早的semi learning之一还是语言学家发明的。

x
xiaoju

不一定非要打过xxx的话就不难,不造个大新闻这个发现也有意义

【 在 Caravel (克拉维尔) 的大作中提到: 】
: 能调出参才是王道,这些技术层面的东西也很重要,否则光开脑洞没用

x
xiaoju

人拍的照片,一般来说主体都是符合人脑子里已知形象的位置和角度的,这个就是重要信息

如果训练集来自于监视摄像头,这个技术未必好用

【 在 guvest (我爱你老婆Anna) 的大作中提到: 】
: 我看了下我这个房间。除了我老婆,其他东西都是矩形的。矩形对180度的预测无贡
献。
: 所以训练好一个旋转任务,等于把图里的人挑出来。
: 也许imagnet, CIFAR10里面图的名字(label),真的是主要由
: 对180旋转敏感的对象决定的。
: 回头我找儿子做下看图给名字的实验看下。
: <br>: 我更愿意相信是提取了高于像素的抽象信息,前面贴的第二个文章就是可以
: Learn出来
: <br>: object,我们人看到一个照片,我们会知道我前面是个显示屏,大小位置
: 信息。
: 我再观
: ...................

l
lightroom

主要是预测四个角度问题太简单了,所以features学的不是太好

【 在 xiaoju (可爱的龙猫) 的大作中提到: 】
: 人拍的照片,一般来说主体都是符合人脑子里已知形象的位置和角度的,这个就是重要
: 信息
: 如果训练集来自于监视摄像头,这个技术未必好用
: 献。
: 可以

C
Caravel

imagenet的图像种类应该很广泛
【 在 xiaoju (可爱的龙猫) 的大作中提到: 】
: 人拍的照片,一般来说主体都是符合人脑子里已知形象的位置和角度的,这个就是重要
: 信息
: 如果训练集来自于监视摄像头,这个技术未必好用
: 献。
: 可以

g
guvest

这有点言之过早。细节也很重要的。前面解释的是作者动机。
也许classfiy错的那些,没有表现出“无方向性”这一特点呢?那就说明起作用的不全是旋转这一operator .
再也许旋转operator他这套东西只能在他自己特定的网络上接的好。这都有可能。

【 在 xiaoju(可爱的龙猫) 的大作中提到: 】
<br>: 不一定非要打过xxx的话就不难,不造个大新闻这个发现也有意义
<br>

x
xiaoju

这玩意如果是真的,获取机器驾驶的大数据只要戴个google glass开车乱转就行,不需要花钱标记图片上有什么东西。数据量接近无限,成本趋向于0

【 在 guvest (我爱你老婆Anna) 的大作中提到: 】
: 这有点言之过早。细节也很重要的。前面解释的是作者动机。
: 也许classfiy错的那些,没有表现出“无方向性”这一特点呢?那就说明起
: 作用的不全是旋转这一operator .
: 再也许旋转operator他这套东西只能在他自己特定的网络上接的好。这都有可能。
:
: 不一定非要打过xxx的话就不难,不造个大新闻这个发现也有意义
:

C
Caravel

差远了,自动驾驶需要输出大量structured data,而且是移动情况下的3d场景,这个
研究也就是万里长征第一步。 要能从视频中学习robust 3d representation,那直接
可以拿个Turing Award。

【 在 xiaoju (可爱的龙猫) 的大作中提到: 】
: 这玩意如果是真的,获取机器驾驶的大数据只要戴个google glass开车乱转就行,不需
: 要花钱标记图片上有什么东西。数据量接近无限,成本趋向于0

x
xiaoju

这是假设不存在的问题来解决

人类中有很大比例根本没有3D立体感,这类人一样可以开车上街

【 在 Caravel (克拉维尔) 的大作中提到: 】
: 标 题: Re: 最近视觉领域的self supervised learning进展不少
: 发信站: BBS 未名空间站 (Tue Jan 14 02:10:03 2020, 美东)
:
: 差远了,自动驾驶需要输出大量structured data,而且是移动情况下的3d场景,这个
: 研究也就是万里长征第一步。 要能从视频中学习robust 3d representation,那直接
: 可以拿个Turing Award。
:
: 【 在 xiaoju (可爱的龙猫) 的大作中提到: 】
: : 这玩意如果是真的,获取机器驾驶的大数据只要戴个google glass开车乱转就行,不需
: : 要花钱标记图片上有什么东西。数据量接近无限,成本趋向于0
:
:
:
: --