。。。。。。。。。。。。

x
xiaofengxian
楼主 (北美华人网)
。。。。。。。。。。。。。。。。
b
babybaby
Lz职场新人还是多听听senior的吧,试试别的你有损失不了什么,学到新东西不更好。咬定自己的看法有什么好处?
n
novavista
Can you do some statistical analysis to prove that the characteristics of the 2nd test set is different from others?
G
Giovanna
我不是做DS的,但是经常用到这些模型,两分钱,如果说错了不好意思。 1. 我不太了解你们的predictors/features这600个维度或者1800个维度是怎么得到的。假如是有可能得到1800维的features,那么一开始是怎么选出的这600维呢?这里面的降维或者人工筛选过程,会不会损失一定的信息?我猜这就是A的建议背后的道理。你的担心的curse of dimensionality也不必要,因为这其实正是deep learning相对传统算法的优势。依照你说的数据量应该够了。 2. cross-validation的确比直接观察learning curve可靠。尤其是当你的loss跟evaluation metric不完全一致的情况下,更要以cross validation的结果为准。 3. 模型的选择非常取决于你们的任务具体是什么。不清楚你们的情况没法给建议。ResNet和GAN没法类比啊。
x
xiaofengxian
Lz职场新人还是多听听senior的吧,试试别的你有损失不了什么,学到新东西不更好。咬定自己的看法有什么好处?

babybaby 发表于 5/1/2020 10:11:39 AM

我有损失啊,浪费了时间,影响了进度,最后是算在我的头上的。
x
xiaofengxian
Can you do some statistical analysis to prove that the characteristics of the 2nd test set is different from others?
novavista 发表于 5/1/2020 10:13:56 AM


。。。。。。。。。。。。。。。。。。
x
xiaofengxian
我不是做DS的,但是经常用到这些模型,两分钱,如果说错了不好意思。

1. 我不太了解你们的predictors/features这600个维度或者1800个维度是怎么得到的。假如是有可能得到1800维的features,那么一开始是怎么选出的这600维呢?这里面的降维或者人工筛选过程,会不会损失一定的信息?我猜这就是A的建议背后的道理。你的担心的curse of dimensionality也不必要,因为这其实正是deep learning相对传统算法的优势。依照你说的数据量应该够了。

2. cross-validation的确比直接观察learning curve可靠。尤其是当你的loss跟evaluation metric不完全一致的情况下,更要以cross validation的结果为准。

3. 模型的选择非常取决于你们的任务具体是什么。不清楚你们的情况没法给建议。ResNet和GAN没法类比啊。
Giovanna 发表于 5/1/2020 10:16:18 AM


。。。。。。。。。。。。。。
G
Giovanna


为什么呢?神经网络就一个epoch, 一个epoch的学。总共20来个epoch就converge了,tensorboard打出的learning curve每个学的怎样一目了然。为啥还要花费2天的时间用cross validation来选模式。可靠是指哪方面呢?learning curve选出来的模式和cross validation选出来的模式误差不会超过1%。btw:我的loss和evaluation metric是一致的。不过mm倒是提醒了我,我去翻翻专业论文吧。上课的时候老师教的都是用learning curve来选神经网络的模式。cross validation只在传统的machine learning方法用的多,比如随机森林。

xiaofengxian 发表于 5/1/2020 10:43:51 AM


cross-validation本质是什么?不就是解决overfitting,generalize到新数据效果不好的问题吗, which is exactly your problem. 只观察learning curve,那就相当于选择loss越小越好的model,就容易出现overfitting。当然你也可以先试试其他的technique,比如增加dropout layer之类的。good luck!
h
hercyna
有点不懂,你们train一个模型就再也不retrain了吗?不然的话有data drift很正常吧,你一开始说的继续collect data就很对了啊
l
lazymaggie
ds飘过,这三个人的建议都非常中肯,能有senior这么给你建议,你应该高兴才是。你需要一一试一试,不断地尝试新的方法,这才是做研究的正确途径。你给我的感觉是你嫌麻烦,不愿意多花几天的时间试试这些方法,而是把问题归咎于数据量不够。数据量不够很大一部分做ds的人面临的问题,不应该成为你拒绝的理由。
x
xiaofengxian

cross-validation本质是什么?不就是解决overfitting,generalize到新数据效果不好的问题吗, which is exactly your problem. 只观察learning curve,那就相当于选择loss越小越好的model,就容易出现overfitting。
Giovanna 发表于 5/1/2020 10:54:00 AM


。。。。。。。。。。。。。。。。。。。。。。
m
minqidev
老板说你错了,你就错了。 你认为老板错了,你就换工作。
x
xiaofengxian
ds飘过,这三个人的建议都非常中肯,能有senior这么给你建议,你应该高兴才是。你需要一一试一试,不断地尝试新的方法,这才是做研究的正确途径。你给我的感觉是你嫌麻烦,不愿意多花几天的时间试试这些方法,而是把问题归咎于数据量不够。数据量不够很大一部分做ds的人面临的问题,不应该成为你拒绝的理由。
lazymaggie 发表于 5/1/2020 10:54:37 AM


。。。。。。。。。。。。。。。。
G
Giovanna
ds飘过,这三个人的建议都非常中肯,能有senior这么给你建议,你应该高兴才是。你需要一一试一试,不断地尝试新的方法,这才是做研究的正确途径。你给我的感觉是你嫌麻烦,不愿意多花几天的时间试试这些方法,而是把问题归咎于数据量不够。数据量不够很大一部分做ds的人面临的问题,不应该成为你拒绝的理由。
lazymaggie 发表于 5/1/2020 10:54:37 AM

而且站在老板的角度,他宁可让你先exhaust各种方法把模型调好,不会一上来就让你加新数据。因为那个不但costly,你也没办法证明数据量上去了效果就会更好。很多时候其实就是模型还没搞好。
x
xiaofengxian
有点不懂,你们train一个模型就再也不retrain了吗?不然的话有data drift很正常吧,你一开始说的继续collect data就很对了啊

hercyna 发表于 5/1/2020 10:54:18 AM


。。。。。。。。。。。。。。。。
x
xiaofengxian

而且站在老板的角度,他宁可让你先exhaust各种方法把模型调好,不会一上来就让你加新数据。因为那个不但costly,你也没办法证明数据量上去了效果就会更好。很多时候其实就是模型还没搞好。
Giovanna 发表于 5/1/2020 11:02:14 AM

谢谢mm的发言!我也希望是,这样的话,问题简单多了!
h
hercyna
有点不懂,你们train一个模型就再也不retrain了吗?不然的话有data drift很正常吧,你一开始说的继续collect data就很对了啊

hercyna 发表于 5/1/2020 10:54:18 AM

我同意你啊!

xiaofengxian 发表于 2020-05-01 11:03

你同事的意见我也看的云里雾里,可能你得把解决的问题再具体一点说下,比如data是images?text?CNN要加feature是啥操作,不能是hand crafted features吧。。。还有GAN也可以用?你们要generate synthetic data?
x
xiaofengxian
老板说你错了,你就错了。

你认为老板错了,你就换工作。
minqidev 发表于 5/1/2020 11:01:37 AM


。。。。。。。。。。。。。。。。。。。。。
C
Cath226

我的问题不是overfitting啊。。。如果overfitting了,testing error 会很差的。另外,learning curve有两条,一条training loss,一条validation loss, 根据两条线的变化可以看出很多问题的。并不是你说的选loss 越小越好。cross validation不是用来解决overfitting的,是用来避免选出overfitting的模式。overfitting的问题解决方法有, increase sample size, ensemble modeling, reduce model complexity。。。

xiaofengxian 发表于 5/1/2020 10:59:20 AM

extrapolation后效果差不就是overfitting?increase sample size和ensemble modelling能解决overfitting的前提就是扩大了predictors的取值范围,原本是extrapolation的现在就不是了。

其实数据处理没有一定之规,不要太教条了。特别是你现在并不是100%确定问题出在哪里的时候,多试几个alternative我看不出什么坏处,除了的确花时间。如果你真的确定你的方法更能解决问题,你也不需要求助了吧
O
Orangetabby
ds飘过,这三个人的建议都非常中肯,能有senior这么给你建议,你应该高兴才是。你需要一一试一试,不断地尝试新的方法,这才是做研究的正确途径。你给我的感觉是你嫌麻烦,不愿意多花几天的时间试试这些方法,而是把问题归咎于数据量不够。数据量不够很大一部分做ds的人面临的问题,不应该成为你拒绝的理由。
lazymaggie 发表于 5/1/2020 10:54:37 AM

re 多好的senior啊
x
xiaofengxian

你同事的意见我也看的云里雾里,可能你得把解决的问题再具体一点说下,比如data是images?text?CNN要加feature是啥操作,不能是hand crafted features吧。。。还有GAN也可以用?你们要generate synthetic data?

hercyna 发表于 5/1/2020 11:11:34 AM


。。。。。。。。。。。。。。。。。。。。。。。。
a
appleapp
Ds的东西没有绝对的答案吧,有senior愿意指导你应该庆幸。如果工作量不合理就和你经理谈,让老板帮你prioritize
x
xiaofengxian

extrapolation后效果差不就是overfitting?increase sample size和ensemble modelling能解决overfitting的前提就是扩大了predictors的取值范围,原本是extrapolation的现在就不是了。

其实数据处理没有一定之规,不要太教条了。特别是你现在并不是100%确定问题出在哪里的时候,多试几个alternative我看不出什么坏处,除了的确花时间。如果你真的确定你的方法更能解决问题,你也不需要求助了吧

Cath226 发表于 5/1/2020 11:21:26 AM


。。。。。。。。。。。。。。。。。。。。。。。。。。。。
大喜妞
都试试啊。从技术角度来说,都有道理。没有具体数据,我们也不好发言。
从职场角度来说,人家付钱给你让你干活,你就干啊。而且你也多试试,尤其是在事业早期,看看结果,都是个学习过程。而且如果事实证明你对了,那不就是对你知识能力的有力证明吗?
S
Sun6843
我们是个ds组,我是新来的,其它三个比我senior。我组会讲自己的project。我建了一个cnn模型,完全独立的测试数据结果很好。应用到第一组新数据结果也很好,应用到第二组新数据的时候效果变差了。我检查过learning curve,没有overfitting。我提出问题是training data set 不够representative,解决办法是collect more diverse data set,并且提出该怎么collect more diverse data set。进一步分析这是一种data extrapolation的问题。可能发生的现象是:第二组有些需要预测的点落在training data set cover的范围之外导致cnn效果变差。然后我进一步解释说对于high dimensional X (600 个predictors),这种data extrapolation很容易发生,每个维度只有2个可能性,那整个数据空间就是2^600,事实上每个维度远不止2个,那这个空间更大。所以就算我们有3,000,000 training sample,也有可能发生data extrapolation这种问题。

我们组有其它三个ds发表了他们的看法:
A: 他说这是我的training data set 不够representative,没有把所有可能的关系包括进去。所以我需要add more predictors (features) into X,我现在的predictors (features) X 是600 个,我需要增加到1800个(注意:数据不变)。。。 我的看法是:add more predictors (features) 根本没有必要,也解决不了问题。如果feature不够,validation error和testing error 就会很差。再说add more features 有个curse of dimensionality的问题,需要的sample size是exponentially的增加。还有对于神经网络这种用gradient descent 找到cost function的极值点的算法。add more features只会增加神经网络的学习难度而导致模型效果变差。关键是解决不了问题。

B: 应该用cross validation select model而不是通过learning curve 选模式。我的看法:cross validation非常耗费计算机资源。单个模型就要train 一天,哪怕用3-fold cross validation,都要3天。关键是没有必要!!!通过learning curve看一下early stopping point 就可以选个best model了。cross validation一般都是用于传统的machine learning比如random forests。

C:不应该用Resnet来,改用GAN。我的看法:data extrapolation的问题是换个模型解决不了的。换个模型,整个数据处理要重新做。

他们三个都比我senior。老板否定了我的分析和建议。让我按照A, B, C的看法一个个试。。。大家怎么看?我觉得我分析的没错啊。。。我感觉他们三个要么没懂我的东西,要么就不懂machine learning/deep learning那一套背后的知识。可总不可能一个组他们都不懂,就我懂,对吧?所以发出来看看大家看看,谢谢!

xiaofengxian 发表于 5/1/2020 9:51:11 AM

试试别人的建议,有什么不好。 除非你的项目非常time sensitive。
x
xiaofengxian
Ds的东西没有绝对的答案吧,有senior愿意指导你应该庆幸。如果工作量不合理就和你经理谈,让老板帮你prioritize
appleapp 发表于 5/1/2020 11:34:20 AM


。。。。。。。。。。。。。。。。。。。。。。。。
x
xiaofengxian
都试试啊。从技术角度来说,都有道理。没有具体数据,我们也不好发言。
从职场角度来说,人家付钱给你让你干活,你就干啊。而且你也多试试,尤其是在事业早期,看看结果,都是个学习过程。而且如果事实证明你对了,那不就是对你知识能力的有力证明吗?

大喜妞 发表于 5/1/2020 11:36:51 AM


。。。。。。。。。。。。。。。。。。。。。
x
xiaofengxian

试试别人的建议,有什么不好。 除非你的项目非常time sensitive。

Sun6843 发表于 5/1/2020 11:39:05 AM


。。。。。。。。。。。。。。。。。。
f
forestlake
回复 1楼xiaofengxian的帖子 不是专家帮不上忙 但是要赞LZ认真精神!
a
appleapp


说到这个我就很伤心。我之前那份工作也是有个senior ds指导我,可我觉得他是真懂。统计科班phd出身,名校毕业,做ds十几年。每个问题都能解释的非常清楚又很深入。现在我觉得更多是用模型派的,并不能真正分析里面的问题,就是有个idea,试一下,不行,换个idea试一下。。。你看3个ds都没有统一意见。其实一个资深的ds很容易一眼看到问题在哪里的。如果是资深的,不至于三个人三个看法。模型总共的问题就那么几大类,一点不深奥。

xiaofengxian 发表于 5/1/2020 11:41:40 AM

Keep your expectation low, 职场上技术好人品好的前辈可遇不可求。遇到了就珍惜机会多学点。大多数爬上去当boss得都不是技术最好的。满嘴跑火车不懂装懂的大有人在。 一个问题n种声音太正常了,如果你是做data visualization tool的更崩溃,每个人都有自己的想法。如果你是boss就可以选自己认为对的方案,新人肯定是尽量听取各方意见,然后side by side 把结果呈现出来,让seniors们决定。
x
xiaofengxian
回复 1楼xiaofengxian的帖子

不是专家帮不上忙 但是要赞LZ认真精神!
forestlake 发表于 5/1/2020 11:47:43 AM


。。。。。。。。。。。。。。。。。。。。。
s
shuibao
你一开始选用CNN就已经错了,不过既然已经开始做了,只能接着错下去了
x
xiaofengxian

你不试的话对你的损失更大。一个太strong opinion然后同时又搞不定proj的junior在公司很难混的

nexcare 发表于 5/1/2020 11:50:36 AM


。。。。。。。。。。。。。。。。。。
C
Cath226

这两个问题的表现都是model generalize不好,不过本质是不一样的。overfitting可以通过work on model来解决,比如reduce model complexity。可是extrapolation只能work on data。要么collect more diverse data, 要么data augumentation。

xiaofengxian 发表于 5/1/2020 11:35:48 AM

嗯,你说的对,我只想到了它们overlap的那部分。比如用polynomial,overfitting通常是次数太高,但是扩大数据范围之后也就能避免这个问题。现在的情况是extrapolation效果不好,如果collect more diverse data成本太高的话,也就只能先work on model吧,比如本来用poly的改成用exponential。我只是打个比方。
e
eagletiger1
我们是个ds组,我是新来的,其它三个比我senior。我组会讲自己的project。我建了一个cnn模型,完全独立的测试数据结果很好。应用到第一组新数据结果也很好,应用到第二组新数据的时候效果变差了。我检查过learning curve,没有overfitting。我提出问题是training data set 不够representative,解决办法是collect more diverse data set,并且提出该怎么collect more diverse data set。进一步分析这是一种data extrapolation的问题。可能发生的现象是:第二组有些需要预测的点落在training data set cover的范围之外导致cnn效果变差。然后我进一步解释说对于high dimensional X (600 个predictors),这种data extrapolation很容易发生,每个维度只有2个可能性,那整个数据空间就是2^600,事实上每个维度远不止2个,那这个空间更大。所以就算我们有3,000,000 training sample,也有可能发生data extrapolation这种问题。

我们组有其它三个ds发表了他们的看法:
A: 他说这是我的training data set 不够representative,没有把所有可能的关系包括进去。所以我需要add more predictors (features) into X,我现在的predictors (features) X 是600 个,我需要增加到1800个(注意:数据不变)。。。 我的看法是:add more predictors (features) 根本没有必要,也解决不了问题。如果feature不够,validation error和testing error 就会很差。再说add more features 有个curse of dimensionality的问题,需要的sample size是exponentially的增加。还有对于神经网络这种用gradient descent 找到cost function的极值点的算法。add more features只会增加神经网络的学习难度而导致模型效果变差。关键是解决不了问题。

B: 应该用cross validation select model而不是通过learning curve 选模式。我的看法:cross validation非常耗费计算机资源。单个模型就要train 一天,哪怕用3-fold cross validation,都要3天。关键是没有必要!!!通过learning curve看一下early stopping point 就可以选个best model了。cross validation一般都是用于传统的machine learning比如random forests。

C:不应该用Resnet来,改用GAN。我的看法:data extrapolation的问题是换个模型解决不了的。换个模型,整个数据处理要重新做。

他们三个都比我senior。老板否定了我的分析和建议。让我按照A, B, C的看法一个个试。。。大家怎么看?我觉得我分析的没错啊。。。我感觉他们三个要么没懂我的东西,要么就不懂machine learning/deep learning那一套背后的知识。可总不可能一个组他们都不懂,就我懂,对吧?所以发出来看看大家看看,谢谢!

xiaofengxian 发表于 5/1/2020 9:51:11 AM

A. 加feature没有什么问题,有可能有些很有用的feature没有加进来,加进来之后做Feature Selection或者Dimension Reduction来减少减少feature数量避免Dimensional Curse. 你既然用了CNN,指定CNN处理后的vector size也算是一种Dimension Reduction的方式,初始的feature数量多一些问题不大。
B. 用Learning Curve问题不大,足够了,只是有问题的话没法定量的看出来。
C. 数据足够大的情况下是对的,数据量不够的话就不好说了,既然他们给了建议,如果有资源的话就run一下,我们做完preprocesing之后要做一下model selection,这个还是比较能说明问题的,如果大部分model的表现都一样,那刚好说明数据量够了,用哪个model都好,如果有哪个model表现好,那选定之后再做grid search来delivery一个最终的model。
l
lazymaggie

你能从ds的角度具体分析一下怎么中肯吗?我希望寻找一些专业的建议。

xiaofengxian 发表于 5/1/2020 11:02:05 AM

你的问题是你现在有600个samples,600个features,训练出来的模型对第一组数据有效,对第二组数据效果不够好。很显然你这600个features没有很好地represent全部的samples的特征,所以A给你的建议增加feature是对的。你可以增加到1800,但是你只有600个samples,用1800个feature去train model效果必然不好。你需要做一个feature selection,把1800个feature压缩到100-200甚至更少,你训练的模型才有意义。

其次,你总共才600个样本,模型不能太复杂,你能训练一天,可见你的模型参数太多了。建议你先做feature selection,用较少的features和简单的模型做crossvalidation。cross validation 能很好地解决overfitting的问题。所以B的建议也是正确的。C的建议是换个模型,其实也是给你多一个选择。如果你不能证明你的模型是最优的,那就尝试一下其它的选择。

你现在只要600个samples,就算你老板原因给你增加样本量,double或者triple一下,不会对你的模型的提高有质的飞跃。所以还是在feature和model上下功夫比较好。
t
tf2k
你的几个senior说的都正确。至少要按这个方向走,之后才能结论,数据说话,不要太早下结论。
x
xiaofengxian

嗯,你说的对,我只想到了它们overlap的那部分。比如用polynomial,overfitting通常是次数太高,但是扩大数据范围之后也就能避免这个问题。现在的情况是extrapolation效果不好,如果collect more diverse data成本太高的话,也就只能先work on model吧,比如本来用poly的改成用exponential。我只是打个比方。

Cath226 发表于 5/1/2020 11:57:00 AM


。。。。。。。。。。。。。。。。。。。。
x
xiaofengxian
你一开始选用CNN就已经错了,不过既然已经开始做了,只能接着错下去了
shuibao 发表于 5/1/2020 11:53:41 AM


。。。。。。。。。。。。。。。。。。。。。
e
eagletiger1


我的问题不是overfitting啊。。。如果overfitting了,testing error 会很差的。另外,learning curve有两条,一条training loss,一条validation loss, 根据两条线的变化可以看出很多问题的。并不是你说的选loss 越小越好。cross validation不是用来解决overfitting的,是用来避免选出overfitting的模式。overfitting的问题解决方法有, increase sample size, ensemble modeling, reduce model complexity。。。

xiaofengxian 发表于 5/1/2020 10:59:20 AM

小姑娘别急,人家的意见大体也是对的,cross validation最重要的目的就是尽量用所有的data,因为一般的train/test分组会减少数据量,这在数据量小的时候很重要,但是因为大家现在都玩大数据,这样cross validation的作用就不是那么明显了,一般来说train/validation/test分组就够了。
x
xiaofengxian

A. 加feature没有什么问题,有可能有些很有用的feature没有加进来,加进来之后做Feature Selection或者Dimension Reduction来减少减少feature数量避免Dimensional Curse. 你既然用了CNN,指定CNN处理后的vector size也算是一种Dimension Reduction的方式,初始的feature数量多一些问题不大。
B. 用Learning Curve问题不大,足够了,只是有问题的话没法定量的看出来。
C. 数据足够大的情况下是对的,数据量不够的话就不好说了,既然他们给了建议,如果有资源的话就run一下,我们做完preprocesing之后要做一下model selection,这个还是比较能说明问题的,如果大部分model的表现都一样,那刚好说明数据量够了,用哪个model都好,如果有哪个model表现好,那选定之后再做grid search来delivery一个最终的model。

eagletiger1 发表于 5/1/2020 11:57:57 AM


。。。。。。。。。。。。。。。。
h
hercyna

你同事的意见我也看的云里雾里,可能你得把解决的问题再具体一点说下,比如data是images?text?CNN要加feature是啥操作,不能是hand crafted features吧。。。还有GAN也可以用?你们要generate synthetic data?

hercyna 发表于 5/1/2020 11:11:34 AM


data 是images,不需要hand crafted features。output是一个值,我用的是resent,最后一层用fully connected layer。增加features就是说把能拿到的图全放进去做predictors。比如我本来通过一个张图来判断这张图里有没有猫(时间要对应,很关键,打个比方啊)。增加features就是说,不只是要这张图,还要这张图前一刻的,这张图后一刻的。这是我最不喜欢的,前一刻里面有猫,你也不能代表我需要判断的那张图里有猫啊。。。

xiaofengxian 发表于 2020-05-01 11:34

明白了。从你举的例子来看你同事的说法不一定完全没道理—听起来是从video里抓出来的图?如果是的话,我的理解是增加feature有用没用主要取决于context是不是有用吧,比如上一帧有猫这一帧很可能也有?当然同时也可能引入更多的noise
l
lazymaggie


mm你这个评价很专业!如果是很有用的features没有加进来,那为什么hold out的独立的testing error和第一组数据的error(也是independent)都很小呢?这个的效果是满意的。

xiaofengxian 发表于 5/1/2020 12:10:29 PM

你把你的training set, test set,第一组新数据,第二组新数据分别画个分布图,看看他们的分布是不是一致的。
m
monkeybaby2016
说用cross validation,一共600个个sample,再分成train和test,sample数量比feature数量还少,那模型根本没有唯一解啊。会不会每次run出来模型差别都很大
x
xiaofengxian
说用cross validation,一共600个个sample,再分成train和test,sample数量比feature数量还少,那模型根本没有唯一解啊。会不会每次run出来模型差别都很大
monkeybaby2016 发表于 5/1/2020 12:20:53 PM


。。。。。。。。。。。。。。。
e
eagletiger1


mm你这个评价很专业!如果是很有用的features没有加进来,那为什么hold out的独立的testing error和第一组数据的error(也是independent)都很小呢?这个的效果是满意的。

xiaofengxian 发表于 5/1/2020 12:10:29 PM

情况有很多,比如说你现有features已经足够描述第一组数据了,但是不足够描述第二组数据,简单的说把第一组和第二组数据合在一起当作一组数据的时候现有feature数量不够了。
m
minqidev

明白了。从你举的例子来看你同事的说法不一定完全没道理—听起来是从video里抓出来的图?如果是的话,我的理解是增加feature有用没用主要取决于context是不是有用吧,比如上一帧有猫这一帧很可能也有?当然同时也可能引入更多的noise

hercyna 发表于 5/1/2020 12:11:19 PM


但是video是可以tracking的, 也是可以预测的。
我之前做车牌识别和human pose,
比如人走进了门里面,但房子里面有窗户,当人在窗户出现时,也是可以根据之前的tracking预测
不可见的pose
x
xiaofengxian

你把你的training set, test set,第一组新数据,第二组新数据分别画个分布图,看看他们的分布是不是一致的。

lazymaggie 发表于 5/1/2020 12:15:28 PM


。。。。。。。。。。。。。。。。。。。。。。。。。。。
x
xiaofengxian

情况有很多,比如说你现有features已经足够描述第一组数据了,但是不足够描述第二组数据,简单的说把第一组和第二组数据合在一起当作一组数据的时候现有feature数量不够了。

eagletiger1 发表于 5/1/2020 12:23:42 PM


。。。。。。。。。。。。。。。。。。。
l
lazymaggie

我画过Y, 不一致。X由于是high dimension的(600),我没有画过。mm知道这种X怎么来quantify data similarity吗?

xiaofengxian 发表于 5/1/2020 12:24:58 PM

你先用最简单的PCA提取出前两维或者前三维的feature画画图试试。

刚才看到你说你的sample有几百万个。那你还要什么新的数据啊,这几百万个足够你训练了。A建议你增加feature到1800更没有什么问题了。
x
xiaofengxian

明白了。从你举的例子来看你同事的说法不一定完全没道理—听起来是从video里抓出来的图?如果是的话,我的理解是增加feature有用没用主要取决于context是不是有用吧,比如上一帧有猫这一帧很可能也有?当然同时也可能引入更多的noise

hercyna 发表于 5/1/2020 12:11:19 PM


。。。。。。。。。。。。。。。。。。。。。。。
x
xiaofengxian

你先用最简单的PCA提取出前两维或者前三维的feature画画图试试。

刚才看到你说你的sample有几百万个。那你还要什么新的数据啊,这几百万个足够你训练了。A建议你增加feature到1800更没有什么问题了。

lazymaggie 发表于 5/1/2020 12:30:17 PM


。。。。。。。。。。。。。。。。。。
x
xiaofengxian


但是video是可以tracking的, 也是可以预测的。
我之前做车牌识别和human pose,
比如人走进了门里面,但房子里面有窗户,当人在窗户出现时,也是可以根据之前的tracking预测
不可见的pose

minqidev 发表于 5/1/2020 12:23:45 PM


。。。。。。。。。。。。。。
x
xiaofengxian
。。。。。。。。。。。。。。。。。
m
mRNA

你先用最简单的PCA提取出前两维或者前三维的feature画画图试试。

刚才看到你说你的sample有几百万个。那你还要什么新的数据啊,这几百万个足够你训练了。A建议你增加feature到1800更没有什么问题了。

lazymaggie 发表于 5/1/2020 12:30:17 PM

我为什么觉得lz和其他人对feature和sample的理解和大多数人的理解不一样?samples应该是你的图像数量,features是你用来预测的variables的数量,对于image来说,就是image 的pixel数量。 提个建议供lz参考,lz的模型对第一组有用,对第二组没用,那就是training的时候数据不具备足够的代表性。一种方法是你在一开始就能够保证你的training set包括第二组,第三组。。。第n组数据,但一般这可能一开始达不到。另一种方法是拿到第二组数据一看不行,那就在第一组数据work的那个模型的基础上再用第二组数据re-training原来那个模型,以达到re train之后的模型能兼容预测两组数据。
l
lazymaggie


不是video里抓出来的图。你说的也有道理,也是一种可能性。我觉得数据来源的差异导致genelarize的不好,比如我的training data/第一组数据是灰度图,但是第二组数据混入了一些彩度图。那么增加features是不是解决不了问题?还是必须搜集多一些彩度图才能根本的解决问题。

xiaofengxian 发表于 5/1/2020 12:34:41 PM

这说明训练集和第一组数据 与 第二组数据的分布完全不一样,你的模型的输出自然也不一样。你把第二组数据的彩色图转化成灰度图再输入你的模型试试。
x
xiaofengxian

这说明训练集和第一组数据 与 第二组数据的分布完全不一样,你的模型的输出自然也不一样。你把第二组数据的彩色图转化成灰度图再输入你的模型试试。

lazymaggie 发表于 5/1/2020 1:42:44 PM


。。。。。。。。。。。。。。。。。。
x
xiaofengxian


我为什么觉得lz和其他人对feature和sample的理解和大多数人的理解不一样?samples应该是你的图像数量,features是你用来预测的variables的数量,对于image来说,就是image 的pixel数量。

提个建议供lz参考,lz的模型对第一组有用,对第二组没用,那就是training的时候数据不具备足够的代表性。一种方法是你在一开始就能够保证你的training set包括第二组,第三组。。。第n组数据,但一般这可能一开始达不到。另一种方法是拿到第二组数据一看不行,那就在第一组数据work的那个模型的基础上再用第二组数据re-training原来那个模型,以达到re train之后的模型能兼容预测两组数据。

mRNA 发表于 5/1/2020 1:02:49 PM


。。。。。。。。。。。。
s
sevenfrost
这么好的探讨贴 干嘛删呀 好可惜 都是不同建议/意见错了也没关系啊