。。。。。。。。。。。。 - 2020年5月1日北美华人网存档

xiaofengxian

大约 5 年

楼主 (北美华人网)

。。。。。。。。。。。。。。。。

babybaby

大约 5 年

Lz职场新人还是多听听senior的吧，试试别的你有损失不了什么，学到新东西不更好。咬定自己的看法有什么好处？

novavista

大约 5 年

Can you do some statistical analysis to prove that the characteristics of the 2nd test set is different from others?

Giovanna

大约 5 年

我不是做DS的，但是经常用到这些模型，两分钱，如果说错了不好意思。 1. 我不太了解你们的predictors/features这600个维度或者1800个维度是怎么得到的。假如是有可能得到1800维的features，那么一开始是怎么选出的这600维呢？这里面的降维或者人工筛选过程，会不会损失一定的信息？我猜这就是A的建议背后的道理。你的担心的curse of dimensionality也不必要，因为这其实正是deep learning相对传统算法的优势。依照你说的数据量应该够了。 2. cross-validation的确比直接观察learning curve可靠。尤其是当你的loss跟evaluation metric不完全一致的情况下，更要以cross validation的结果为准。 3. 模型的选择非常取决于你们的任务具体是什么。不清楚你们的情况没法给建议。ResNet和GAN没法类比啊。

xiaofengxian

大约 5 年

Lz职场新人还是多听听senior的吧，试试别的你有损失不了什么，学到新东西不更好。咬定自己的看法有什么好处？

babybaby 发表于 5/1/2020 10:11:39 AM

我有损失啊，浪费了时间，影响了进度，最后是算在我的头上的。

xiaofengxian

大约 5 年

Can you do some statistical analysis to prove that the characteristics of the 2nd test set is different from others?
novavista 发表于 5/1/2020 10:13:56 AM

。。。。。。。。。。。。。。。。。。

xiaofengxian

大约 5 年

我不是做DS的，但是经常用到这些模型，两分钱，如果说错了不好意思。

1. 我不太了解你们的predictors/features这600个维度或者1800个维度是怎么得到的。假如是有可能得到1800维的features，那么一开始是怎么选出的这600维呢？这里面的降维或者人工筛选过程，会不会损失一定的信息？我猜这就是A的建议背后的道理。你的担心的curse of dimensionality也不必要，因为这其实正是deep learning相对传统算法的优势。依照你说的数据量应该够了。

2. cross-validation的确比直接观察learning curve可靠。尤其是当你的loss跟evaluation metric不完全一致的情况下，更要以cross validation的结果为准。

3. 模型的选择非常取决于你们的任务具体是什么。不清楚你们的情况没法给建议。ResNet和GAN没法类比啊。
Giovanna 发表于 5/1/2020 10:16:18 AM

。。。。。。。。。。。。。。

Giovanna

大约 5 年

为什么呢？神经网络就一个epoch, 一个epoch的学。总共20来个epoch就converge了，tensorboard打出的learning curve每个学的怎样一目了然。为啥还要花费2天的时间用cross validation来选模式。可靠是指哪方面呢？learning curve选出来的模式和cross validation选出来的模式误差不会超过1%。btw：我的loss和evaluation metric是一致的。不过mm倒是提醒了我，我去翻翻专业论文吧。上课的时候老师教的都是用learning curve来选神经网络的模式。cross validation只在传统的machine learning方法用的多，比如随机森林。

xiaofengxian 发表于 5/1/2020 10:43:51 AM

cross-validation本质是什么？不就是解决overfitting，generalize到新数据效果不好的问题吗, which is exactly your problem. 只观察learning curve，那就相当于选择loss越小越好的model，就容易出现overfitting。当然你也可以先试试其他的technique，比如增加dropout layer之类的。good luck!

hercyna

大约 5 年

有点不懂，你们train一个模型就再也不retrain了吗？不然的话有data drift很正常吧，你一开始说的继续collect data就很对了啊

lazymaggie

大约 5 年

ds飘过，这三个人的建议都非常中肯，能有senior这么给你建议，你应该高兴才是。你需要一一试一试，不断地尝试新的方法，这才是做研究的正确途径。你给我的感觉是你嫌麻烦，不愿意多花几天的时间试试这些方法，而是把问题归咎于数据量不够。数据量不够很大一部分做ds的人面临的问题，不应该成为你拒绝的理由。

xiaofengxian

大约 5 年

cross-validation本质是什么？不就是解决overfitting，generalize到新数据效果不好的问题吗, which is exactly your problem. 只观察learning curve，那就相当于选择loss越小越好的model，就容易出现overfitting。
Giovanna 发表于 5/1/2020 10:54:00 AM

。。。。。。。。。。。。。。。。。。。。。。

minqidev

大约 5 年

老板说你错了，你就错了。你认为老板错了，你就换工作。

xiaofengxian

大约 5 年

ds飘过，这三个人的建议都非常中肯，能有senior这么给你建议，你应该高兴才是。你需要一一试一试，不断地尝试新的方法，这才是做研究的正确途径。你给我的感觉是你嫌麻烦，不愿意多花几天的时间试试这些方法，而是把问题归咎于数据量不够。数据量不够很大一部分做ds的人面临的问题，不应该成为你拒绝的理由。
lazymaggie 发表于 5/1/2020 10:54:37 AM

。。。。。。。。。。。。。。。。

Giovanna

大约 5 年

ds飘过，这三个人的建议都非常中肯，能有senior这么给你建议，你应该高兴才是。你需要一一试一试，不断地尝试新的方法，这才是做研究的正确途径。你给我的感觉是你嫌麻烦，不愿意多花几天的时间试试这些方法，而是把问题归咎于数据量不够。数据量不够很大一部分做ds的人面临的问题，不应该成为你拒绝的理由。
lazymaggie 发表于 5/1/2020 10:54:37 AM

而且站在老板的角度，他宁可让你先exhaust各种方法把模型调好，不会一上来就让你加新数据。因为那个不但costly，你也没办法证明数据量上去了效果就会更好。很多时候其实就是模型还没搞好。

xiaofengxian

大约 5 年

有点不懂，你们train一个模型就再也不retrain了吗？不然的话有data drift很正常吧，你一开始说的继续collect data就很对了啊

hercyna 发表于 5/1/2020 10:54:18 AM

。。。。。。。。。。。。。。。。

xiaofengxian

大约 5 年

而且站在老板的角度，他宁可让你先exhaust各种方法把模型调好，不会一上来就让你加新数据。因为那个不但costly，你也没办法证明数据量上去了效果就会更好。很多时候其实就是模型还没搞好。
Giovanna 发表于 5/1/2020 11:02:14 AM

谢谢mm的发言！我也希望是，这样的话，问题简单多了！

hercyna

大约 5 年

有点不懂，你们train一个模型就再也不retrain了吗？不然的话有data drift很正常吧，你一开始说的继续collect data就很对了啊

hercyna 发表于 5/1/2020 10:54:18 AM

我同意你啊！

xiaofengxian 发表于 2020-05-01 11:03

你同事的意见我也看的云里雾里，可能你得把解决的问题再具体一点说下，比如data是images？text？CNN要加feature是啥操作，不能是hand crafted features吧。。。还有GAN也可以用？你们要generate synthetic data?

xiaofengxian

大约 5 年

老板说你错了，你就错了。

你认为老板错了，你就换工作。
minqidev 发表于 5/1/2020 11:01:37 AM

。。。。。。。。。。。。。。。。。。。。。

Cath226

大约 5 年

我的问题不是overfitting啊。。。如果overfitting了，testing error 会很差的。另外，learning curve有两条，一条training loss,一条validation loss, 根据两条线的变化可以看出很多问题的。并不是你说的选loss 越小越好。cross validation不是用来解决overfitting的，是用来避免选出overfitting的模式。overfitting的问题解决方法有, increase sample size, ensemble modeling, reduce model complexity。。。

xiaofengxian 发表于 5/1/2020 10:59:20 AM

extrapolation后效果差不就是overfitting？increase sample size和ensemble modelling能解决overfitting的前提就是扩大了predictors的取值范围，原本是extrapolation的现在就不是了。

其实数据处理没有一定之规，不要太教条了。特别是你现在并不是100%确定问题出在哪里的时候，多试几个alternative我看不出什么坏处，除了的确花时间。如果你真的确定你的方法更能解决问题，你也不需要求助了吧

Orangetabby

大约 5 年

ds飘过，这三个人的建议都非常中肯，能有senior这么给你建议，你应该高兴才是。你需要一一试一试，不断地尝试新的方法，这才是做研究的正确途径。你给我的感觉是你嫌麻烦，不愿意多花几天的时间试试这些方法，而是把问题归咎于数据量不够。数据量不够很大一部分做ds的人面临的问题，不应该成为你拒绝的理由。
lazymaggie 发表于 5/1/2020 10:54:37 AM

re 多好的senior啊

xiaofengxian

大约 5 年

你同事的意见我也看的云里雾里，可能你得把解决的问题再具体一点说下，比如data是images？text？CNN要加feature是啥操作，不能是hand crafted features吧。。。还有GAN也可以用？你们要generate synthetic data?

hercyna 发表于 5/1/2020 11:11:34 AM

。。。。。。。。。。。。。。。。。。。。。。。。

appleapp

大约 5 年

Ds的东西没有绝对的答案吧，有senior愿意指导你应该庆幸。如果工作量不合理就和你经理谈，让老板帮你prioritize

xiaofengxian

大约 5 年

extrapolation后效果差不就是overfitting？increase sample size和ensemble modelling能解决overfitting的前提就是扩大了predictors的取值范围，原本是extrapolation的现在就不是了。

其实数据处理没有一定之规，不要太教条了。特别是你现在并不是100%确定问题出在哪里的时候，多试几个alternative我看不出什么坏处，除了的确花时间。如果你真的确定你的方法更能解决问题，你也不需要求助了吧

Cath226 发表于 5/1/2020 11:21:26 AM

。。。。。。。。。。。。。。。。。。。。。。。。。。。。

大

大喜妞

大约 5 年

都试试啊。从技术角度来说，都有道理。没有具体数据，我们也不好发言。
从职场角度来说，人家付钱给你让你干活，你就干啊。而且你也多试试，尤其是在事业早期，看看结果，都是个学习过程。而且如果事实证明你对了，那不就是对你知识能力的有力证明吗？

Sun6843

大约 5 年

我们是个ds组，我是新来的，其它三个比我senior。我组会讲自己的project。我建了一个cnn模型，完全独立的测试数据结果很好。应用到第一组新数据结果也很好，应用到第二组新数据的时候效果变差了。我检查过learning curve，没有overfitting。我提出问题是training data set 不够representative，解决办法是collect more diverse data set，并且提出该怎么collect more diverse data set。进一步分析这是一种data extrapolation的问题。可能发生的现象是：第二组有些需要预测的点落在training data set cover的范围之外导致cnn效果变差。然后我进一步解释说对于high dimensional X （600 个predictors），这种data extrapolation很容易发生，每个维度只有2个可能性，那整个数据空间就是2^600，事实上每个维度远不止2个，那这个空间更大。所以就算我们有3，000，000 training sample，也有可能发生data extrapolation这种问题。

我们组有其它三个ds发表了他们的看法：
A: 他说这是我的training data set 不够representative，没有把所有可能的关系包括进去。所以我需要add more predictors (features） into X，我现在的predictors (features） X 是600 个，我需要增加到1800个（注意：数据不变）。。。我的看法是：add more predictors （features）根本没有必要，也解决不了问题。如果feature不够，validation error和testing error 就会很差。再说add more features 有个curse of dimensionality的问题，需要的sample size是exponentially的增加。还有对于神经网络这种用gradient descent 找到cost function的极值点的算法。add more features只会增加神经网络的学习难度而导致模型效果变差。关键是解决不了问题。

B: 应该用cross validation select model而不是通过learning curve 选模式。我的看法：cross validation非常耗费计算机资源。单个模型就要train 一天，哪怕用3-fold cross validation，都要3天。关键是没有必要！！！通过learning curve看一下early stopping point 就可以选个best model了。cross validation一般都是用于传统的machine learning比如random forests。

C：不应该用Resnet来，改用GAN。我的看法：data extrapolation的问题是换个模型解决不了的。换个模型，整个数据处理要重新做。

他们三个都比我senior。老板否定了我的分析和建议。让我按照A, B, C的看法一个个试。。。大家怎么看？我觉得我分析的没错啊。。。我感觉他们三个要么没懂我的东西，要么就不懂machine learning/deep learning那一套背后的知识。可总不可能一个组他们都不懂，就我懂，对吧？所以发出来看看大家看看，谢谢！

xiaofengxian 发表于 5/1/2020 9:51:11 AM

试试别人的建议，有什么不好。除非你的项目非常time sensitive。

xiaofengxian

大约 5 年

Ds的东西没有绝对的答案吧，有senior愿意指导你应该庆幸。如果工作量不合理就和你经理谈，让老板帮你prioritize
appleapp 发表于 5/1/2020 11:34:20 AM

。。。。。。。。。。。。。。。。。。。。。。。。

xiaofengxian

大约 5 年

都试试啊。从技术角度来说，都有道理。没有具体数据，我们也不好发言。
从职场角度来说，人家付钱给你让你干活，你就干啊。而且你也多试试，尤其是在事业早期，看看结果，都是个学习过程。而且如果事实证明你对了，那不就是对你知识能力的有力证明吗？

大喜妞发表于 5/1/2020 11:36:51 AM

。。。。。。。。。。。。。。。。。。。。。

xiaofengxian

大约 5 年

试试别人的建议，有什么不好。除非你的项目非常time sensitive。

Sun6843 发表于 5/1/2020 11:39:05 AM

。。。。。。。。。。。。。。。。。。

forestlake

大约 5 年

回复 1楼xiaofengxian的帖子 不是专家帮不上忙但是要赞LZ认真精神！

appleapp

大约 5 年

说到这个我就很伤心。我之前那份工作也是有个senior ds指导我，可我觉得他是真懂。统计科班phd出身，名校毕业，做ds十几年。每个问题都能解释的非常清楚又很深入。现在我觉得更多是用模型派的，并不能真正分析里面的问题，就是有个idea，试一下，不行，换个idea试一下。。。你看3个ds都没有统一意见。其实一个资深的ds很容易一眼看到问题在哪里的。如果是资深的，不至于三个人三个看法。模型总共的问题就那么几大类，一点不深奥。

xiaofengxian 发表于 5/1/2020 11:41:40 AM

Keep your expectation low, 职场上技术好人品好的前辈可遇不可求。遇到了就珍惜机会多学点。大多数爬上去当boss得都不是技术最好的。满嘴跑火车不懂装懂的大有人在。一个问题n种声音太正常了，如果你是做data visualization tool的更崩溃，每个人都有自己的想法。如果你是boss就可以选自己认为对的方案，新人肯定是尽量听取各方意见，然后side by side 把结果呈现出来，让seniors们决定。

xiaofengxian

大约 5 年

回复 1楼xiaofengxian的帖子

不是专家帮不上忙但是要赞LZ认真精神！
forestlake 发表于 5/1/2020 11:47:43 AM

。。。。。。。。。。。。。。。。。。。。。

shuibao

大约 5 年

你一开始选用CNN就已经错了，不过既然已经开始做了，只能接着错下去了

xiaofengxian

大约 5 年

你不试的话对你的损失更大。一个太strong opinion然后同时又搞不定proj的junior在公司很难混的

nexcare 发表于 5/1/2020 11:50:36 AM

。。。。。。。。。。。。。。。。。。

Cath226

大约 5 年

这两个问题的表现都是model generalize不好，不过本质是不一样的。overfitting可以通过work on model来解决，比如reduce model complexity。可是extrapolation只能work on data。要么collect more diverse data, 要么data augumentation。

xiaofengxian 发表于 5/1/2020 11:35:48 AM

嗯，你说的对，我只想到了它们overlap的那部分。比如用polynomial，overfitting通常是次数太高，但是扩大数据范围之后也就能避免这个问题。现在的情况是extrapolation效果不好，如果collect more diverse data成本太高的话，也就只能先work on model吧，比如本来用poly的改成用exponential。我只是打个比方。

eagletiger1

大约 5 年

我们是个ds组，我是新来的，其它三个比我senior。我组会讲自己的project。我建了一个cnn模型，完全独立的测试数据结果很好。应用到第一组新数据结果也很好，应用到第二组新数据的时候效果变差了。我检查过learning curve，没有overfitting。我提出问题是training data set 不够representative，解决办法是collect more diverse data set，并且提出该怎么collect more diverse data set。进一步分析这是一种data extrapolation的问题。可能发生的现象是：第二组有些需要预测的点落在training data set cover的范围之外导致cnn效果变差。然后我进一步解释说对于high dimensional X （600 个predictors），这种data extrapolation很容易发生，每个维度只有2个可能性，那整个数据空间就是2^600，事实上每个维度远不止2个，那这个空间更大。所以就算我们有3，000，000 training sample，也有可能发生data extrapolation这种问题。

我们组有其它三个ds发表了他们的看法：
A: 他说这是我的training data set 不够representative，没有把所有可能的关系包括进去。所以我需要add more predictors (features） into X，我现在的predictors (features） X 是600 个，我需要增加到1800个（注意：数据不变）。。。我的看法是：add more predictors （features）根本没有必要，也解决不了问题。如果feature不够，validation error和testing error 就会很差。再说add more features 有个curse of dimensionality的问题，需要的sample size是exponentially的增加。还有对于神经网络这种用gradient descent 找到cost function的极值点的算法。add more features只会增加神经网络的学习难度而导致模型效果变差。关键是解决不了问题。

B: 应该用cross validation select model而不是通过learning curve 选模式。我的看法：cross validation非常耗费计算机资源。单个模型就要train 一天，哪怕用3-fold cross validation，都要3天。关键是没有必要！！！通过learning curve看一下early stopping point 就可以选个best model了。cross validation一般都是用于传统的machine learning比如random forests。

C：不应该用Resnet来，改用GAN。我的看法：data extrapolation的问题是换个模型解决不了的。换个模型，整个数据处理要重新做。

他们三个都比我senior。老板否定了我的分析和建议。让我按照A, B, C的看法一个个试。。。大家怎么看？我觉得我分析的没错啊。。。我感觉他们三个要么没懂我的东西，要么就不懂machine learning/deep learning那一套背后的知识。可总不可能一个组他们都不懂，就我懂，对吧？所以发出来看看大家看看，谢谢！

xiaofengxian 发表于 5/1/2020 9:51:11 AM

A. 加feature没有什么问题，有可能有些很有用的feature没有加进来，加进来之后做Feature Selection或者Dimension Reduction来减少减少feature数量避免Dimensional Curse. 你既然用了CNN，指定CNN处理后的vector size也算是一种Dimension Reduction的方式，初始的feature数量多一些问题不大。
B. 用Learning Curve问题不大，足够了，只是有问题的话没法定量的看出来。
C. 数据足够大的情况下是对的，数据量不够的话就不好说了，既然他们给了建议，如果有资源的话就run一下，我们做完preprocesing之后要做一下model selection，这个还是比较能说明问题的，如果大部分model的表现都一样，那刚好说明数据量够了，用哪个model都好，如果有哪个model表现好，那选定之后再做grid search来delivery一个最终的model。

lazymaggie

大约 5 年

你能从ds的角度具体分析一下怎么中肯吗？我希望寻找一些专业的建议。

xiaofengxian 发表于 5/1/2020 11:02:05 AM

你的问题是你现在有600个samples，600个features，训练出来的模型对第一组数据有效，对第二组数据效果不够好。很显然你这600个features没有很好地represent全部的samples的特征，所以A给你的建议增加feature是对的。你可以增加到1800，但是你只有600个samples，用1800个feature去train model效果必然不好。你需要做一个feature selection，把1800个feature压缩到100-200甚至更少，你训练的模型才有意义。

其次，你总共才600个样本，模型不能太复杂，你能训练一天，可见你的模型参数太多了。建议你先做feature selection，用较少的features和简单的模型做crossvalidation。cross validation 能很好地解决overfitting的问题。所以B的建议也是正确的。C的建议是换个模型，其实也是给你多一个选择。如果你不能证明你的模型是最优的，那就尝试一下其它的选择。

你现在只要600个samples，就算你老板原因给你增加样本量，double或者triple一下，不会对你的模型的提高有质的飞跃。所以还是在feature和model上下功夫比较好。

tf2k

大约 5 年

你的几个senior说的都正确。至少要按这个方向走，之后才能结论，数据说话，不要太早下结论。

xiaofengxian

大约 5 年

嗯，你说的对，我只想到了它们overlap的那部分。比如用polynomial，overfitting通常是次数太高，但是扩大数据范围之后也就能避免这个问题。现在的情况是extrapolation效果不好，如果collect more diverse data成本太高的话，也就只能先work on model吧，比如本来用poly的改成用exponential。我只是打个比方。

Cath226 发表于 5/1/2020 11:57:00 AM

。。。。。。。。。。。。。。。。。。。。

xiaofengxian

大约 5 年

你一开始选用CNN就已经错了，不过既然已经开始做了，只能接着错下去了
shuibao 发表于 5/1/2020 11:53:41 AM

。。。。。。。。。。。。。。。。。。。。。

eagletiger1

大约 5 年

我的问题不是overfitting啊。。。如果overfitting了，testing error 会很差的。另外，learning curve有两条，一条training loss,一条validation loss, 根据两条线的变化可以看出很多问题的。并不是你说的选loss 越小越好。cross validation不是用来解决overfitting的，是用来避免选出overfitting的模式。overfitting的问题解决方法有, increase sample size, ensemble modeling, reduce model complexity。。。

xiaofengxian 发表于 5/1/2020 10:59:20 AM

小姑娘别急，人家的意见大体也是对的，cross validation最重要的目的就是尽量用所有的data，因为一般的train/test分组会减少数据量，这在数据量小的时候很重要，但是因为大家现在都玩大数据，这样cross validation的作用就不是那么明显了，一般来说train/validation/test分组就够了。

xiaofengxian

大约 5 年

A. 加feature没有什么问题，有可能有些很有用的feature没有加进来，加进来之后做Feature Selection或者Dimension Reduction来减少减少feature数量避免Dimensional Curse. 你既然用了CNN，指定CNN处理后的vector size也算是一种Dimension Reduction的方式，初始的feature数量多一些问题不大。
B. 用Learning Curve问题不大，足够了，只是有问题的话没法定量的看出来。
C. 数据足够大的情况下是对的，数据量不够的话就不好说了，既然他们给了建议，如果有资源的话就run一下，我们做完preprocesing之后要做一下model selection，这个还是比较能说明问题的，如果大部分model的表现都一样，那刚好说明数据量够了，用哪个model都好，如果有哪个model表现好，那选定之后再做grid search来delivery一个最终的model。

eagletiger1 发表于 5/1/2020 11:57:57 AM

。。。。。。。。。。。。。。。。

hercyna

大约 5 年

你同事的意见我也看的云里雾里，可能你得把解决的问题再具体一点说下，比如data是images？text？CNN要加feature是啥操作，不能是hand crafted features吧。。。还有GAN也可以用？你们要generate synthetic data?

hercyna 发表于 5/1/2020 11:11:34 AM

data 是images，不需要hand crafted features。output是一个值，我用的是resent，最后一层用fully connected layer。增加features就是说把能拿到的图全放进去做predictors。比如我本来通过一个张图来判断这张图里有没有猫（时间要对应，很关键，打个比方啊）。增加features就是说，不只是要这张图，还要这张图前一刻的，这张图后一刻的。这是我最不喜欢的，前一刻里面有猫，你也不能代表我需要判断的那张图里有猫啊。。。

xiaofengxian 发表于 2020-05-01 11:34

明白了。从你举的例子来看你同事的说法不一定完全没道理—听起来是从video里抓出来的图？如果是的话，我的理解是增加feature有用没用主要取决于context是不是有用吧，比如上一帧有猫这一帧很可能也有？当然同时也可能引入更多的noise

lazymaggie

大约 5 年

mm你这个评价很专业！如果是很有用的features没有加进来，那为什么hold out的独立的testing error和第一组数据的error（也是independent）都很小呢？这个的效果是满意的。

xiaofengxian 发表于 5/1/2020 12:10:29 PM

你把你的training set， test set，第一组新数据，第二组新数据分别画个分布图，看看他们的分布是不是一致的。

monkeybaby2016

大约 5 年

说用cross validation，一共600个个sample，再分成train和test，sample数量比feature数量还少，那模型根本没有唯一解啊。会不会每次run出来模型差别都很大

xiaofengxian

大约 5 年

说用cross validation，一共600个个sample，再分成train和test，sample数量比feature数量还少，那模型根本没有唯一解啊。会不会每次run出来模型差别都很大
monkeybaby2016 发表于 5/1/2020 12:20:53 PM

。。。。。。。。。。。。。。。

eagletiger1

大约 5 年

mm你这个评价很专业！如果是很有用的features没有加进来，那为什么hold out的独立的testing error和第一组数据的error（也是independent）都很小呢？这个的效果是满意的。

xiaofengxian 发表于 5/1/2020 12:10:29 PM

情况有很多，比如说你现有features已经足够描述第一组数据了，但是不足够描述第二组数据，简单的说把第一组和第二组数据合在一起当作一组数据的时候现有feature数量不够了。

minqidev

大约 5 年

明白了。从你举的例子来看你同事的说法不一定完全没道理—听起来是从video里抓出来的图？如果是的话，我的理解是增加feature有用没用主要取决于context是不是有用吧，比如上一帧有猫这一帧很可能也有？当然同时也可能引入更多的noise

hercyna 发表于 5/1/2020 12:11:19 PM

但是video是可以tracking的，也是可以预测的。
我之前做车牌识别和human pose，
比如人走进了门里面，但房子里面有窗户，当人在窗户出现时，也是可以根据之前的tracking预测
不可见的pose

xiaofengxian

大约 5 年

你把你的training set， test set，第一组新数据，第二组新数据分别画个分布图，看看他们的分布是不是一致的。

lazymaggie 发表于 5/1/2020 12:15:28 PM

。。。。。。。。。。。。。。。。。。。。。。。。。。。

xiaofengxian

大约 5 年

情况有很多，比如说你现有features已经足够描述第一组数据了，但是不足够描述第二组数据，简单的说把第一组和第二组数据合在一起当作一组数据的时候现有feature数量不够了。

eagletiger1 发表于 5/1/2020 12:23:42 PM

。。。。。。。。。。。。。。。。。。。

lazymaggie

大约 5 年

我画过Y, 不一致。X由于是high dimension的（600），我没有画过。mm知道这种X怎么来quantify data similarity吗？

xiaofengxian 发表于 5/1/2020 12:24:58 PM

你先用最简单的PCA提取出前两维或者前三维的feature画画图试试。

刚才看到你说你的sample有几百万个。那你还要什么新的数据啊，这几百万个足够你训练了。A建议你增加feature到1800更没有什么问题了。

xiaofengxian

大约 5 年

明白了。从你举的例子来看你同事的说法不一定完全没道理—听起来是从video里抓出来的图？如果是的话，我的理解是增加feature有用没用主要取决于context是不是有用吧，比如上一帧有猫这一帧很可能也有？当然同时也可能引入更多的noise

hercyna 发表于 5/1/2020 12:11:19 PM

。。。。。。。。。。。。。。。。。。。。。。。

xiaofengxian

大约 5 年

你先用最简单的PCA提取出前两维或者前三维的feature画画图试试。

刚才看到你说你的sample有几百万个。那你还要什么新的数据啊，这几百万个足够你训练了。A建议你增加feature到1800更没有什么问题了。

lazymaggie 发表于 5/1/2020 12:30:17 PM

。。。。。。。。。。。。。。。。。。

xiaofengxian

大约 5 年

但是video是可以tracking的，也是可以预测的。
我之前做车牌识别和human pose，
比如人走进了门里面，但房子里面有窗户，当人在窗户出现时，也是可以根据之前的tracking预测
不可见的pose

minqidev 发表于 5/1/2020 12:23:45 PM

。。。。。。。。。。。。。。

xiaofengxian

大约 5 年

。。。。。。。。。。。。。。。。。

mRNA

大约 5 年

你先用最简单的PCA提取出前两维或者前三维的feature画画图试试。

刚才看到你说你的sample有几百万个。那你还要什么新的数据啊，这几百万个足够你训练了。A建议你增加feature到1800更没有什么问题了。

lazymaggie 发表于 5/1/2020 12:30:17 PM

我为什么觉得lz和其他人对feature和sample的理解和大多数人的理解不一样？samples应该是你的图像数量，features是你用来预测的variables的数量，对于image来说，就是image 的pixel数量。提个建议供lz参考，lz的模型对第一组有用，对第二组没用，那就是training的时候数据不具备足够的代表性。一种方法是你在一开始就能够保证你的training set包括第二组，第三组。。。第n组数据，但一般这可能一开始达不到。另一种方法是拿到第二组数据一看不行，那就在第一组数据work的那个模型的基础上再用第二组数据re-training原来那个模型，以达到re train之后的模型能兼容预测两组数据。

lazymaggie

大约 5 年

不是video里抓出来的图。你说的也有道理，也是一种可能性。我觉得数据来源的差异导致genelarize的不好，比如我的training data/第一组数据是灰度图，但是第二组数据混入了一些彩度图。那么增加features是不是解决不了问题？还是必须搜集多一些彩度图才能根本的解决问题。

xiaofengxian 发表于 5/1/2020 12:34:41 PM

这说明训练集和第一组数据与第二组数据的分布完全不一样，你的模型的输出自然也不一样。你把第二组数据的彩色图转化成灰度图再输入你的模型试试。

xiaofengxian

大约 5 年

这说明训练集和第一组数据与第二组数据的分布完全不一样，你的模型的输出自然也不一样。你把第二组数据的彩色图转化成灰度图再输入你的模型试试。

lazymaggie 发表于 5/1/2020 1:42:44 PM

。。。。。。。。。。。。。。。。。。

xiaofengxian

大约 5 年

我为什么觉得lz和其他人对feature和sample的理解和大多数人的理解不一样？samples应该是你的图像数量，features是你用来预测的variables的数量，对于image来说，就是image 的pixel数量。

提个建议供lz参考，lz的模型对第一组有用，对第二组没用，那就是training的时候数据不具备足够的代表性。一种方法是你在一开始就能够保证你的training set包括第二组，第三组。。。第n组数据，但一般这可能一开始达不到。另一种方法是拿到第二组数据一看不行，那就在第一组数据work的那个模型的基础上再用第二组数据re-training原来那个模型，以达到re train之后的模型能兼容预测两组数据。

mRNA 发表于 5/1/2020 1:02:49 PM

。。。。。。。。。。。。

sevenfrost

大约 5 年

这么好的探讨贴干嘛删呀好可惜都是不同建议/意见错了也没关系啊