楼主是data scientist,在做一个卷积神经网络的模型。上周得到了初步的结果,每周例行的组会讲了一下。建完模之后,hold out的testing data效果很好。应用在了两组新的数据上,第一组数据效果也很好,效果和testing data很符合,第二组数据效果比第一组数据效果都差蛮多的。然后我就分析说,training data不够representitive,我们需要收集more diverse data set。然后我也说了,模式不能generalize well on all new data是个很关键的问题,如果没有解决,这个模型就不算成功。
然后我们开会的时候有个白人老头(不是我们组的)就说,这样的结果是因为your model is cheating! 然后就没有然后了。。。
当时我没多想,就说,你是想说model is overfitting?不是,我检查过learning curve,没有overfitting。而且根据我的经验,模式不能generalize well,没有overfitting,一般都是data的问题。training data不够具有代表性,然后我又分析了一下什么原因, 应该怎么做。。。
楼主是data scientist,在做一个卷积神经网络的模型。上周得到了初步的结果,每周例行的组会讲了一下。建完模之后,hold out的testing data效果很好。应用在了两组新的数据上,第一组数据效果也很好,效果和testing data很符合,第二组数据效果比第一组数据效果都差蛮多的。然后我就分析说,training data不够representitive,我们需要收集more diverse data set。然后我也说了,模式不能generalize well on all new data是个很关键的问题,如果没有解决,这个模型就不算成功。
然后我们开会的时候有个白人老头(不是我们组的)就说,这样的结果是因为your model is cheating! 然后就没有然后了。。。
当时我没多想,就说,你是想说model is overfitting?不是,我检查过learning curve,没有overfitting。而且根据我的经验,模式不能generalize well,没有overfitting,一般都是data的问题。training data不够具有代表性,然后我又分析了一下什么原因, 应该怎么做。。。
楼主是data scientist,在做一个卷积神经网络的模型。上周得到了初步的结果,每周例行的组会讲了一下。建完模之后,hold out的testing data效果很好。应用在了两组新的数据上,第一组数据效果也很好,效果和testing data很符合,第二组数据效果比第一组数据效果都差蛮多的。然后我就分析说,training data不够representitive,我们需要收集more diverse data set。然后我也说了,模式不能generalize well on all new data是个很关键的问题,如果没有解决,这个模型就不算成功。
然后我们开会的时候有个白人老头(不是我们组的)就说,这样的结果是因为your model is cheating! 然后就没有然后了。。。
当时我没多想,就说,你是想说model is overfitting?不是,我检查过learning curve,没有overfitting。而且根据我的经验,模式不能generalize well,没有overfitting,一般都是data的问题。training data不够具有代表性,然后我又分析了一下什么原因, 应该怎么做。。。
楼主是data scientist,在做一个卷积神经网络的模型。上周得到了初步的结果,每周例行的组会讲了一下。建完模之后,hold out的testing data效果很好。应用在了两组新的数据上,第一组数据效果也很好,效果和testing data很符合,第二组数据效果比第一组数据效果都差蛮多的。然后我就分析说,training data不够representitive,我们需要收集more diverse data set。然后我也说了,模式不能generalize well on all new data是个很关键的问题,如果没有解决,这个模型就不算成功。 然后我们开会的时候有个白人老头(不是我们组的)就说,这样的结果是因为your model is cheating! 然后就没有然后了。。。 当时我没多想,就说,你是想说model is overfitting?不是,我检查过learning curve,没有overfitting。而且根据我的经验,模式不能generalize well,没有overfitting,一般都是data的问题。training data不够具有代表性,然后我又分析了一下什么原因, 应该怎么做。。。 事后我总觉得不对,感觉心里很不是滋味,这句话是在攻击我或者我做的工作吗? 我老想发封邮件cc给老板,让他解释清楚他说的意思。不过想到这个时候大家都很烦,老板估计也不要管这些事情。上周开会的时候老板不在,在个人meeting的时候,老板说过模式用到新数据上效果就差在我们领域是个非常常见的问题。我为了别人这一句话发信给老板是不是太计较了?不过心里倒是不舒服。。。 xiaofengxian 发表于 4/4/2020 8:33:00 PM
楼主是data scientist,在做一个卷积神经网络的模型。上周得到了初步的结果,每周例行的组会讲了一下。建完模之后,hold out的testing data效果很好。应用在了两组新的数据上,第一组数据效果也很好,效果和testing data很符合,第二组数据效果比第一组数据效果都差蛮多的。然后我就分析说,training data不够representitive,我们需要收集more diverse data set。然后我也说了,模式不能generalize well on all new data是个很关键的问题,如果没有解决,这个模型就不算成功。
然后我们开会的时候有个白人老头(不是我们组的)就说,这样的结果是因为your model is cheating! 然后就没有然后了。。。
当时我没多想,就说,你是想说model is overfitting?不是,我检查过learning curve,没有overfitting。而且根据我的经验,模式不能generalize well,没有overfitting,一般都是data的问题。training data不够具有代表性,然后我又分析了一下什么原因, 应该怎么做。。。
他应该是对专业,不必计较,例如: https://chatbotslife.com/deep-learning-in-7-lines-of-code-7879a8ef8cfb We now can use our model to predict output. Be sure to remove any test patterns from your training data (comment out lines containing the patterns you want to test), otherwise the model is cheating.
the model “is cheating” by backtesting using “familiar” data
那他说话在组里有分量么?还是说就是个摆设找存在感?我觉得啊,坏事变好事,可以借着这个机会画大饼,跟你老板1 on 1的时候,讲一下你做的这个model往下有很多可做的。 除了你说过的那些,讲讲怎么quantify data similarity啊,是不是要往continual learning走啊,model ensembles啊,等等的,对强化你的technical leadership肯定有好处。
那他说话在组里有分量么?还是说就是个摆设找存在感?我觉得啊,坏事变好事,可以借着这个机会画大饼,跟你老板1 on 1的时候,讲一下你做的这个model往下有很多可做的。 除了你说过的那些,讲讲怎么quantify data similarity啊,是不是要往continual learning走啊,model ensembles啊,等等的,对强化你的technical leadership肯定有好处。
这个人是干嘛的啊?为啥在你们的组会发言。这个人明显故意的。如果是做cross validation不可能存在cheating的问题,他要再找茬就直接问 Why do you think the model is cheating while the test data is never included in the training set?
楼主的反应应该是最好的了。如果是我肯定玻璃心碎了,当场就take it personally了,也许我会反击回去,但是会显得很小气,而且让大家都尴尬。 楼主的回答让这个老头攻击扑了个空,替他把一个非常有攻击性的问题转换成了一个可以有建树性答案的问题。非常高明。MM不用担心,你老板肯定非常为你骄傲 luna930 发表于 4/5/2020 9:06:25 AM
然后我们开会的时候有个白人老头(不是我们组的)就说,这样的结果是因为your model is cheating! 然后就没有然后了。。。
当时我没多想,就说,你是想说model is overfitting?不是,我检查过learning curve,没有overfitting。而且根据我的经验,模式不能generalize well,没有overfitting,一般都是data的问题。training data不够具有代表性,然后我又分析了一下什么原因, 应该怎么做。。。
事后我总觉得不对,感觉心里很不是滋味,这句话是在攻击我或者我做的工作吗? 我老想发封邮件cc给老板,让他解释清楚他说的意思。不过想到这个时候大家都很烦,老板估计也不要管这些事情。上周开会的时候老板不在,在个人meeting的时候,老板说过模式用到新数据上效果就差在我们领域是个非常常见的问题。我为了别人这一句话发信给老板是不是太计较了?不过心里倒是不舒服。。。
我也觉得你回答的很好。老板肯定心里是有数的。可以和HR提下备个案,以防他以后再
怕老板烦心,我老板挺好的。遇到这样的问题,他说这是个典型的问题,我们领域很多人都会遇到这样的问题。看了隔壁贴,越加觉得自己的老板很nice。就是不想烦他,上次组会他不在。
首先这个老外的态度有问题,应该就事论事,你的分析没有问题,着重提一下第二组数据,这组数据按照Training Data来讲是Outlier,这和Cheating无关,感觉提意见的认为你的参数设置参考了test data,结果就是你的test data结果还好,也没有明显的overfitting问题,但是在新的数据上结果不好,你可以说明一下Training的流程,提一下Training过程中没有碰test data,被人误会的时候要解释,尤其是这种指责,不然别人会觉得你有诚信问题,解释不是给这个指责你的人听的,我们是很难扭转有敌意的人的对我们的感官的,解释是给其他同事听的。
平时和他熟吗,是个很mean的人吗?我觉得你当场回答的时候解释了generalizability和overfitting挺好的,顶多过后再确认一下没有data leakage?下次他再找麻烦,用很肯定的语气表明你的expertise就行了,如果他是个bully,被怼个几次就老实了。
他应该是对专业,不必计较,例如:
https://chatbotslife.com/deep-learning-in-7-lines-of-code-7879a8ef8cfb
We now can use our model to predict output. Be sure to remove any test patterns from your training data (comment out lines containing the patterns you want to test), otherwise the model is cheating.
the model “is cheating” by backtesting using “familiar” data
不熟。。。平时很少接触,他有时候参加组会有时候又不参加。data leakage是个很重要的问题,我在讲slides的时候解释过TESTING DATA怎么取的,强调过它的独立性。回答问题的时候应该再强调一遍的。
那他说话在组里有分量么?还是说就是个摆设找存在感?我觉得啊,坏事变好事,可以借着这个机会画大饼,跟你老板1 on 1的时候,讲一下你做的这个model往下有很多可做的。
除了你说过的那些,讲讲怎么quantify data similarity啊,是不是要往continual learning走啊,model ensembles啊,等等的,对强化你的technical leadership肯定有好处。
mm很专业!这个我在讲slides的强调过。回答问题的时候再强调一遍更好。
没啥分量,最后还是老板说了算。。。
mm你说的这些都很关键! 我也是这么想的,要是组里都是你这种同事就有很多交流的火花,哈哈哈哈哈!
哈哈哈我有限的经验是亚裔女生一上来多多少少的都有点被轻视或者不信任,我们自己气势不能输,专业上更没啥怕他们的啦,另外就是老板清楚你的贡献肯挺你最重要!
我不觉得啊。。。专业人士都知道建模很辛苦的,尤其是模式generalization的问题,很多时候数据不够也没办法。建模初期也不会知道哪些数据就够了,哪些不够。back and forth再finalize模式是个很正常的过程。。。不会用这个词来攻击别人建的模式的。
认同,告诉自己要内心坚定有力量。谢谢mm慧言!
是的,对方的态度很不专业,但是你用专业的态度去对待就很好。觉得你当时的应对很好。不必要进一步解释,以后提防一下这个老头就好了,同时注意保持专业的态度。
赞一下这个。
嗯,我也觉得就让他elaborate,让他自己出丑,然后再针对他的回答做出相应的回应。