怎么说服老板两步法机器学习不行 - 2022年6月1日北美华人网存档

大约 3 年

楼主 (北美华人网)

假设有0和1两类。同时两个模型A和B。模型A喜欢把1错误预测成0 模型B喜欢把0错误预测成1 那么，先模型A预测，把预测为0的数据拿出来，让模型B进行预测，这个方法，能提高模型对于预测0和1的性能吗？
老板认为这个方法能提高最终预测能力。我的直觉认为这个方法不能提高。
请问大家有什么好的理解。
一个癌症病人，如果做的测试越多，那么预测是否得癌症的准确率，其实是越低。是这样的吗？好像现实是，我们一旦癌症测试为正，就喜欢去做更多的测试。

wdong

大约 3 年

用Ensembling。两个分数求平均。Fancy点的办法可以用boosting决定权重。先a后b或者先b后a, 都不是很漂亮。倒不是说不行。你老板的点子肯定是对的，傻子都能想到。关键是怎么implement。

microsat

大约 3 年

回复 2楼wdong的帖子
多谢！

nickbear

大约 3 年

你需要具体分析数据分布和模型bias/variance的情况 variance高用bagging，bias高用boosting 你老板的idea类似于boosting，如果是bias高是有可能work的

microsat

大约 3 年

你需要具体分析数据分布和模型bias/variance的情况 variance高用bagging，bias高用boosting 你老板的idea类似于boosting，如果是bias高是有可能work的

nickbear 发表于 2022-05-31 16:07

smoke_or_not alcohol_or_not cancer_or_not 1/0 1/0 1/0
请问只有两个预测变量 smoke_or_not， alcohol_or_not，都是0和1的值。
结果变量是cancer_or_not， 1是cancer 0 是正常

请问怎么计算variance的高低，和bias的高低？

nickbear

大约 3 年

smoke_or_not alcohol_or_not cancer_or_not 1/0 1/0 1/0
请问只有两个预测变量 smoke_or_not， alcohol_or_not，都是0和1的值。
结果变量是cancer_or_not， 1是cancer 0 是正常

请问怎么计算variance的高低，和bias的高低？
microsat 发表于 2022-05-31 16:13

bias/variance变化趋势可以通过training error和test error的变化判断一般的包里也有自带的库来计算如果你的model只是一个variable那肯定是underfit/high bias

猪

猪舌头

大约 3 年

我就直接做了，感觉很难说明白，更难让他信服

猪

猪舌头

大约 3 年

你需要具体分析数据分布和模型bias/variance的情况 variance高用bagging，bias高用boosting 你老板的idea类似于boosting，如果是bias高是有可能work的

nickbear 发表于 2022-05-31 16:07

除非你找到这套的书或者paper依据。你老板显然不懂这套。就算这样，他也会觉得你有功夫干这些，还不如直接试试她的办法。花那么多心思跟他作对。

bellshirt

大约 3 年

为什么要说服，吃力不讨好。就应该装傻按照他的说法一步一步做下去，但是干活之前要提前明确责任，写email confirm他的想法。如果是中国人老板，出的烂主意你最后做不出来，最后会反咬一口说是你的责任。所以要先明确责任。然后就可以开始慢吞吞的磨洋工了。

happymc

大约 3 年

拿测试数据试一下就知道了啊

microsat

大约 3 年

在现实中，如果一个人在一个医院诊断出了某种疾病，那么这个人如果经济充足的话，他喜欢再找一个医院再诊断一下。这样做的目的，是提高诊断结果的准确性。但是，数学理论上，最终的准确性 = 第一次诊断的准确性 * 第二次诊断的准确性。假如你第一次诊断的准确性是90%，第二次的准确性是80%。最终的准确性概率将降低到72%。请问我的这个分析是正确的吗？得病了，诊断2次的准确性，不如只诊断1次的。

y222zhang

大约 3 年

楼上第一次错，第二次对的情况也要考虑进去呀。

bellshirt

大约 3 年

现在都是数学水平这样的人在做机器学习吗？这行裁员50%都还有水分。

microsat

大约 3 年

楼上第一次错，第二次对的情况也要考虑进去呀。
y222zhang 发表于 2022-05-31 19:07

怎么计算这个准确率呢？第一次诊断的准确率是90% 第二次去另一个医院诊断的准确率是80% 请问进行这样两次诊断的，最终准确率是多少？

traveler

大约 3 年

85%, unrelated

wdong

大约 3 年

现在都是数学水平这样的人在做机器学习吗？这行裁员50%都还有水分。
bellshirt 发表于 2022-05-31 19:07

太对了。我要是老板，花半个钟头自己就测试掉了。来回来去跟员工扯皮，肯定不如自己做快。
碰到不会写程序的老板都应该当个宝供着。

H20

大约 3 年

按照9楼做就好了自己不要想太多，和manager argue除非特殊情况，没有好处。工作就是交差，不是什么高尚的玩意

microsat

大约 3 年

85%, unrelated
traveler 发表于 2022-06-01 10:15

你就是取的平均值？

kengdie

大约 3 年

用Ensembling。两个分数求平均。Fancy点的办法可以用boosting决定权重。先a后b或者先b后a, 都不是很漂亮。倒不是说不行。你老板的点子肯定是对的，傻子都能想到。关键是怎么implement。
wdong 发表于 2022-05-31 15:49

取平均很可能分数都是50%左右。

kengdie

大约 3 年

现在都是数学水平这样的人在做机器学习吗？这行裁员50%都还有水分。
bellshirt 发表于 2022-05-31 19:07

这行水分确实很大，但裁员50%很可能把懂的给裁掉。你品品这话什么意思。

Chihiro77

大约 3 年

用out of sample test 一下？如果效果比单用两种都好那就听老板的，除非你有更好的办法。

Geofan

大约 3 年

明显是Model不行，还两步法

ivoryzz

大约 3 年

回复 22楼Geofan的帖子
他这种情况怎么提高模型performance? 我想到的就是加数据没有数据怎么办

shanggj

大约 3 年

在现实中，如果一个人在一个医院诊断出了某种疾病，那么这个人如果经济充足的话，他喜欢再找一个医院再诊断一下。这样做的目的，是提高诊断结果的准确性。但是，数学理论上，最终的准确性 = 第一次诊断的准确性 * 第二次诊断的准确性。假如你第一次诊断的准确性是90%，第二次的准确性是80%。最终的准确性概率将降低到72%。请问我的这个分析是正确的吗？得病了，诊断2次的准确性，不如只诊断1次的。
microsat 发表于 2022-05-31 18:24

enn. 90% 准确率的测试，连测十次，都是阳性，所以阳性的准确率是 0.9^10 ?

honeybees

大约 3 年

我会按照他说的去做，反正数据都有label，总能比出个高低。好使就好使，不好使就告诉他让他决定呗没有动手，久光讨论预测好不好用没太大帮助

星

星月花草

大约 3 年

回复 11楼microsat的帖子
这个计算逻辑是你自己想出来的？

zghbt

大约 3 年

回复 16楼wdong的帖子
ha ha

你

你信吗

大约 3 年

在现实中，如果一个人在一个医院诊断出了某种疾病，那么这个人如果经济充足的话，他喜欢再找一个医院再诊断一下。这样做的目的，是提高诊断结果的准确性。但是，数学理论上，最终的准确性 = 第一次诊断的准确性 * 第二次诊断的准确性。假如你第一次诊断的准确性是90%，第二次的准确性是80%。最终的准确性概率将降低到72%。请问我的这个分析是正确的吗？得病了，诊断2次的准确性，不如只诊断1次的。
microsat 发表于 2022-05-31 18:24

这个好像不对吧，统计的基本概念都不对？虽然我自己从来没学懂过统计，但ai难道不是要先学统计吗

江

江湖对面

大约 3 年