怎么说服老板两步法机器学习不行

m
microsat
楼主 (北美华人网)
假设有0和1两类。同时两个模型A和B。 模型A喜欢把1错误预测成0 模型B喜欢把0错误预测成1 那么,先模型A预测,把预测为0的数据拿出来,让模型B进行预测, 这个方法,能提高模型对于预测0和1的性能吗?
老板认为这个方法能提高最终预测能力。 我的直觉认为这个方法不能提高。
请问大家有什么好的理解。
一个癌症病人,如果做的测试越多,那么预测是否得癌症的准确率,其实是越低。是这样的吗? 好像现实是,我们一旦癌症测试为正,就喜欢去做更多的测试。
w
wdong
用Ensembling。 两个分数求平均。Fancy点的办法可以用boosting决定权重。先a后b或者先b后a, 都不是很漂亮。倒不是说不行。你老板的点子肯定是对的,傻子都能想到。关键是怎么implement。
m
microsat
回复 2楼wdong的帖子
多谢!
n
nickbear
你需要具体分析数据分布和模型bias/variance的情况 variance高用bagging,bias高用boosting 你老板的idea类似于boosting,如果是bias高是有可能work的

m
microsat
你需要具体分析数据分布和模型bias/variance的情况 variance高用bagging,bias高用boosting 你老板的idea类似于boosting,如果是bias高是有可能work的


nickbear 发表于 2022-05-31 16:07

smoke_or_not alcohol_or_not cancer_or_not 1/0 1/0 1/0
请问只有两个预测变量 smoke_or_not, alcohol_or_not, 都是0和1的值。
结果变量是cancer_or_not, 1是cancer 0 是正常

请问怎么计算variance的高低,和bias的高低?
n
nickbear
smoke_or_not alcohol_or_not cancer_or_not 1/0 1/0 1/0
请问只有两个预测变量 smoke_or_not, alcohol_or_not, 都是0和1的值。
结果变量是cancer_or_not, 1是cancer 0 是正常

请问怎么计算variance的高低,和bias的高低?
microsat 发表于 2022-05-31 16:13

bias/variance变化趋势可以通过training error和test error的变化判断 一般的包里也有自带的库来计算 如果你的model只是一个variable那肯定是underfit/high bias
猪舌头
我就直接做了,感觉很难说明白,更难让他信服
猪舌头
你需要具体分析数据分布和模型bias/variance的情况 variance高用bagging,bias高用boosting 你老板的idea类似于boosting,如果是bias高是有可能work的


nickbear 发表于 2022-05-31 16:07

除非你找到这套的书或者paper依据。你老板显然不懂这套。就算这样,他也会觉得你有功夫干这些,还不如直接试试她的办法。花那么多心思跟他作对。
b
bellshirt
为什么要说服,吃力不讨好。就应该装傻按照他的说法一步一步做下去,但是干活之前要提前明确责任,写email confirm他的想法。 如果是中国人老板,出的烂主意你最后做不出来,最后会反咬一口说是你的责任。所以要先明确责任。 然后就可以开始慢吞吞的磨洋工了。
h
happymc
拿测试数据试一下就知道了啊
m
microsat
在现实中,如果一个人在一个医院诊断出了某种疾病,那么这个人如果经济充足的话,他喜欢再找一个医院再诊断一下。这样做的目的,是提高诊断结果的准确性。但是,数学理论上,最终的准确性 = 第一次诊断的准确性 * 第二次诊断的准确性。 假如你第一次诊断的准确性是90%,第二次的准确性是80%。最终的准确性概率将降低到72%。请问我的这个分析是正确的吗?得病了,诊断2次的准确性,不如只诊断1次的。
y
y222zhang
楼上第一次错,第二次对的情况也要考虑进去呀。
b
bellshirt
现在都是数学水平这样的人在做机器学习吗?这行裁员50%都还有水分。
m
microsat
楼上第一次错,第二次对的情况也要考虑进去呀。
y222zhang 发表于 2022-05-31 19:07

怎么计算这个准确率呢? 第一次诊断的准确率是90% 第二次去另一个医院诊断的准确率是80% 请问进行这样两次诊断的,最终准确率是多少?
t
traveler
85%, unrelated
w
wdong
现在都是数学水平这样的人在做机器学习吗?这行裁员50%都还有水分。
bellshirt 发表于 2022-05-31 19:07

太对了。我要是老板,花半个钟头自己就测试掉了。来回来去跟员工扯皮,肯定不如自己做快。
碰到不会写程序的老板都应该当个宝供着。
H
H20
按照9楼做就好了 自己不要想太多,和manager argue除非特殊情况,没有好处。工作就是交差,不是什么高尚的玩意
m
microsat
85%, unrelated
traveler 发表于 2022-06-01 10:15

你就是取的平均值?
k
kengdie
用Ensembling。 两个分数求平均。Fancy点的办法可以用boosting决定权重。先a后b或者先b后a, 都不是很漂亮。倒不是说不行。你老板的点子肯定是对的,傻子都能想到。关键是怎么implement。
wdong 发表于 2022-05-31 15:49

取平均很可能分数都是50%左右。
k
kengdie
现在都是数学水平这样的人在做机器学习吗?这行裁员50%都还有水分。
bellshirt 发表于 2022-05-31 19:07

这行水分确实很大,但裁员50%很可能把懂的给裁掉。你品品这话什么意思。
C
Chihiro77
用out of sample test 一下?如果效果比单用两种都好那就听老板的,除非你有更好的办法。
G
Geofan
明显是Model不行,还两步法
i
ivoryzz
回复 22楼Geofan的帖子
他这种情况怎么提高模型performance? 我想到的就是加数据 没有数据怎么办
s
shanggj
在现实中,如果一个人在一个医院诊断出了某种疾病,那么这个人如果经济充足的话,他喜欢再找一个医院再诊断一下。这样做的目的,是提高诊断结果的准确性。但是,数学理论上,最终的准确性 = 第一次诊断的准确性 * 第二次诊断的准确性。 假如你第一次诊断的准确性是90%,第二次的准确性是80%。最终的准确性概率将降低到72%。请问我的这个分析是正确的吗?得病了,诊断2次的准确性,不如只诊断1次的。
microsat 发表于 2022-05-31 18:24

enn. 90% 准确率的测试, 连测十次, 都是阳性, 所以阳性的准确率是 0.9^10 ?
h
honeybees
我会按照他说的去做,反正数据都有label,总能比出个高低。 好使就好使,不好使就告诉他让他决定呗 没有动手,久光讨论预测好不好用没太大帮助
星月花草
回复 11楼microsat的帖子
这个计算逻辑是你自己想出来的?
z
zghbt
回复 16楼wdong的帖子
ha ha
你信吗
在现实中,如果一个人在一个医院诊断出了某种疾病,那么这个人如果经济充足的话,他喜欢再找一个医院再诊断一下。这样做的目的,是提高诊断结果的准确性。但是,数学理论上,最终的准确性 = 第一次诊断的准确性 * 第二次诊断的准确性。 假如你第一次诊断的准确性是90%,第二次的准确性是80%。最终的准确性概率将降低到72%。请问我的这个分析是正确的吗?得病了,诊断2次的准确性,不如只诊断1次的。
microsat 发表于 2022-05-31 18:24

这个好像不对吧,统计的基本概念都不对?虽然我自己从来没学懂过统计,但ai难道不是要先学统计吗
江湖对面
你需要具体分析数据分布和模型bias/variance的情况 variance高用bagging,bias高用boosting 你老板的idea类似于boosting,如果是bias高是有可能work的


nickbear 发表于 2022-05-31 16:07

关于bias/variance,有没有书/资料/视频...推荐?
k
kengdie
回复 22楼Geofan的帖子
他这种情况怎么提高模型performance? 我想到的就是加数据 没有数据怎么办
ivoryzz 发表于 2022-06-01 14:30

你看你就外行,要是能加数据,人家早就加了,哈哈哈哈哈,终于逮住机会怼你了
i
ivoryzz
回复 30楼kengdie的帖子
Kengdie 兄 那你说该如何提高质量?原层主没有建设性意见
k
kengdie
回复 30楼kengdie的帖子
Kengdie 兄 那你说该如何提高质量?原层主没有建设性意见
ivoryzz 发表于 2022-06-01 20:08

kengdie兄?原来你一直想找个爷们一起养老?
i
ivoryzz
回复 32楼kengdie的帖子
我现在正在外头 远处两个中国人在打网球 我想冲过去把男的拍死 然后强奸那女的
k
kengdie
回复 32楼kengdie的帖子
我现在正在外头 远处两个中国人在打网球 我想冲过去把男的拍死 然后强奸那女的
ivoryzz 发表于 2022-06-01 20:29

然后你走进发现是其实两个男的。。。