机器学习的变量重要性,哪个模型的最准

m
microsat
楼主 (北美华人网)
用svm,random forest, logistic regression,分别做出来了机器学习的变量重要性。 但是这3租重要性有些不一样。 比如variable 1, svm的变量重要性排名靠前,logistic regression 靠后, random forest却靠中。 变量重要性,到底该相信哪一个的结果呢?
e
eaterlin
用svm,random forest, logistic regression,分别做出来了机器学习的变量重要性。 但是这3租重要性有些不一样。 比如variable 1, svm的参数重要性排名靠前,logistic regression 靠后, random forest却靠中。 变量重要性,到底该相信哪一个的结果呢?
microsat 发表于 2022-03-03 14:44

编故事吧
神功护体
哪个模型最准啊?
m
microsat
哪个模型最准啊?
神功护体 发表于 2022-03-03 14:45

这个也是个问题。你用什么标准来衡量哪个模型最准?
w
wfmlover
你是看中文材料的么,我花了几秒才把变量重要性翻译过来 LR/SVM没有feature importance
m
microsat
你是看中文材料的么,我花了几秒才把变量重要性翻译过来 LR/SVM没有feature importance
wfmlover 发表于 2022-03-03 14:51

variable importance. 网上一大堆这么叫的。
我们假设LR/SVM 按你所说没有。那么其他的机器学习模型中,哪种计算出来的 variable importance最准。
w
wfmlover
回复 6楼microsat的帖子
只有tree模型才有
当然,你跑linear regression也会告诉你这个coefficient是不是significant 也算是广义上的这个varialbe重不重要

a
abaobao
看你最后用那个模型了,重要性解释不一样。shared 的最重要,其他的酌情处理
m
microsat
回复 6楼microsat的帖子
只有tree模型才有
当然,你跑linear regression也会告诉你这个coefficient是不是significant 也算是广义上的这个varialbe重不重要


wfmlover 发表于 2022-03-03 14:55

对。我就是问,这些广义上的变量重要性。比如linear regression的系数,random forest的importance score。 等等, 这些出来的结果中,哪一个最准确?
主要考虑,变量们的排序。也就是哪个变量第一重要,哪个变量最不重要。

L
Leike
哪个模型最准,这肯定没有固定答案呀 要不然也不会有那么多模型了
不同情况用不同模型,你都试试看看哪个更合适一些吧
i
ivoryzz
回复 1楼microsat的帖子
Feature imp 总震荡晃悠原因是feature self corr 需要先decorr
m
microsat
哪个模型最准,这肯定没有固定答案呀 要不然也不会有那么多模型了
不同情况用不同模型,你都试试看看哪个更合适一些吧
Leike 发表于 2022-03-03 15:02

大家肯定遇到过这个问题。根据大家的经验。 一般哪个模型的给出的变量重要性,最可行一点。
比如:我的经验是 lm给出的不好。
m
microsat
回复 1楼microsat的帖子
Feature imp 总震荡晃悠原因是feature self corr 需要先decorr
ivoryzz 发表于 2022-03-03 15:14

能展开讲讲吗? 你的意思是先要把相关的变量,去掉几个? 能推荐一个算法,或者工具做这个decorr的吗?
不会用cor(x,y), 直接计算吧。这个方法不是很准的decorr。
i
ivoryzz
回复 13楼microsat的帖子
一点一点提高别着急啊 你先做个corr 就用pandas 然后看谁和谁相关 然后只要其中一个建模
d
ddswallow
variable importance只能针对individual variable。你需要做Y~f(x1), Y~f(x2) ... f can be svm, logistic regression etc. 这样得出来的排序一般是差不多的。当你有很多变量的时候,不同变量的effect在不同model中增强和cancel的效果不同, 当然得出来的结论就不一样了。你应该想想你做这个analysis的目的是什么? 是要做feature selection还是understand how the model works and provides interpretability.
m
microsat
variable importance只能针对individual variable。你需要做Y~f(x1), Y~f(x2) ... f can be svm, logistic regression etc. 这样得出来的排序一般是差不多的。当你有很多变量的时候,不同变量的effect在不同model中增强和cancel的效果不同, 当然得出来的结论就不一样了。你应该想想你做这个analysis的目的是什么? 是要做feature selection还是understand how the model works and provides interpretability.
ddswallow 发表于 2022-03-03 15:33

我的目的就是想回答客户的要求。
“你用这么多变量做机器学习,它们是同等重要吗?哪些变量最重要,哪些最不重要”
我以为很简单,就能回答这个问题。结果发现,不同的模型给出的变量重要性完全不一样。 也就是说,我根本不知道哪个变量重要,哪个不重要。 模型一变,变量的重要性就变了。
b
bye2020
你究竟在读什么学位啊,看你cs统计生物的问题问了一圈了。
s
shanggj
你究竟在读什么学位啊,看你cs统计生物的问题问了一圈了。
bye2020 发表于 2022-03-03 15:42

bioinformatics
木牛流马
我的目的就是想回答客户的要求。
“你用这么多变量做机器学习,它们是同等重要吗?哪些变量最重要,哪些最不重要”
我以为很简单,就能回答这个问题。结果发现,不同的模型给出的变量重要性完全不一样。 也就是说,我根本不知道哪个变量重要,哪个不重要。 模型一变,变量的重要性就变了。
microsat 发表于 2022-03-03 15:41

All models are wrong, some are useful.