问题:用VIF做feature selection

Mayye
楼主 (未名空间)
有个问题是怎么用VIF做feature selection.
有上千个feature,要求是最后的logistic regression model的feature VIF要小于2. 想了解一下大家用VIF做feature selection的过程。
1. 是stepwise的方式,每次去掉有最大VIF的feature,然后重新计算余下feature的
VIF,不断循环直到最后余下的feature VIF<2. br="">2. 是分几步,先去掉VIF>100的,然后重新计算余下feature的VIF,再去掉VIF>10的,然后重新计算余下feature的VIF.

因为数据量比较大,1的办法太耗时,所以在用2的办法。但是risk就是在VIF>100去掉
的feature里有本该留下的,结果一刀切都去掉了。

求助,多谢
w
warrenBH
2 楼
我觉得应该用stepwise的方法。如果数据量太大,可以考虑random sampling,取出一
部分数据来做,这样应该对VIF影响不会很大。

【 在 Mayye (红河谷) 的大作中提到: 】
有个问题是怎么用VIF做feature selection.
有上千个feature,要求是最后的logistic regression model的feature VIF要小于2.
想了解一下大家用VIF做feature selection的过程。
1. 是stepwise的方式,每次去掉有最大VIF的feature,然后重新计算余下feature的: VIF,不断循环直到最后余下的feature VIF<2. br="">: 2. 是分几步,先去掉VIF>100的,然后重新计算余下feature的VIF,再去掉VIF>10的,
然后重新计算余下feature的VIF.
因为数据量比较大,1的办法太耗时,所以在用2的办法。但是risk就是在VIF>100去掉
的feature里有本该留下的,结果一刀切都去掉了。
求助,多谢
J
JTX
3 楼
Probably no one will do stepwise with thousands of variables. Try
information value/cluster analysis first.
p
prior
4 楼
VIF has nothing to to with the response variable, so you don't need to run
the logistic regression to get a set of dependent variables with low VIFs.
m
mtkrc
5 楼
如果是查col-linearity的话,VIF不太靠谱,如果单纯做variable reduction的话,LS说的对,IV和clustering可以。
c
comics
6 楼
Never know VIF could be used to select variables, is this a typo? Maybe you Mean IV?