【 在 Mayye (红河谷) 的大作中提到: 】 有个问题是怎么用VIF做feature selection. 有上千个feature,要求是最后的logistic regression model的feature VIF要小于2. 想了解一下大家用VIF做feature selection的过程。 1. 是stepwise的方式,每次去掉有最大VIF的feature,然后重新计算余下feature的: VIF,不断循环直到最后余下的feature VIF<2. br="">: 2. 是分几步,先去掉VIF>100的,然后重新计算余下feature的VIF,再去掉VIF>10的, 然后重新计算余下feature的VIF. 因为数据量比较大,1的办法太耗时,所以在用2的办法。但是risk就是在VIF>100去掉 的feature里有本该留下的,结果一刀切都去掉了。 求助,多谢
有上千个feature,要求是最后的logistic regression model的feature VIF要小于2. 想了解一下大家用VIF做feature selection的过程。
1. 是stepwise的方式,每次去掉有最大VIF的feature,然后重新计算余下feature的
VIF,不断循环直到最后余下的feature VIF<2. br="">2. 是分几步,先去掉VIF>100的,然后重新计算余下feature的VIF,再去掉VIF>10的,然后重新计算余下feature的VIF.
因为数据量比较大,1的办法太耗时,所以在用2的办法。但是risk就是在VIF>100去掉
的feature里有本该留下的,结果一刀切都去掉了。
求助,多谢
部分数据来做,这样应该对VIF影响不会很大。
information value/cluster analysis first.
the logistic regression to get a set of dependent variables with low VIFs.