missing data填补的评价标准

m
microsat
楼主 (北美华人网)
一个表格有许多列,有missing values。
如果用一种算法填补上这些missing values, 如何衡量哪种算法是最好的呢?
采用什么指标来衡量? 我能想到的是RMSE, 还有其他的指标吗?
s
songxm99
missing的行数少的话,drop这些行。 实在需要补上的话,可以用mean, mode,median之类的数值去补足。 Missing的这些行,因为没有ground truth,无法判断补足的误差。可以random选一些没有missing的行,假设它们有missing,补足后算误差。 取决于这一列的分布,RMSE用来衡量高斯分布的连续变量,其它分布用对应的loss function。
b
briel
不多的话直接throw away the data point entirely;多的话可以 用mean/median,缺点是有可能bias,不嫌麻烦的用regression predict
l
luyang199608
可以把你的算法apply到没有missing的row,这样你就有了ground truth来evaluate
另外imputation可以试试MissForest
m
microsat
可以把你的算法apply到没有missing的row,这样你就有了ground truth来evaluate
另外imputation可以试试MissForest
luyang199608 发表于 2022-01-21 14:02

谢谢! missForest用nrmse来评价填补的性能。 除了这个rmse,nrmse,还有哪些性能指标,最好必须用来衡量填补的性能呢?
multiple imputation
m
microsat
multiple imputation
媲 发表于 2022-01-21 15:01

如何评估MI就是最好的呢?