请教机器高手一个问题:建模前如何normaliztion

g
gooog
楼主 (北美华人网)
请问一个模型的30个变量的scale非常不一致。有的是年龄(几十岁),有的是工资(几百万),有的是基因表达量(几个亿) 请问大家一般喜欢用什么normalization方法呢?
在训练集中,你很好去normalization,那么在测试集中。 大家是用一套统一的方法去normalize training and testing sets吗?
模型建好了后,临床应用中, 比如一个年龄是90岁,工资3万,基因A表达量是1.1亿,他的这些变量如何输入到模型中去呢?
大家如何处理这个问题的呢?
欢迎分享一些资料和网页
f
facet
请问一个模型的30个变量的scale非常不一致。有的是年龄(几十岁),有的是工资(几百万),有的是基因表达量(几个亿) 请问大家一般喜欢用什么normalization方法呢?
在训练集中,你很好去normalization,那么在测试集中。 大家是用一套统一的方法去normalize training and testing sets吗?
模型建好了后,临床应用中, 比如一个年龄是90岁,工资3万,基因A表达量是1.1亿,他的这些变量如何输入到模型中去呢?
大家如何处理这个问题的呢?
欢迎分享一些资料和网页
gooog 发表于 2024-01-21 00:50

随便那本机器学习的书一开篇就会讲这个吧,你需要突击过一遍101再开始建模,一边学一边建模要绕很多路 基本思想是让数值列分布的 domain 尽量重合,相互之间没有数量级的差别,这样机器学习中涉及的数值计算才会比较稳定
l
ljmdtc
test set你应该假装什么都不知道。它的任何一点信息都不应该融入到模型中
u
uswhy
google normalization and standardization
g
gooog
随便那本机器学习的书一开篇就会讲这个吧,你需要突击过一遍101再开始建模,一边学一边建模要绕很多路 基本思想是让数值列分布的 domain 尽量重合,相互之间没有数量级的差别,这样机器学习中涉及的数值计算才会比较稳定

facet 发表于 2024-01-21 01:45

看看楼下的怎么描述的。这个问题,肯定不是哪个菜鸟机器学习的书能描述的。 这是google,微软这样大厂的AI大牛都不一定能回答的问题。
f
facet
看看楼下的怎么描述的。这个问题,肯定不是哪个菜鸟机器学习的书能描述的。 这是google,微软这样大厂的AI大牛都不一定能回答的问题。
gooog 发表于 2024-01-21 18:50

楼主问题很特别吗?没觉得,唯一模糊的是那个基因列,它的取值据描述,就是个count 数,那就完全不特别了,非常routine 的问题,如果取值本身是个高纬向量(十几亿长度的基因表达字串本身),那需要做特征抽取或压缩,再说其他的