请教机器学习的模型性能

m
microsat
楼主 (北美华人网)
请问大家如何报告一个机器学习的模型的性能?
1) 用n-fold cross-validation,把样本集合分成了training 和testing。报告在testing sets中的平均性能。
2)把原始样本集,不分割,直接报告在这个集合的性能。
如果你用第一种方法,那么第一种方法怎么弄一个模型出来,去预测未来的数据? 第一种方法将产生n个模型。怎么能选出一个模型出来?
l
lavinder1
请问大家如何报告一个机器学习的模型的性能?
1) 用n-fold cross-validation,把样本集合分成了training 和testing。报告在testing sets中的平均性能。
2)把原始样本集,不分割,直接报告在这个集合的性能。
如果你用第一种方法,那么第一种方法怎么弄一个模型出来,去预测未来的数据? 第一种方法将产生n个模型。怎么能选出一个模型出来?
microsat 发表于 2022-12-05 13:37

第一个方法只是展示你的训练模型的办法是不是robust 训练出来的多个模型有多么robust 并不是让你用方法一中的模型去做预测 因为方法一的模型都是不完整的
预测的话要用方法二中完整的模型去预测
g
gokgs
都是牛人,orz
t
ted.hanks
第一个方法只是展示你的训练模型的办法是不是robust 训练出来的多个模型有多么robust 并不是让你用方法一中的模型去做预测 因为方法一的模型都是不完整的
预测的话要用方法二中完整的模型去预测
lavinder1 发表于 2022-12-05 14:43

方法1 的模型为什么要完整呢? 不用cross validation,不是容易overfit吗? 这个性能是所谓的recall 吗?
f
funstyIe
你是申请不上学校呢,还是为了省学费呢?
g
gokgs
我在看一个为什么发生红移现象的视频,看了三遍了也不懂,哈哈。
m
microsat
第一个方法只是展示你的训练模型的办法是不是robust 训练出来的多个模型有多么robust 并不是让你用方法一中的模型去做预测 因为方法一的模型都是不完整的
预测的话要用方法二中完整的模型去预测
lavinder1 发表于 2022-12-05 14:43

请问如果预测的话要用方法二中完整的模型去预测 那么,怎么报告,这个模型的性能呢?
m
microsat
你是申请不上学校呢,还是为了省学费呢?
funstyIe 发表于 2022-12-05 15:05

学校根本不教这个问题。所以特来请教高手。
f
funstyIe
学校根本不教这个问题。所以特来请教高手。
microsat 发表于 2022-12-05 16:05

是党校吗?
S
SSBN826
如果你的样品是随机的,并且足够大的,为什么你会觉得n folder会有n个models?应该还是同一个model,但对不同的test data的性能可能有一些variation。
h
hoohoo001
学校根本不教这个问题。所以特来请教高手。
microsat 发表于 2022-12-05 16:05

如何比较模型的performance是一个很基本的知识点,学校正规课程都会教的。
k
kats
回复 1楼microsat的帖子
看看hyperparameters 和parameters区别会明白 k-fold cv 的逻辑
h
houmitbbs
请问如果预测的话要用方法二中完整的模型去预测 那么,怎么报告,这个模型的性能呢?
microsat 发表于 2022-12-05 16:04

理论上,可以预留一些labeled data, 方法一和方法二 train的过程完全不接触,用这个dataset上的准确读描述方法二的性能
m
microsat
如何比较模型的performance是一个很基本的知识点,学校正规课程都会教的。
hoohoo001 发表于 2022-12-05 20:43

有些东西是世界难题。学校里的老师不一定搞得定。 比如:比较模型的performance。在什么样的环境里比较模型的什么performance?