机器学习的30%数据分割需要做到遍历所有数据吗?

m
microsat
楼主 (北美华人网)
下面以100个球来说明。 100个球(编号从1到100),每次取30个作为测试集合,取出后不放回,
例如:第一次取出编号1到30的球,第一次取出编号31到60的球,第三次取出编号61到90的球。但是仍然还有91到100这10个球没有遍历完。
1)请问机器学习的70/30分割,需要遍历所有这100个球吗?这个问题等同于:遍历所有这100个球的70/30分割是不是比不遍历的70/30分割要好?
2)如果需要遍历所有这100个球,最后取出的10个,该如何处理为好?
3)如果第一次取出33个球,第二次取出34个球,第三次取出33个球。这个还叫70/30分割吗?
J
Jay2020PA
为什么不80/20分割 cross validation 遍及所有那?3)貌似有的算法这样用
w
worldconcepts
如果需要严格cover all data points, 就不叫机器学习了。Any useful model needs to be generalizable to unseen data points.
y
y222zhang
只会3)。当遍历的时候,分3组,不能整除的时候有些组确实要比其他组多一个。
y
y222zhang
不确定是否叫70/30,但是就是k-folder cross validation。
h
happymc
30%的测试集当然不能放到训练集里啊,不然不就是作弊了吗,就像你考试先把答案记住了一样。你可以分三份,每份33个,另一个34个也没关系。或者2/8分也行啊。做3 fold 或者5 fold cross validation。我们之前发paper是这么做的。
l
lnghng
学东西的方式太教条了
m
microsat
如果需要严格cover all data points, 就不叫机器学习了。Any useful model needs to be generalizable to unseen data points.
worldconcepts 发表于 2023-09-11 11:40

请问如何确定哪些点不cover呢?
如果是通过精准的算法来确定哪些不cover的点,请问这个方法可行吗?
d
destiny2008
数据分割通常不要求遍历所有数据。70/30分割只是一个常见的经验法则,目的是为了保证训练集和测试集都有足够的数据。是否要遍历所有的数据取决于你的实际需求。但在某些情况下,如K折交叉验证,数据会被多次切分,每个数据点都会被用作测试数据
m
microsat
不确定是否叫70/30,但是就是k-folder cross validation。
y222zhang 发表于 2023-09-13 07:11

请问70/30和3fold cv如何能区别开呢?
用户特别提到不要3fold cv,要70/30
m
microsat
30%的测试集当然不能放到训练集里啊,不然不就是作弊了吗,就像你考试先把答案记住了一样。你可以分三份,每份33个,另一个34个也没关系。或者2/8分也行啊。做3 fold 或者5 fold cross validation。我们之前发paper是这么做的。
happymc 发表于 2023-09-13 09:16

自己用可以随便。 如果客户要求区分开70/30和3-fold,该如何编程?
m
microsat
学东西的方式太教条了
lnghng 发表于 2023-09-13 09:25

不教条。这是一个世界前沿的课题。
简单的讲, 假设一个训练集A,一个测试集B 用A建议一个模型,来预测B
将A中的70%用于建模,30%来validation, 请问,A中的所有样本,都需要被validated一遍吗?

m
midusa
中国有14亿人。计算平均身高可以只随机取样本吗?
m
microsat
中国有14亿人。计算平均身高可以只随机取样本吗?
midusa 发表于 2023-09-13 09:51

有意义的问题。
你这个问题,和我问的略有不同。属于另外一个领域。
假设求中国14亿人的中的中年男子(40到50岁)平均身高。 一种方法是测量所有这些人的身高,然后求平均值,但是这种方法做不到。
所以,请问,有没有一种采样方法,能最大可能的最小次数的,测量到这个值。
这是一个非常有意义的统计学经典问题。当然,与我的原问题,略有不同。因为,这个问题,要求去掉一些点,得到最小的能代表全局的点。
而我的问题,是,机器学习中的训练集合中,去掉一些点不去测试,后, 是否可行? 也就是70/30分割是否全覆盖?
t
texaslife
7:2:1
n
nickbear
不教条。这是一个世界前沿的课题。
简单的讲, 假设一个训练集A,一个测试集B 用A建议一个模型,来预测B
将A中的70%用于建模,30%来validation, 请问,A中的所有样本,都需要被validated一遍吗?


microsat 发表于 2023-09-13 09:50

这是Stat/ML 101里都cover的问题,随便一本教材都有,你想不明白是因为你概念不清楚,把不同的东西混为一谈了 你是只做train/validation set split,还是要做cross validation? 如果做cross validation,选哪种resample方法? 想清楚了你要干什么,答案很明显

l
ljmdtc
分割不就是一次的事情吗?为什么会出现第一次第二次第三次?