机器学习的30%数据分割需要做到遍历所有数据吗？ - 2023年9月13日北美华人网存档

接近 2 年

楼主 (北美华人网)

下面以100个球来说明。 100个球（编号从1到100），每次取30个作为测试集合，取出后不放回，
例如：第一次取出编号1到30的球，第一次取出编号31到60的球，第三次取出编号61到90的球。但是仍然还有91到100这10个球没有遍历完。
1）请问机器学习的70/30分割，需要遍历所有这100个球吗？这个问题等同于：遍历所有这100个球的70/30分割是不是比不遍历的70/30分割要好？
2）如果需要遍历所有这100个球，最后取出的10个，该如何处理为好？
3）如果第一次取出33个球，第二次取出34个球，第三次取出33个球。这个还叫70/30分割吗？

Jay2020PA

接近 2 年

为什么不80/20分割 cross validation 遍及所有那？3）貌似有的算法这样用

worldconcepts

接近 2 年

如果需要严格cover all data points, 就不叫机器学习了。Any useful model needs to be generalizable to unseen data points.

y222zhang

接近 2 年

只会3）。当遍历的时候，分3组，不能整除的时候有些组确实要比其他组多一个。

y222zhang

接近 2 年

不确定是否叫70/30，但是就是k-folder cross validation。

happymc

接近 2 年

30％的测试集当然不能放到训练集里啊，不然不就是作弊了吗，就像你考试先把答案记住了一样。你可以分三份，每份33个，另一个34个也没关系。或者2／8分也行啊。做3 fold 或者5 fold cross validation。我们之前发paper是这么做的。

lnghng

接近 2 年

学东西的方式太教条了

microsat

接近 2 年

如果需要严格cover all data points, 就不叫机器学习了。Any useful model needs to be generalizable to unseen data points.
worldconcepts 发表于 2023-09-11 11:40

请问如何确定哪些点不cover呢？
如果是通过精准的算法来确定哪些不cover的点，请问这个方法可行吗？

destiny2008

接近 2 年

数据分割通常不要求遍历所有数据。70/30分割只是一个常见的经验法则，目的是为了保证训练集和测试集都有足够的数据。是否要遍历所有的数据取决于你的实际需求。但在某些情况下，如K折交叉验证，数据会被多次切分，每个数据点都会被用作测试数据

microsat

接近 2 年

不确定是否叫70/30，但是就是k-folder cross validation。
y222zhang 发表于 2023-09-13 07:11

请问70/30和3fold cv如何能区别开呢？
用户特别提到不要3fold cv，要70/30

microsat

接近 2 年

30％的测试集当然不能放到训练集里啊，不然不就是作弊了吗，就像你考试先把答案记住了一样。你可以分三份，每份33个，另一个34个也没关系。或者2／8分也行啊。做3 fold 或者5 fold cross validation。我们之前发paper是这么做的。
happymc 发表于 2023-09-13 09:16

自己用可以随便。如果客户要求区分开70/30和3-fold，该如何编程？

microsat

接近 2 年

学东西的方式太教条了
lnghng 发表于 2023-09-13 09:25

不教条。这是一个世界前沿的课题。
简单的讲，假设一个训练集A，一个测试集B 用A建议一个模型，来预测B
将A中的70%用于建模，30%来validation，请问，A中的所有样本，都需要被validated一遍吗？

midusa

接近 2 年

中国有14亿人。计算平均身高可以只随机取样本吗？

microsat

接近 2 年

中国有14亿人。计算平均身高可以只随机取样本吗？
midusa 发表于 2023-09-13 09:51

有意义的问题。
你这个问题，和我问的略有不同。属于另外一个领域。
假设求中国14亿人的中的中年男子（40到50岁）平均身高。一种方法是测量所有这些人的身高，然后求平均值，但是这种方法做不到。
所以，请问，有没有一种采样方法，能最大可能的最小次数的，测量到这个值。
这是一个非常有意义的统计学经典问题。当然，与我的原问题，略有不同。因为，这个问题，要求去掉一些点，得到最小的能代表全局的点。
而我的问题，是，机器学习中的训练集合中，去掉一些点不去测试，后，是否可行？也就是70/30分割是否全覆盖？

texaslife

接近 2 年

7:2:1

nickbear

接近 2 年

不教条。这是一个世界前沿的课题。
简单的讲，假设一个训练集A，一个测试集B 用A建议一个模型，来预测B
将A中的70%用于建模，30%来validation，请问，A中的所有样本，都需要被validated一遍吗？

microsat 发表于 2023-09-13 09:50

这是Stat/ML 101里都cover的问题，随便一本教材都有，你想不明白是因为你概念不清楚，把不同的东西混为一谈了你是只做train/validation set split，还是要做cross validation？如果做cross validation，选哪种resample方法？想清楚了你要干什么，答案很明显

ljmdtc

接近 2 年

分割不就是一次的事情吗？为什么会出现第一次第二次第三次？