如果需要严格cover all data points, 就不叫机器学习了。Any useful model needs to be generalizable to unseen data points. worldconcepts 发表于 2023-09-11 11:40
不确定是否叫70/30,但是就是k-folder cross validation。 y222zhang 发表于 2023-09-13 07:11
30%的测试集当然不能放到训练集里啊,不然不就是作弊了吗,就像你考试先把答案记住了一样。你可以分三份,每份33个,另一个34个也没关系。或者2/8分也行啊。做3 fold 或者5 fold cross validation。我们之前发paper是这么做的。 happymc 发表于 2023-09-13 09:16
学东西的方式太教条了 lnghng 发表于 2023-09-13 09:25
中国有14亿人。计算平均身高可以只随机取样本吗? midusa 发表于 2023-09-13 09:51
不教条。这是一个世界前沿的课题。 简单的讲, 假设一个训练集A,一个测试集B 用A建议一个模型,来预测B 将A中的70%用于建模,30%来validation, 请问,A中的所有样本,都需要被validated一遍吗? microsat 发表于 2023-09-13 09:50
例如:第一次取出编号1到30的球,第一次取出编号31到60的球,第三次取出编号61到90的球。但是仍然还有91到100这10个球没有遍历完。
1)请问机器学习的70/30分割,需要遍历所有这100个球吗?这个问题等同于:遍历所有这100个球的70/30分割是不是比不遍历的70/30分割要好?
2)如果需要遍历所有这100个球,最后取出的10个,该如何处理为好?
3)如果第一次取出33个球,第二次取出34个球,第三次取出33个球。这个还叫70/30分割吗?
请问如何确定哪些点不cover呢?
如果是通过精准的算法来确定哪些不cover的点,请问这个方法可行吗?
请问70/30和3fold cv如何能区别开呢?
用户特别提到不要3fold cv,要70/30
自己用可以随便。 如果客户要求区分开70/30和3-fold,该如何编程?
不教条。这是一个世界前沿的课题。
简单的讲, 假设一个训练集A,一个测试集B 用A建议一个模型,来预测B
将A中的70%用于建模,30%来validation, 请问,A中的所有样本,都需要被validated一遍吗?
有意义的问题。
你这个问题,和我问的略有不同。属于另外一个领域。
假设求中国14亿人的中的中年男子(40到50岁)平均身高。 一种方法是测量所有这些人的身高,然后求平均值,但是这种方法做不到。
所以,请问,有没有一种采样方法,能最大可能的最小次数的,测量到这个值。
这是一个非常有意义的统计学经典问题。当然,与我的原问题,略有不同。因为,这个问题,要求去掉一些点,得到最小的能代表全局的点。
而我的问题,是,机器学习中的训练集合中,去掉一些点不去测试,后, 是否可行? 也就是70/30分割是否全覆盖?
这是Stat/ML 101里都cover的问题,随便一本教材都有,你想不明白是因为你概念不清楚,把不同的东西混为一谈了 你是只做train/validation set split,还是要做cross validation? 如果做cross validation,选哪种resample方法? 想清楚了你要干什么,答案很明显