欢迎大家进来讨论人工智能的交叉验证 - 2024年6月5日北美华人网存档

北美华人网

4 个月

楼主 (北美华人网)

人工智能领域有个概念和方法：交叉验证。
如果你不用这个方法，投出去的稿子基本就会被拒。可见这个方法的重要性。
但是，我今天突然发现了，一种趋势，那就是扩大训练集（training set）。当训练集被无限扩大后，比如猫的图像识别，你以前用10张猫的图片作为训练集。那么现在用10亿张猫的图片作为训练集。
结果变成。
无论你的测试集如何选择，它都是训练集的一部分。
比如：你输入一张猫的图片，很可能，这张猫的图片其实已经就在这10亿张里面了。
换句话说：现在的人工智能并不是走的交叉验证，这个路线。而是用非交叉验证，但是无限扩大训练集的方法。
当今最流行的GPT，就是这种构建。
大家觉得，我说得对吗？另外，最关键的是，大家觉得这条路走下去的前景和风险都是什么？
有什么机器学习的微信群，请求拉入。