你为啥不去问Chatgpt?笨。 玉骨遥 发表于 2023-02-05 13:13
现在已经知道一亿个蛋白质的三维结构了?你给我列出来 玉骨遥 发表于 2023-02-05 13:16
这个一亿有待商榷。 你把这个一亿改成你认为正确的数字吧。 这个数字是多少,不影响问题的答案。 gooog 发表于 2023-02-05 13:25
应该呼唤wdong啊。 100% fit, 那就是连噪声也当成信号了, overfit 啊。 评价模型不是看recall, F1 吗?当然和你domain相关对false positive 和 false negative 的容忍度有关系。 ted.hanks 发表于 2023-02-05 14:14
随便一本书都会谈到model performance improvement。 至于你朋友说的100%准确率,那肯定是忽悠你。在真实世界中,你是不可能model所有的扰动因素的。 SSBN826 发表于 2023-02-05 13:55
数据:100Million个蛋白质的已知的一级序列和三级结构。 模型:一个机器学习的算法 如何评价这个机器学习算法的accuracy,sensitivity,specificity, prediction
一种方法是随机将100Million的原始数据,分割成70%训练集,30% 测试集。此方法缺点:不同的分割,得到不同的测试集性能。
另外一个问题是:如果你有一个需要预测结构的未知结构的蛋白质分子,请问你的先前训练好的模型是基于那部分已知数据的? 是全部100Million的数据集吗?还是其中的70%?(这70%是随机的吗?)
当然,如果这个需要预测结构的未知结构的蛋白质分子,被你的机器学习模型预测出来了,那么人们比较关心的是,你的这个预测性能是多少(包括accuracy,sensitivity,specificity, prediction)?请问如何回答客户这个问题。
最后一个高难度问题留给本版大牛。
我的这个高手朋友告诉我,他能实现绝对100%的准确性。我问他如何实现。他笑而不答。问题来了,请问他的方法是什么?
chatgpt的答案也是华人网大妈输进去的。所以问chatgpt还不如直接问华人网大妈。
这个一亿有待商榷。 你把这个一亿改成你认为正确的数字吧。
这个数字是多少,不影响问题的答案。
正因为没有足够的蛋白结构数据,所以AI在这个领域目前能力有限。 那些之前Diss颜老师的,真是太无知了。
至于你朋友说的100%准确率,那肯定是忽悠你。在真实世界中,你是不可能model所有的扰动因素的。
100% fit, 那就是连噪声也当成信号了, overfit 啊。 评价模型不是看recall, F1 吗?当然和你domain相关对false positive 和 false negative 的容忍度有关系。
我想问:
模型建立时,是用的数据集的哪部分数据?
评价模型时,是用的数据集的哪部分数据?
你贴的这个图的每一行,都需要回答我提出的问题。 比如bagging是建立在哪个数据集合上?在哪个数据集合上去bagging?在哪个数据集合上去评价bagging?
类似的boosting, ensemble,也有同样的问题。