假设,某个科研单位或者科研论文,说,他们根据1000个病人得数据库,研发的癌症诊断系统具有 75%的精度。 在没有额外病人数据库的前提下,请问如何验证这一论断? 注意:验证者,没有能力获得任何额外的病人数据库,只能利用的是这个科研单位的已经用过的1000个病人的数据库。 同样的问题, 当世界著名的alphafold,宣称他们的蛋白质结构预测为95%, 那么作为一个独立验证者(你没有能力做任何蛋白质结构的实验去产生新数据),你如何验证他们的95%,是真实的? microsat 发表于 2023-05-28 19:49
这不是建模的基本知识吗? 数据划分成training data, validation data qqyxgz 发表于 2023-05-28 20:21
外行, 但是觉得你已经把这1000 个数据反复用来训练模型了, 还用 已经用于训练模型的数据来验证精度是不合适的, 应该把模型应用到它从来没有“见过”的数据 qqyxgz 发表于 2023-05-28 21:12
以前大陆的一堆医疗ai公司用开源训练集训练完,在用训练集测试,说自己检出率95%,准确率95%。 临床检出50%。。。。。 noghsot_1948 发表于 2023-05-28 21:31
请问,那假如你来研发一套医疗ai系统。假设你用的病人数据集是你专有的。 请问,你用什么方法,来申明这套医疗ai系统的精度(也包括其他几个指标,比如AUC)。 另外,最终形成产品的预测模型是基于哪组数据做成的呢? 这个产品的预测模型的性能,在出厂前,是如何内测,然后再在说明书里写出来的(比如标明精度75%)? microsat 发表于 2023-05-28 21:48
注意:验证者,没有能力获得任何额外的病人数据库,只能利用的是这个科研单位的已经用过的1000个病人的数据库。
同样的问题,
当世界著名的alphafold,宣称他们的蛋白质结构预测为95%, 那么作为一个独立验证者(你没有能力做任何蛋白质结构的实验去产生新数据),你如何验证他们的95%,是真实的?
医疗检测 都有两个指标: 一个是检出率,也就是有问题,能查出来的概率。 一个是错误率,也就是检出有问题的,实际是错的。
所以按你说的,那家基本是外行。
是的。谢谢!
假设用5fold cross-validation来验证这个。 fold1,建立了model1,产生精度1=0.95 fold2,建立了model2,产生精度2=0.85 fold3,建立了model3,产生精度3=0.75 fold4,建立了model4,产生精度4=0.65 fold5,建立了model5,产生精度5=0.55
这5个模型的平均精度就是0.75.
是不是这样就认为原癌症检测系统被验证了是75%准确性?
那么,请问,最终实施这套系统的(model deployment),是如何进行的呢?是用model1吗? 是用模型3吗? 还是怎么生成一个final model?
最终被推向产品的这个模型(final model)是怎么建成的呢? 这个最终产品(癌症检测系统)的精度是75%吗?这个如何验证?
我用这1000个病人建立了个final model,怎么精度总是100%的准确呢?这个比75%高许多。 这个就是我的困惑。我验证的结果,比原作者的精度(75%)还要高许多。
這種結果有相當可能是不能完全信賴的 為什麼? 因為一般的做法是先分training and testing sample 也就是說test sample是完全不能用來training的
但如果他發展了一個系統 他用test sample做驗證,發現不夠好,那他修正了系統 然後再用training sample訓練模型 最後得到一個模型或系統 但他report的時候,並不會把他整個過程告訴你 實際上這個系統已經某種程度adapt了他的1000個sample了 這是論文裡經常遇到的問題 但如果是一個真正完全可信賴的系統的話,它的結果應該要有一個完全獨立的測試集來測試 而且測試集的數量不能太少,而且最好要有整個population的代表性。 像總共只有1000個sample,還要分training and testing sample 其實測試集的variation是很大的,但數量不大是病人資料庫很常見的。
请问,最后形成的产品的那个模型,是基于什么数据? (全部1000个病人的数据集,还是部分病人的数据集?)
以前大陆的一堆医疗ai公司用开源训练集训练完,在用训练集测试,说自己检出率95%,准确率95%。
临床检出50%。。。。。
请问,那假如你来研发一套医疗ai系统。假设你用的病人数据集是你专有的。 请问,你用什么方法,来申明这套医疗ai系统的精度(也包括其他几个指标,比如AUC)。
另外,最终形成产品的预测模型是基于哪组数据做成的呢? 这个产品的预测模型的性能,在出厂前,是如何内测,然后再在说明书里写出来的(比如标明精度75%)?
如果你在AI 医疗行业或者医疗行业做过,你就不会提出这个问题。医疗AI公司之前有很多跟医院合作,从训练集搜集,训练集标注开始,到临床试验。
医疗行业有明确的衡量标准和测试流程,要做临床实验,衡量标准有各自的标准,比如常见的医学图像识别是一大类,但换成心电监测就是另一套标准了,如果换成宫颈检测还会不同。这些标准是医疗标准,医疗类的表述与衡量方式。
从合规角度,厂家自己写的东西只能骗骗VC,目测VC那个时候挺好骗的。