"我提出了一种新方法B,这个方法B改进了方法A当中的问题集(问不同的问题),做题的题目集(做不同的题),测心电图。" As far as I know, psychiatry researchers usually use validated measures in their paper. If it is a new method, you need to validate it and prove it works.
"我提出了一种新方法B,这个方法B改进了方法A当中的问题集(问不同的问题),做题的题目集(做不同的题),测心电图。" As far as I know, psychiatry researchers usually use validated measures in their paper. If it is a new method, you need to validate it and prove it works. mof2 发表于 2024-01-25 11:38
传统精神病诊断是用一种方法A,这种方法有问问题,做题,测心电图等。
我提出了一种新方法B,这个方法B改进了方法A当中的问题集(问不同的问题),做题的题目集(做不同的题),测心电图。
最后,得出了新方法B比传统方法A,机器学习建模后的预测性能更好(accuacy, AUC, Senstivity, specificity,都要高)
请问这整个流程有什么错误呢?
现在,一个reviewer把这篇文章给枪毙了。因为第一次修改前,他问,最后性能计算的时候的gold standard是如何确定的。我回答是 医院诊所提供的。yes,代表有精神病。 no,代表无精神病。
第二次改稿后,reviewer又问,医院诊所怎么确定的这个gold standard。我回答,医院诊所就是用传统方法A确定的。
然后稿子就被无情的枪毙了。
在机器学习模型中,我犯了什么错误呢?这个错误该如何改正?
补充一点:我提出的方法B是直接用在同一批用A诊断的病人上的(有时间差,间隔大约是1周,所以请忽略这个时间差的影响) 也就是病人,医生先用传统方法A检测,然后一周内送到我这里,我用方法B再测试一遍。
这个地方,需要和大家切磋。
B的精度高于A。这个A的精度(准确性),我是用的业内多年的评估,比如精神病协会上有个年度报告,就有提到这个大家都是用的传统方法A,其准确性大约65%。
而我的B高于65%。
注意:这个传统方法A,仍然在各大医院里被临床应用。
A的准确性是怎么估计出来的?
精神病协会的报告 A这个方法的准确性。
比如用HCG测量怀孕,这个是有准确性的。网上一搜,就能知道这个准确性。
你想问的问题是什么?我没明白。
OK,精神病协会的报告里提供了A的准确率比如65%。同时,你从这个报告里或者其他你拿到的数据里,知道了每位病人的yes/no诊断?然后你改用方法B,再把B得出的结果和yes/no诊断对比,得到高于65%的准确率。是这个意思吗?
比如自闭症的诊断。 传统的精神病专家用了10个测试题,来判断。
你设计出了另外10个测试题。你认为你的方法更准,更好能判断是否孩子是自闭症。
那么,你怎么能把这篇论文让reviewer接收呢?
"我提出了一种新方法B,这个方法B改进了方法A当中的问题集(问不同的问题),做题的题目集(做不同的题),测心电图。"
As far as I know, psychiatry researchers usually use validated measures in their paper. If it is a new method, you need to validate it and prove it works.
对。
就是这样做的。
如果是你,你准备怎么做? 你不会等到5年后或者10年后,再回访,确定哪个病人是真的得了精神病,还是没得精神病, 然后,在判断B的准确率,再和A的65%进行比较 最后发表这个论文吧?
虽然这是最科学的。但是,你需要沉没5到10年。也就意味着,你这5年和10年间,你的成果不被接受。 你也没有科研基金继续这个工作。
这个大家都知道。一个方法在临床用之前,都需要validation。
现在的问题是,如果发表这个方法在论文上,该如何去validate它?
拿自闭症来说,假如你提出了一种新方法诊断自闭症,你怎么去validate它呢?
假如你的方法,诊断一个病人为自闭症,专家用他们的方法A,也诊断为自闭症; 假如你的方法,诊断一个病人不为自闭症,专家用他们的方法A,也诊断不为自闭症, 那么你的方法就validated。是这样吗?
你考虑过这种情况吗? 专家的方法A并不是100%准确,假设某个病人,他们诊断为自闭症是错误的,但是你的方法B 却诊断为不是自闭症,那是不是证明你提出的方法B更牛?
回到原问题,怎么去validate,是最关键的。
这些问题,是我设计的。没有validation。也没有reliability。
请问如何才能测试这个validation和这个reliability呢?
假设你联系了医院门诊,你用你的方法去诊断了100个病人,然后就可以了呢?
我就是这样去做的。
假如你是一个刚入道的初级精神病医师。在多年行医中,你发现传统的诊断精神病的方法A并不科学。
你提出了一个方法B。你自认为方法B比方法A先进和准确。
请问,你如何让你的同行们快速的相信你的成果?
而不是等到你老了或者死了。
我不知道你具体怎么和reviewers沟通的,但如果你觉得我描述的是你的情况,那gold standard就不是由方法A确定的啊,而是基于其他方面比如医生的观察随访(我瞎编的)来确定的。然后在已有gold standard(此处不讨论是不是真gold)的前提下,方法A和B的准确率都能分别估计出来。这样从我看来就逻辑通顺了。
你给第二位reviewer说gold standard是由A方法确定,就产生歧义或者造成困惑了,因为如果这样的话,你顶多是能得到B和A的结果一致性有多大,而不能说哪个更准确。
那你就要有一套逻辑体系来支撑你的推断了。现实世界中没有任何一种方法是100%准确的。
方法A诊断某个人是精神病,方法B诊断不是精神病,这就有很多种可能性。有可能方法A的确犯错了而B没错。也可能方法A没错(因为人家也有65%的正确率啊)但是B错了。反之亦然。
即使方法A和B得到的判断是相同的,比如都判断这人是精神病,或者都判断这人不是精神病,有可能两种方法在这个案例上是判断正确了,也有可能都犯错了呀。
这就是如果你单纯比较A和B的结果造成的情况,也即我最早就说了,你的结论只能说A和B给出的结果consistent or not,但你还需要其他evidence帮你说服别人B更好。这也是为什么第一位reviewer问你用了什么gold standard,这样你就有了比较的基础。
其实,我今天要问的问题就是,如果不存在gold standard的情况下,如何判断哪种方案更好。
比如:新冠疫苗A和疫苗B。 怎么去评价哪个疫苗更好呢? 这个没有gold standard。如果有,那也要等至少10年以后回放数据去统计。
那么假设,你研发出了一款新的新冠疫苗,你凭什么说就比现存的方案好?或者至少不更差。 凭什么向投资人伸手要钱?
这就是我要问的问题。
这个问题,我们天天遇到。
结婚前,要找最好的对象,但是结婚后,发现并不是最好的,也许是最差的。 那么怎么在谈男女朋友的时候,就能判断出你的选择是将来最好的。 怎么预测这个?首先一点:什么是gold standard定义最好的对象? 有吗?没有。
今天的人工智能发展这么猛,能不能回答这个预测问题? 如果不能,请问为什么不能?
试管婴儿移植。怎么判断移植成功了呢?
有人说,要等到婴儿胜利出生。这个被否决了。 有人说,要等到B超看到婴儿图像,这个也不一定。 有人说,要等到移植后第9天的HCG数字高低,这个也不准。
总之,无法判断试管婴儿移植的成功。