谷歌医疗大模型登Nature:准确率与人类医生相差无几

今日头条
Toutiao
最新回复:2023年7月14日 13点45分 PT
  返回列表
78393 阅读
24 评论
量子位

克雷西 发自 凹非寺

量子位 | 公众号 QbitAI

能为患者答疑解惑的谷歌医疗大模型(Med-PaLM),它的详细测评数据终于披露了!

现在,这篇论文已经登上了Nature,来看看里面的具体细节吧。

团队首先研制了Flan-PaLM,并在此基础之上,通过提示策略等方式调整得到了成品Med-PaLM。

前者挑战了美国医学执照考试(USMLE),取得了67.6%的成绩,比此前最好的模型提高了17%。

Med-PaLM相比于Flan-PaLM,在实际问题上的表现有显著提升,而后者则显示出很大不足。

经过专业临床医生评判,Med-PaLM对实际问题的回答准确率与真人相差无几。

除了Med-PaLM模型,研究团队还推出了自建医疗模型测评数据集。

团队成员Jason Wei兴奋地在社交媒体表示,自己89岁的奶奶经常问他有没有发Science或Nature,现在终于可以回答是了。

多套测试数据共同认证

研究团队一共使用了七套测试数据集,从多个角度对Med-PaLM的表现进行了测评。

首先就是准确性。

Med-PaLM相比于其前体Flan-PaLM的主要改进不在于此,故这一步使用后者作为测试对象。

这部分一共使用了多个数据集,包括由USMLE题目构成的MedQA。

结果Flan-PaLM在其中两个数据集上的表现较此前的最佳产品均有显著提升。

而针对PubMedQA数据集,Flan-PaLM的成绩虽然只提高了0.8%,但真人在该数据集中取得的成绩也只有78%。

更为专业的数据集MMLU中包含来自多个临床知识、医学和生物学相关主题的多项选择题。

其中包括解剖学、临床知识、专业医学、人类遗传学、大学医学和大学生物学等方面。

结果Flan-PaLM的准确度超越了所有的已知模型。

前面的测评主要是针对模型的理论能力,接下来就要进入实战了。

这个过程中Med-PaLM本体和前体Flan-PaLM都是测试的对象。

研究团队从另外三个数据集中共选择了140个问题(HealthSearchQA中100个,另外两种各20个)。

其中的HealthSearchQA是谷歌自建的,包含了3000多个问题。

这些问题既包括学术问题,也包括患者在就医时可能会向医生提出的疑问。

模型的表现则由9名来自不同国家的医生组成的专家小组进行人工评判。

在科学共识方面,Med-PaLM的结果具有92.6%的一致性,远高于其前体,与真人医生相近。

但和真人相比,Med-PaLM输出的错误或不准确信息还是比较高的,在信息缺失方面差距则小一些。

不过错误的信息不一定会真的带来伤害,经过专家评估,Med-PaLM造成伤害的可能性与严重性和人类相比并不大。

甚至出现偏见的概率比人类还要低。

而从模型能力角度看,Med-PaLM在阅读理解、信息检索和逻辑推理能力上都表现出了接近真人的水平。

而作为一款面向不特定人群的语言模型,获得专业人士的认可是不够的,因此,研究团队还邀请了非专业人士对Med-PaLM进行评价。

评价的标准有两条——「是不是所答所问」和「有没有帮助」。

结果在答案匹配度上,Med-PaLM和真人差了1.5%。

而对于「有没有帮助」这个问题,80.3%认为Med-PaLM是「有用」的。

这个数字和真人差距不小,但如果分别加上认为「比较有用」的人,区别就没有那么明显了。

从以上测试结果可以看出,Med-PaLM和真人之间还存在一定的差距,但已经是目前最好的医疗大模型。

论文地址:https://www.nature.com/articles/s41586-023-06291-2

灯塔路
1 楼
割韭菜利器
斗山
2 楼
学诊断医学专业也要慌了 [1评]
h
hho0we9m
3 楼
AI诊断完全可行。但前提是AI的训练要同时基于各种医学检测结果包括如:CT片,X光片,心电图,血液化验,患者病患局部图片等。只靠问病人问题是不够的 [1评]
n
neophoenix
4 楼
中医如果不随大流不久就会被淘汰,阴阳五行啥的斗不过AI专业词汇绕口令
樱桃儿熟了
5 楼
医生的确是一个应该逐渐被淡化的行当。 有价值的事搞生物医学研究的科学家。 传统上的医生,特别是西医,就和卖油翁没区别。
桑拿
6 楼
谷歌AI通过“美国医师资格考”!已能解读医学扫描 https://www.******/news/2023/07/13/12414244.html
y
yuanfangzhi
7 楼
人这种生物非常复杂,每个人状态都不一样,不可能通过ai来统一诊断。如果这么简单?患者自己翻书就诊断了。
g
goupizaozao
8 楼
临床医学的主要依据就是经验数据,这方面AI有着得天独厚的优势。超越临床医生指日可待。从趋势上来说,AI的数据库和跨专业能力有着不可比拟的优势。未来人人都有机会得到最顶级的专家号问诊。
t
treebear
9 楼
等于GP以后完全没有用了,反正就是小病开点药,看不懂就推荐专科医院。 [1评]
g
goupizaozao
10 楼
GP以后会转型做健康生活指导和AI人机接口操作员。
j
jpeagle
11 楼
GP早就应该被取代了。新冠期间的看病,已经证明GP对大部分普通疾病,不能提供什么额外的价值。 只有需要触摸的诊断才需要GP。
L
Laoseguiman
12 楼
还是老中医老,两眼一闭号脉,说啥是啥,无可取代
按律当斩
13 楼
厉害,造福平民!
m
msi
14 楼
西医医生早就该被取代
回来了
15 楼
取代了医生,以后疑难杂症就等死,大数据没有啊。 [2评]
a
alad6park
16 楼
不用等以后,现在就有上万种病,都是无药可以治愈的,只能控制等死,比如: 各式癌症、慢性胃炎、糜烂性胃炎、乙肝、肠易激综合征、筋膜炎、眼部肿胀、面瘫、斑秃、心肌病、呼吸衰竭、血管炎、癫痫、血栓、心律失常、关节炎、哮喘、支气管痉挛、心力衰竭、胸部不适、红斑狼疮、脑脊髓炎、肾损伤、黄斑外层视网膜病变、再生障碍性贫血、慢性自身免疫性肾小球肾炎、慢性皮肤红斑狼疮、慢性自发性荨麻疹、溶血性贫血、结肠炎、皮炎、糖尿病、栓塞性脑梗塞、内分泌失调、新生儿重症肌无力、脊髓炎、非感染性卵巢炎、甲状腺炎、溃疡性直肠炎、眼部瘙痒症、生殖器疱疹、舌咽神经麻痹、出血性血管炎、宫颈炎、狼疮性膀胱炎、狼疮性脑炎、多发性硬化症等等。
a
alad6park
17 楼
当然基于这些大数据上搞出来的,自然也是上万种病,都是只能控制,不能治愈。按照你的话,就是等死。
a
alad6park
18 楼
你的梦做得真好。可惜现实不是那么美好。因为现在的经验数据,上万种病都是只能控制不能治愈。基于这样的大数据,自然是只能控制不能治愈。 当然你认为只能控制不能治愈,也算专家,而且是顶级的砖家,我为你高兴。
a
alad6park
19 楼
不妨给你看一些慢性病: 各式癌症、慢性胃炎、糜烂性胃炎、乙肝、肠易激综合征、筋膜炎、眼部肿胀、面瘫、斑秃、心肌病、呼吸衰竭、血管炎、癫痫、血栓、心律失常、关节炎、哮喘、支气管痉挛、心力衰竭、胸部不适、红斑狼疮、脑脊髓炎、肾损伤、黄斑外层视网膜病变、再生障碍性贫血、慢性自身免疫性肾小球肾炎、慢性皮肤红斑狼疮、慢性自发性荨麻疹、溶血性贫血、结肠炎、皮炎、糖尿病、栓塞性脑梗塞、内分泌失调、新生儿重症肌无力、脊髓炎、非感染性卵巢炎、甲状腺炎、溃疡性直肠炎、眼部瘙痒症、生殖器疱疹、舌咽神经麻痹、出血性血管炎、宫颈炎、狼疮性膀胱炎、狼疮性脑炎、多发性硬化症等等。
a
alad6park
20 楼
没办法的。不懂医学的外行患者,最喜欢吹这个,被洗脑就完蛋了。
a
alad6park
21 楼
医学外行最喜欢异想天开胡说八道,天真的治病很简单,那么请看看下面的疾病,你有会治疗的吗?这些可都是现代医学说的只能控制不能治愈的,当然你也是不能的,所以你外行只配做韭菜而已。以为现代医学+AI就多厉害呢,做梦,做美梦去吧。这么多都不能治愈,那么那些基于这些疾病的数据,是不是也是只能控制不能治愈?!人生病,却不能治愈!这个弱智的想法已经洗脑了很多无知的家伙。 各式癌症、慢性胃炎、糜烂性胃炎、乙肝、肠易激综合征、筋膜炎、眼部肿胀、面瘫、斑秃、心肌病、呼吸衰竭、血管炎、癫痫、血栓、心律失常、关节炎、哮喘、支气管痉挛、心力衰竭、胸部不适、红斑狼疮、脑脊髓炎、肾损伤、黄斑外层视网膜病变、再生障碍性贫血、慢性自身免疫性肾小球肾炎、慢性皮肤红斑狼疮、慢性自发性荨麻疹、溶血性贫血、结肠炎、皮炎、糖尿病、栓塞性脑梗塞、内分泌失调、新生儿重症肌无力、脊髓炎、非感染性卵巢炎、甲状腺炎、溃疡性直肠炎、眼部瘙痒症、生殖器疱疹、舌咽神经麻痹、出血性血管炎、宫颈炎、狼疮性膀胱炎、狼疮性脑炎、多发性硬化症等等。 [1评]
n
neophoenix
22 楼
呵呵,那好啊,到时候出来了我们用,你别用,不就解决了
a
alad6park
23 楼
好主意。您多用。
生气猫斗牛犬
24 楼
这是个契机,把只会查书做复读机的医生淘汰掉,留下善于思辨创新的专门搞疑难杂症。