对于一个足够好的 Deep Learning Model, 一是要有足够多的数据 (即使是做 Transfer Learning 的情况下), 二是要有足够强大的计算力。为了做成这件事情,我在本地搭建了一个 50 个 Nvidia Geforce GTX 1080 Ti 的 GPU cluster, 这是搭成之后的硬件:
有了硬件之后就是设计 Model 和收集数据。我从北美和欧洲的几个研究组获取了 Annotated Breast Mammo 的数据。这些 Annotation 大多都是根据北美 ABR certified 的 Radiologist 做出的。也就是如果这个 Model 能够训练好,就可以达到 ABR Certified Radiologist 的 Reading 的平均水平或者更好。
Don't worry. All the training data are from public sources (or ones I signed agreement, which is not for commercial usage). As I said already, I am not storing any patient data and the tool is only for use of awareness, not diagnostic directly (This is the claimer I will put up).
The medical domain has many rules for a reason.. please understand the rules before even claiming as a hobby.
This is not just about individuals data ...such samples have a clear medical indication or purpose..
I guess you get some public like NIH pathology datasets somehow. But if you do not follow the HIPPA rule . How can you claim your own server follows HIPPA as an individual? You are in big trouble and whoever shared you the datasets is also in deep trouble if trying in the gray area of the rules.
Please think and act carefully...for your own sake. Beside many over claiming and hypes conclusions now come from all these deep learning models trained on such datasets...
Don't worry. All the training data are from public sources (or ones I signed agreement, which is not for commercial usage). As I said already, I am not storing any patient data and the tool is only for use of awareness, not diagnostic directly (This is the claimer I will put up).
The medical domain has many rules for a reason.. please understand the rules before even claiming as a hobby.
This is not just about individuals data ...such samples have a clear medical indication or purpose..
I guess you get some public like NIH pathology datasets somehow. But if you do not follow the HIPPA rule . How can you claim your own server follows HIPPA as an individual? You are in big trouble and whoever shared you the datasets is also in deep trouble if trying in the gray area of the rules.
Please think and act carefully...for your own sake. Beside many over claiming and hypes conclusions now come from all these deep learning models trained on such datasets...
提供这些信息应该会improve诊断效果的,即使什么也不提供,也不是说信息就完全安全的。之前netflix竞赛后来爆出有隐私安全问题,就是用netflix的匿名数据,match了一个public的数据,就能recover netflix user了。有个信息安全领域,专门有一批人研究怎么attack data privacy and security和怎么protect。
软件相对容易,deep learning现在软件resource很多,很多作machine learning的phd都能实现类似model的。不过deep learning在computational resource上要求非常高,很难想象个人有这样的resource来做research。现在很多公司deep learning进展比学校快,就是因为公司有足够财力支持而且有海量数据。看lz的图片不太像在家里,难道是租的地方?除了先期的投入,还有运转和维护的cost吧。lz这么大的投入是纯慈善目的,是吗?以后会make it into a start-up or something profitable吗?不好意思,也许我是太孤陋寡闻了,用这么大的cost做non-profit research真是没见过。智能医疗这块目前是个大蛋糕,蛮多公司在投入这块,也很多start-up的。 如果真是non-profit,首先要膜拜一下lz,能投入这么多时间金钱很牛。不过deep learning on medical images如果想做的有impact,还是应该找公司和医院合作,单打独斗很难做好。具体有没有什么法规regulate我就不太了解了。不过既然lz目的是要benefit大众,那还是稍微花些时间在网站上把benefit和risk讲清楚。这个model到底有多好?test on一个dataset是不是有点少?有其它measure吗?有significance test吗?结果有多少可信度?Privacy方面都会collect什么数据,图片收到后会immediately处理并丢掉吗?做一个医疗app和作一个游戏app毕竟是不同的,多考虑一些ethical issues没坏处。
乳腺癌检查去年有个全世界竞赛,刚才国内一个公司联系我,他们先用他们获得的竞赛第二名程序测试了 MIAS 数据,漏了10个 case, 然后他们用我的网站测试了一下,只漏了一个
去年的时候,我一个在芝加哥比我小几级的南京大学校友去世了。乳腺癌,发现得晚了,才34岁,留下了一个4岁的孩子。非常可惜。想想能不能做点什么事情可以帮助大众来提高乳腺癌的早期检测成功率。因为如果在 stage 1 发现乳腺癌的话,5年存活率是99%。
想想能否写一个完全免费的网站和 ios app 来让用户可以迅速得到 X-ray Mammogram 的诊断结果。至少可以是 2nd Opinion. 因为用户做完 Mammography 之后有的时候需要等好几天才能有 Radiologist 来读片子。而且现在 Radiologist 有20% 的概率会漏掉早期的肿瘤。我决定用 Deep Learning (深度学习) 来做这件事情。
对于一个足够好的 Deep Learning Model, 一是要有足够多的数据 (即使是做 Transfer Learning 的情况下), 二是要有足够强大的计算力。为了做成这件事情,我在本地搭建了一个 50 个 Nvidia Geforce GTX 1080 Ti 的 GPU cluster, 这是搭成之后的硬件:
有了硬件之后就是设计 Model
最终的结果我在欧洲的 InBreast 数据上做了测试,达到了 90% 的准确度 (AUC).
我觉得这个 Model 已经可以给大众实用了,在这里公开出来:
http://neuralrad.com:5000/upload
你可以直接上传 .jpg 形式的 Mammo 图片,这个 AI 会给出判断结果. 这是 Screenshot:
这个网站是完全免费使用的。我现在还在继续更新和改进 Model, 也在联系国内的几家医院来合作来获取更多的数据来 Training.
你如果在医院做过 Breast Mammography, 可以直接从医生那里获取你的 mammogram 来使用这个网站。
Disclaimer:
这个工具不会存储用户的图片! 大家请放心使用。
网站也说明了这个工具的结果不是诊断,只是给出 awareness. 这是一个 research 的工具
关于 Hippa, 已经咨询了一下,请看 Hippa 原文:
这个工具没有问题.
如果有效,应该找机构合作推广
千万别说任何diagnosis的文字在网站,这个责任超大的,你负不起 ---发自Huaren 官方 iOS APP
这种一点隐私都没有,大批量获取免费信息的事情,大家怎么一点都不警觉呢???
还有好像经常看到说亚洲人做mammo经常有误判?是不是得多点亚洲人数据来train
2.很多dl的model都有over fitting的问题,不同的scanner取下来的数据很有可能完全不work
3.隐私问题
☆ 发自 iPhone 华人一网 1.14
内行人一看就知道了
这个明显是套数据和隐私的
从头到尾就没有一点合理的地方
没时间解释
不要使用!
大家上传的图片是没有 Label 的,我一点用都没有.
没有label可以找人label
我做这个网站真的没有你想的那么复杂,我不是为了盈利的。可能这点和很多这个行业的人不同。因为我本身不是做这个行业的,做这个真的只是 Hobby.
我重申一点,这个网站不会存储用户图片。Model run 完结果不会保存该图片。请放心。
光50个GPU也是不少一笔钱,你用了几个server来挂这多GPU?你究竟数据大到什么地步需要这么多GPU?写model搞数据做算法搭网站搞服务器,各种测试,这个怎么也得花掉几个月甚至一年的时间才完全推出吧?除非你全职搞?如果是全职搞,那你的资金哪里来的?
然后竟然不用来做课题研究或者继续搞成大项目?楼主,大家为什么会相信你的model work?而且你说你不存大家的image,究竟让大家如何相信?
光每个月电费就得不少
这些 server 我以后还有其他的项目会使用,不是光搞这个网站和项目。
请你放心,确实不存储用户数据。
这个项目正式是从三月份开始,搞了两个多月。我自己有其他的工作,只是业余的时间作了这件事情。
http://www-personal.umich.edu/~haojng/
找到真人就感觉必须百分百相信你的感觉。你这个project只用俩月业余时间,说明是领域老手,很多工具都现成。佩服。希望能被很多人用到而且发现有用。
N 年前写的网站我自己都快忘记了
I do not think this is even legal...
These type of analysis need to follow HIPPA, at the least.
As an individual, how?
50 1080 card plus the cpu/motherhood/ RAM/disks,cooling/cases, ... this is about
$40k+ ~30k+ ~20k= about 100k investing....
ALso the privacy concerns are huge for such images...
I understand you try to make it into a business..
But you better follow the correct channels and rules..
Sorry. For now, this is just a hobby.
I will put a disclaimer up saying this is not diagnostic, this is only for awareness.
For myself, this is a way to spend time doing some interesting research when I can afford it.
爬到最后,还是愿意相信lz的善心
但是很多细节的东西需要考虑,不然会给自己招惹不必要的麻烦
但是,大家说的其实很有道理,HiPPA compliance 应该是必须。不过楼主你搞了这么多年的medical imaging,自己也是medical physicist不可能不知道这些的。为了让用户放心使用,你最好还是把这个工具挂在你们研究院或者跟你合作的医院网站上,而且有证明你这工具不违反各种法规。
Don't worry. All the training data are from public sources (or ones I signed agreement, which is not for commercial usage). As I said already, I am not storing any patient data and the tool is only for use of awareness, not diagnostic directly (This is the claimer I will put up).
The medical domain has many rules for a reason.. please understand the rules before even claiming as a hobby.
This is not just about individuals data ...such samples have a clear medical indication or purpose..
I guess you get some public like NIH pathology datasets somehow. But if you do not follow the HIPPA rule . How can you claim your own server follows HIPPA as an individual?
You are in big trouble and whoever shared you the datasets is also in deep trouble if trying in the gray area of the rules.
Please think and act carefully...for your own sake.
Beside many over claiming and hypes conclusions now come from all these deep learning models trained on such datasets...
☆ 发自 iPhone 华人一网 1.14
嫩把所有信息都放到网站上比较好,一楼以及这楼以及公共数据源等等
好的,网站上已经添加了 disclaimer, 并且说明了不是 diagnosis.
如果从NIH获得图片,你可以用训练的model到你的网站?小心被逮起来。
I do not use any data from NIH.
涉及medical 的还有privacy。
你说不存照片但是东西一到网上就没办法控制了,需要测试模型最好还是正规手段获取数据来源吧
能用amazon cloud算么
希望楼主多完善上面热心MM的建议,这样真能造福好多好多人!
我也是马上知道的。一般等半小时左右,如果有可疑的话会和医生见面或者多做一次,没有可疑的让回家等信。
☆ 发自 iPhone 华人一网 1.14
特别佩服能为生命科学做贡献的人,觉得特别有价值
数据可以Anonymize啊。
做mamagraphy deep learning的,去年刚比过。两个sub-challenge,我参加的队排第六和第八。我队里也有同学家里因这个死过人,真是扑心扑肝地做,天天晚上程序写到12点。
https://www.synapse.org/#!Synapse:syn4224222/wiki/401743
我比较肯定的是,inbreast数据量太小,图片格式又不是典型的,如果只是拿inbreast train,实战AUC应该70%都到不了。
这个图比较好地说明了inbreast和一般图的区别:
一般看到的图片,都是用设备商软件增强过的,感觉像左边的这样 (这个DDSM本身是个更老的数据集,胶片扫描的。第一名据说就用了DDSM pretrain的。这个DDSM数据量非常大,楼主倒是可以考虑用用看)。 inbreast的图片没增强过,是右边的那样。我们有好长时间都在纠结那个增强算法到底是怎么弄的。
采集数据我觉得没问题。写个协议让用户上传前签了就行。 但是结果报回来,特别是如果和医生诊断不一致的情况下很容易引发用户不必要的焦虑。楼主慎重。
能跟google合作吗?
用户自愿传给楼主,并且如果能签个啥东西,估计PHI也管不了。啥事都咨询律师,这也不让干那也不让干,肯定啥事都成不了。
我看楼主钱比较多,钱多的话,做什么事情应该都比较容易成功。
DDSM 是我一部分的 training data.
InBreast 只是 Test, 没有参加 Training.
你啥都不提供怎么给你反馈?
lz propose的这个听起来像收数据和clinical trial的结合体。不知道lz的设备是自己自费,场地是自己的吗?如果用的是学校的设备和场地,如果research涉及human subjects,那收数据之前必须要得到IRB approval。IRB approval是个非常rigorous的procedure。要向IRB board submit一个protocol,里面详细列举research的内容,怎么保护human subject的privacy,collect数据前一定要充分告知participant所可能的benefits和risk,等等。。。我第一次写IRB protocol的时候简直要写吐血了,光template本身就接近30页,方方面面非常细致。比如保护用户privacy真不是一句“我不会存图片”就完了的。
lz不会存图片,那你的deep learning可以处理streaming data吗?效果和处理batch data比过吗?目前的state-of-the-art来讲,deep learning还是需要海量数据batch处理才能得到比较满意的结果。本身breast cancer病人就是一个small population,这里又有几个会知道这个平台,会upload图片呢?这样收数据太limited,很难达到你想得到的效果。如果真是想做这方面研究,和医院合作是最effective的途径。clinical trial不太了解,估计会更复杂吧。之前用各种machine learning techniques,大家也只敢claim是做medical assistance,就是相当于给医生提供一个tool, 最后diagnosis必须要医生来做。所以目前怎么interpret machine learning结果是个很热的研究方向。如果只是个黑箱tool,最终的output只是个prediction,这样的tool没多大用。deep learning比传统machine learning还复杂还要难解释,所以离应用到clinical上还有一段距离的。
对于用这个平台的mm来说:submit前要充分了解可能的risks。不过目前关于risk细节提供的还不够,所以最好是不要submit。你的图片到底会不会被存储是未知的。即使lz无意侵犯你的隐私,但是还是有未知的隐私泄露风险的。比如learning的过程中图片的信息会被压缩成某种信息存起来吗?从这些信息里有没有可能recover original 信息?怎么保证设备不被别人access? 其次,如果你用这个平台,我觉得得到的结果也很难trust。即使这个model总体准确率是90%,谁知道你是不是被误判的那10%呢?目前的结果只在一个数据集上得到的,有没有overfit的可能?而且这个数据集有没有data imbalanced的问题?如果positive example很少,大部分是negative samples,Accuracy本身是非常misleading的,应该用precision recall F1-measure来衡量。所以最好还是去找医生作诊断,如果不trust一个医生,可以找多个医生。
不管哪种病的研究,都是很有意义的。现在很多医学上的进步都是从研究开始的。不过研究除了有benefit,也是有risk的。美国关于医学研究的各种rule,尽管繁复,还是有必要的。像前面mm说的,they exist for a reason。我觉得作研究不光要有passion,还应该follow 正确的practice,尤其是涉及human subjects的研究。
小心驶得万年船啊
提供这些信息应该会improve诊断效果的,即使什么也不提供,也不是说信息就完全安全的。之前netflix竞赛后来爆出有隐私安全问题,就是用netflix的匿名数据,match了一个public的数据,就能recover netflix user了。有个信息安全领域,专门有一批人研究怎么attack data privacy and security和怎么protect。
当然用户对privacy的要求不一样,有人比较care,有人不太care。不过IRB的guideline是一定要充分告知participant可能的风险(包括隐私泄漏和其他的一些风险),然后用户决定要不要参与这个研究。
然后还有hippa training……
从硬件到软件都是我自己的. 和任何学校或者公司没有关系,所以不需要走你所说的繁琐过程。不过谢谢你让我了解了这些情况。
软件相对容易,deep learning现在软件resource很多,很多作machine learning的phd都能实现类似model的。不过deep learning在computational resource上要求非常高,很难想象个人有这样的resource来做research。现在很多公司deep learning进展比学校快,就是因为公司有足够财力支持而且有海量数据。看lz的图片不太像在家里,难道是租的地方?除了先期的投入,还有运转和维护的cost吧。lz这么大的投入是纯慈善目的,是吗?以后会make it into a start-up or something profitable吗?不好意思,也许我是太孤陋寡闻了,用这么大的cost做non-profit research真是没见过。智能医疗这块目前是个大蛋糕,蛮多公司在投入这块,也很多start-up的。
如果真是non-profit,首先要膜拜一下lz,能投入这么多时间金钱很牛。不过deep learning on medical images如果想做的有impact,还是应该找公司和医院合作,单打独斗很难做好。具体有没有什么法规regulate我就不太了解了。不过既然lz目的是要benefit大众,那还是稍微花些时间在网站上把benefit和risk讲清楚。这个model到底有多好?test on一个dataset是不是有点少?有其它measure吗?有significance test吗?结果有多少可信度?Privacy方面都会collect什么数据,图片收到后会immediately处理并丢掉吗?做一个医疗app和作一个游戏app毕竟是不同的,多考虑一些ethical issues没坏处。
谢谢你的回复.
我的这个 GPU cluster 确实不是放在家里的。我的一个朋友有一个 Business. 我租了他的地下室放这几个 Rack.
thanks for sharing
但是我觉得,不需要second opinion, 不需要借片子。主要去好点的正规医院,医生发报告后自己要一份报告。里面清楚地写好: BI RAD分级, BI RAD 1 是正常。2 是 良性,年检就行。 3 是可能良性,但是要复查。4要化验。 BIRAD 4b 就比较可疑,但是还有机会良性。5 就超级可疑乳癌。
有些医生为了保护自己,即使BI RAD 5 都说只是对病人说建议做化验。如果你会看报告,就可以大概了解要不要犹豫一下要不要等半年。
HIPAA,楼主打算怎么处理???
关于这个 Concern, 请看 HIPPA 原文:
这个 App 既然是让用户自行使用并不保存数据的, Hippa Law 没有问题。
这种设计病人隐私的操作都需要be hippa compliant, 不管你是个人还是在学校或者公司
纯外行来请教一下mm, 不太理解这个图片即使被原图储存了,对用户的影响是什么呢?相比之下论坛上发帖回帖泄露的隐私不是更多么
LZ心里肯定是热了狗了