【更新】关于乳腺癌,说说自己做的这个 Project, 全世界第一个免费的筛查乳腺网站, 发布免费桌面版本

c
chihuoshenqi
楼主 (北美华人网)
正式发布桌面版本,可以从 NeuralRad.com 主页直接下载,完全免费。


乳腺癌检查去年有个全世界竞赛,刚才国内一个公司联系我,他们先用他们获得的竞赛第二名程序测试了 MIAS 数据,漏了10个 case, 然后他们用我的网站测试了一下,只漏了一个

去年的时候,我一个在芝加哥比我小几级的南京大学校友去世了。乳腺癌,发现得晚了,才34岁,留下了一个4岁的孩子。非常可惜。想想能不能做点什么事情可以帮助大众来提高乳腺癌的早期检测成功率。因为如果在 stage 1 发现乳腺癌的话,5年存活率是99%。

想想能否写一个完全免费的网站和 ios app 来让用户可以迅速得到 X-ray Mammogram 的诊断结果。至少可以是 2nd Opinion. 因为用户做完 Mammography 之后有的时候需要等好几天才能有 Radiologist 来读片子。而且现在 Radiologist 有20% 的概率会漏掉早期的肿瘤。我决定用 Deep Learning (深度学习) 来做这件事情。

对于一个足够好的 Deep Learning Model, 一是要有足够多的数据 (即使是做 Transfer Learning 的情况下), 二是要有足够强大的计算力。为了做成这件事情,我在本地搭建了一个 50 个 Nvidia Geforce GTX 1080 Ti 的 GPU cluster, 这是搭成之后的硬件:









有了硬件之后就是设计 Model

最终的结果我在欧洲的 InBreast 数据上做了测试,达到了 90% 的准确度 (AUC).

我觉得这个 Model 已经可以给大众实用了,在这里公开出来:

http://neuralrad.com:5000/upload

你可以直接上传 .jpg 形式的 Mammo 图片,这个 AI 会给出判断结果. 这是 Screenshot:



这个网站是完全免费使用的。我现在还在继续更新和改进 Model, 也在联系国内的几家医院来合作来获取更多的数据来 Training.

你如果在医院做过 Breast Mammography, 可以直接从医生那里获取你的 mammogram 来使用这个网站。

Disclaimer:
这个工具不会存储用户的图片! 大家请放心使用。

网站也说明了这个工具的结果不是诊断,只是给出 awareness. 这是一个 research 的工具

关于 Hippa, 已经咨询了一下,请看 Hippa 原文:



这个工具没有问题.
冰是睡着的水
2 楼
mark,,,,
斯德哥尔摩傻屄
3 楼
隐私性怎么样?
c
calliopsis
4 楼
有意思,我有时候也想在医生通知之前自己看看结果,这个有用
w
woodheadme
5 楼
该用户帖子内容已被管理员屏蔽
绵绵冰
6 楼
赞一个……
c
chihuoshenqi
7 楼
如果你想测试这个网站,我这里提供一张图片你可以用这个来测试:

W
Windslow2002
8 楼
支持,👍

如果有效,应该找机构合作推广
d
driftyy
9 楼
zan~~~~~~
r
rophill
10 楼
楼主是否可以用cloud computing搞这个项目啊。。。这些大器件。。维护起来。。。真不容易啊
C
Cumberbitch
11 楼
去年的时候,我一个在芝加哥比我小几级的南京大学校友去世了。乳腺癌,发现得晚了,才34岁,留下了一个4岁的孩子。非常可惜。想想能不能做点什么事情可以帮助大众来提高乳腺癌的早期检测成功率。因为如果在 stage 1 发现乳腺癌的话,5年存活率是99%。

想想能否写一个完全免费的网站和 ios app 来让用户可以迅速得到 X-ray Mammogram 的诊断结果。至少可以是 2nd Opinion. 因为用户做完 Mammography 之后需要等好几周才能有 Radiologist 来读片子。而且现在 Radiologist 有20% 的概率会漏掉早期的肿瘤。我决定用 Deep Learning (深度学习) 来做这件事情。

对于一个足够好的 Deep Learning Model, 一是要有足够多的数据 (即使是做 Transfer Learning 的情况下), 二是要有足够强大的计算力。为了做成这件事情,我在本地搭建了一个 50 个 Nvidia Geforce GTX 1080 Ti 的 GPU cluster, 这是搭成之后的硬件:









有了硬件之后就是设计 Model 和收集数据。我从北美和欧洲的几个研究组获取了 Annotated Breast Mammo 的数据。这些 Annotation 大多都是根据北美 ABR certified 的 Radiologist 做出的。也就是如果这个 Model 能够训练好,就可以达到 ABR Certified Radiologist 的 Reading 的平均水平或者更好。

最终的结果我在欧洲的 InBreast 数据上做了测试,达到了 90% 的准确度 (AUC).

我觉得这个 Model 已经可以给大众实用了,在这里公开出来:

http://neuralrad.com:5000/upload

你可以直接上传 .jpg 形式的 Mammo 图片,这个 AI 会给出判断结果. 这是 Screenshot:



这个网站是完全免费使用的。我现在还在继续更新和改进 Model, 也在联系国内的几家医院来合作来获取更多的数据来 Training.

你如果在医院做过 Breast Mammography, 可以直接从医生那里获取你的 mammogram 来使用这个网站。
                

chihuoshenqi 发表于 5/17/2018 12:30:56 PM
你的dl model到底是哪个?resnet吗

千万别说任何diagnosis的文字在网站,这个责任超大的,你负不起 ---发自Huaren 官方 iOS APP
t
ted.hanks
12 楼
Not a lawyer, 但是处理医学数据, 可能要HIPPA compliance。
糖小贝
13 楼
楼主太赞了!!!
h
hcrab
14 楼
在美国搞医疗的startup好多法律法规上的事情要注意
m
mooncake25
15 楼
病人要自己问医生拿片子之后再上传到网站吗?
t
tinytoy
16 楼
楼主太赞了!!!
糖小贝 发表于 5/17/2018 12:53:20 PM

这种一点隐私都没有,大批量获取免费信息的事情,大家怎么一点都不警觉呢???
e
esnq
17 楼
这个免费的话 你的设备之类的成本是怎么cover的呢?
还有好像经常看到说亚洲人做mammo经常有误判?是不是得多点亚洲人数据来train
h
hcrab
18 楼
这个免费的话 你的设备之类的成本是怎么cover的呢?
还有好像经常看到说亚洲人做mammo经常有误判?是不是得多点亚洲人数据来train
esnq 发表于 5/17/2018 1:05:41 PM
这帖子目的不就是打广告让大家用,免费取得数据吗?
e
esnq
19 楼
有道理


这帖子目的不就是打广告让大家用,免费取得数据吗?

hcrab 发表于 5/17/2018 13:07:00
m
majia113
20 楼
mark 楼主好人
l
lingling7
21 楼
1.免费取得的数据都是没有label的,不知道楼主打算怎么改进
2.很多dl的model都有over fitting的问题,不同的scanner取下来的数据很有可能完全不work
3.隐私问题
b
bangobunny
22 楼
楼主好牛 还为社会做贡献 ---发自Huaren 官方 iOS APP
Y
Yadkin
23 楼
Mammograms在我们这里都是当天,最迟第二天radiologist就读片子,不用等好几周那么久啊。

☆ 发自 iPhone 华人一网 1.14
D
Dreamchaser
24 楼
不要使用!!
内行人一看就知道了
这个明显是套数据和隐私的
从头到尾就没有一点合理的地方

没时间解释
不要使用!
B
BqbqRosie
25 楼
Mammo如果不好的话,radiologist不是都立即联系么 mammo的可疑度大概率要依赖radiologist的经验,不觉得AI可以做好… 我的两分钱 ---发自Huaren 官方 iOS APP
s
superplayer0304
26 楼
额。。。LZ确定不是想用1080 TI去挖币吗?!!!!
f
fatsnail
27 楼
人观察确实有一定的百分比会Miss,现在一个趋势是人和机器都过一遍,减少漏网的。
c
chihuoshenqi
28 楼
这个工具不会存储用户的图片! 大家请放心使用。

大家上传的图片是没有 Label 的,我一点用都没有.
w
woodheadme
29 楼
该用户帖子内容已被屏蔽
e
elevenoclock
30 楼
Mammograms在我们这里都是当天,最迟第二天radiologist就读片子,不用等好几周那么久啊。

☆ 发自 iPhone 华人一网 1.14

Yadkin 发表于 5/17/2018 1:34:20 PM
Re, 我们这里也是有问题的当场都会说了,不会等几周
h
hcrab
31 楼
这个工具不会存储用户的图片! 大家请放心使用。

大家上传的图片是没有 Label 的,我一点用都没有.
chihuoshenqi 发表于 5/17/2018 2:23:34 PM
不存储是不可能的
没有label可以找人label
c
chihuoshenqi
32 楼
不存储是不可能的
没有label可以找人label

hcrab 发表于 5/17/2018 2:27:10 PM

我做这个网站真的没有你想的那么复杂,我不是为了盈利的。可能这点和很多这个行业的人不同。因为我本身不是做这个行业的,做这个真的只是 Hobby.

我重申一点,这个网站不会存储用户图片。Model run 完结果不会保存该图片。请放心。
j
jarvi
33 楼
粗看起来,是很好的主意,也貌似是造福大家的。可是,

光50个GPU也是不少一笔钱,你用了几个server来挂这多GPU?你究竟数据大到什么地步需要这么多GPU?写model搞数据做算法搭网站搞服务器,各种测试,这个怎么也得花掉几个月甚至一年的时间才完全推出吧?除非你全职搞?如果是全职搞,那你的资金哪里来的?
然后竟然不用来做课题研究或者继续搞成大项目?楼主,大家为什么会相信你的model work?而且你说你不存大家的image,究竟让大家如何相信?
h
hcrab
34 楼
粗看起来,是很好的主意,也貌似是造福大家的。可是,

光50个GPU也是不少一笔钱,你用了几个server来挂这多GPU?你究竟数据大到什么地步需要这么多GPU?写model搞数据做算法搭网站搞服务器,各种测试,这个怎么也得花掉几个月甚至一年的时间才完全推出吧?除非你全职搞?如果是全职搞,那你的资金哪里来的?
然后竟然不用来做课题研究或者继续搞成大项目?楼主,大家为什么会相信你的model work?而且你说你不存大家的image,究竟让大家如何相信?
jarvi 发表于 5/17/2018 2:37:21 PM

光每个月电费就得不少
c
chihuoshenqi
35 楼
回复 33楼jarvi的帖子

这些 server 我以后还有其他的项目会使用,不是光搞这个网站和项目。

请你放心,确实不存储用户数据。

这个项目正式是从三月份开始,搞了两个多月。我自己有其他的工作,只是业余的时间作了这件事情。
j
jarvi
36 楼
回复 33楼jarvi的帖子

这些 server 我以后还有其他的项目会使用,不是光搞这个网站和项目。

请你放心,确实不存储用户数据。

这个项目正式是从三月份开始,搞了两个多月。我自己有其他的工作,只是业余的时间作了这件事情。

chihuoshenqi 发表于 5/17/2018 2:39:24 PM
姑且相信你一次祝你好运吧。
a
angelamela
37 楼
赞赞赞! 楼主在搞技术的同时,别忘了好好搞搞推广!
j
jarvi
38 楼
楼主 这是你吧
http://www-personal.umich.edu/~haojng/

找到真人就感觉必须百分百相信你的感觉。你这个project只用俩月业余时间,说明是领域老手,很多工具都现成。佩服。希望能被很多人用到而且发现有用。
n
northernpike
39 楼
先找个律师咨询下。
c
chihuoshenqi
40 楼
回复 38楼jarvi的帖子

N 年前写的网站我自己都快忘记了
j
jarvi
41 楼
所以你现在也在app store里发布了吗?
s
sungougou
42 楼
回复 39楼northernpike的帖子

I do not think this is even legal...

These type of analysis need to follow HIPPA, at the least.
As an individual, how?

50 1080 card plus the cpu/motherhood/ RAM/disks,cooling/cases, ... this is about
$40k+ ~30k+ ~20k= about 100k investing....

ALso the privacy concerns are huge for such images...
I understand you try to make it into a business..

But you better follow the correct channels and rules..
c
chihuoshenqi
43 楼
回复 42楼sungougou的帖子

Sorry. For now, this is just a hobby.

I will put a disclaimer up saying this is not diagnostic, this is only for awareness.

For myself, this is a way to spend time doing some interesting research when I can afford it.
m
marchbaby
44 楼
支持lz
i
iweyr
45 楼
不要使用!!
内行人一看就知道了
这个明显是套数据和隐私的
从头到尾就没有一点合理的地方

没时间解释
不要使用!
Dreamchaser 发表于 5/17/2018 1:47:24 PM

爬到最后,还是愿意相信lz的善心
但是很多细节的东西需要考虑,不然会给自己招惹不必要的麻烦
j
jarvi
46 楼
回复 39楼northernpike的帖子

I do not think this is even legal...

These type of analysis need to follow HIPPA, at the least.
As an individual, how?

50 1080 card plus the cpu/motherhood/ RAM/disks,cooling/cases, ... this is about
$40k+ ~30k+ ~20k= about 100k investing....

ALso the privacy concerns are huge for such images...
I understand you try to make it into a business..

But you better follow the correct channels and rules..

sungougou 发表于 5/17/2018 3:08:58 PM
人楼主可能就是一腔热血的搞个有用的工具呢?
但是,大家说的其实很有道理,HiPPA compliance 应该是必须。不过楼主你搞了这么多年的medical imaging,自己也是medical physicist不可能不知道这些的。为了让用户放心使用,你最好还是把这个工具挂在你们研究院或者跟你合作的医院网站上,而且有证明你这工具不违反各种法规。
c
chihuoshenqi
47 楼
回复 46楼jarvi的帖子

Don't worry. All the training data are from public sources (or ones I signed agreement, which is not for commercial usage). As I said already, I am not storing any patient data and the tool is only for use of awareness, not diagnostic directly (This is the claimer I will put up).
s
sungougou
48 楼
回复 43楼chihuoshenqi的帖子

The medical domain has many rules for a reason.. please understand the rules before even claiming as a hobby.

This is not just about individuals data ...such samples have a clear medical indication or purpose..

I guess you get some public like NIH pathology datasets somehow. But if you do not follow the HIPPA rule . How can you claim your own server follows HIPPA as an individual?
You are in big trouble and whoever shared you the datasets is also in deep trouble if trying in the gray area of the rules.

Please think and act carefully...for your own sake.
Beside many over claiming and hypes conclusions now come from all these deep learning models trained on such datasets...
i
iphone5s
49 楼
我们clinic做mammogram,都是上午做,下午就知道结果了。

有意思,我有时候也想在医生通知之前自己看看结果,这个有用
calliopsis 发表于 5/17/2018 12:35:13 PM


☆ 发自 iPhone 华人一网 1.14
j
jarvi
50 楼
回复 46楼jarvi的帖子

Don't worry. All the training data are from public sources (or ones I signed agreement, which is not for commercial usage). As I said already, I am not storing any patient data and the tool is only for use of awareness, not diagnostic directly (This is the claimer I will put up).

chihuoshenqi 发表于 5/17/2018 3:16:47 PM
我没worry
嫩把所有信息都放到网站上比较好,一楼以及这楼以及公共数据源等等
s
susupoppy
51 楼
居然买到了50张1080ti!光这个成本就接近5万。
c
chihuoshenqi
52 楼
回复 50楼jarvi的帖子

好的,网站上已经添加了 disclaimer, 并且说明了不是 diagnosis.
z
zhegufei
53 楼
回复 42楼sungougou的帖子

Sorry. For now, this is just a hobby.

I will put a disclaimer up saying this is not diagnostic, this is only for awareness.

For myself, this is a way to spend time doing some interesting research when I can afford it.

chihuoshenqi 发表于 5/17/2018 3:10:36 PM
hobby 也不可以。
z
zhegufei
54 楼
回复 43楼chihuoshenqi的帖子

The medical domain has many rules for a reason.. please understand the rules before even claiming as a hobby.

This is not just about individuals data ...such samples have a clear medical indication or purpose..

I guess you get some public like NIH pathology datasets somehow. But if you do not follow the HIPPA rule . How can you claim your own server follows HIPPA as an individual?
You are in big trouble and whoever shared you the datasets is also in deep trouble if trying in the gray area of the rules.

Please think and act carefully...for your own sake.
Beside many over claiming and hypes conclusions now come from all these deep learning models trained on such datasets...

sungougou 发表于 5/17/2018 3:17:42 PM

如果从NIH获得图片,你可以用训练的model到你的网站?小心被逮起来。
c
chihuoshenqi
55 楼
回复 54楼zhegufei的帖子

I do not use any data from NIH.
j
jh
56 楼
mark...
j
jasminezzy
57 楼
楼主是个善良的好人 谢谢你! ---发自Huaren 官方 iOS APP
m
maggic
58 楼
lz是个牛人,但是这个project不好。
涉及medical 的还有privacy。
你说不存照片但是东西一到网上就没办法控制了,需要测试模型最好还是正规手段获取数据来源吧
k
kittybear2011
59 楼
这个成本真的很高啊,这么多GPU,还要维护

能用amazon cloud算么
e
ezsmiling
60 楼
不管怎样,赞MM的善良和智慧。这个思路很好,能给大家多一个信息渠道,当然是好事,也肯定会影响某些医疗利益集团。希望你能成功,不管是盈利还是免费,给大家更多帮助。
W
With_Antonio
61 楼
Mark乳腺癌检测
x
xiner8268
62 楼
关注 !

希望楼主多完善上面热心MM的建议,这样真能造福好多好多人!
m
mooncake25
63 楼
Re, 我们这里也是有问题的当场都会说了,不会等几周
elevenoclock 发表于 5/17/2018 2:27:16 PM


我也是马上知道的。一般等半小时左右,如果有可疑的话会和医生见面或者多做一次,没有可疑的让回家等信。
I
Ilovelove
64 楼
保险起见 找个律师咨询一下 没坏处 而且不知道你的这个系统是不是有人patent过了没有的话 你赶紧申请一个 有的话 你可能需要license
番茄鱼
65 楼
哇,mark

☆ 发自 iPhone 华人一网 1.14
y
yueyueyue
66 楼
50张1080ti。。。这个。。。。如果只为了慈善。。。。我有点不太信呢。。。
l
lala_2009
67 楼
回复 1楼chihuoshenqi的帖子

特别佩服能为生命科学做贡献的人,觉得特别有价值
b
benbenben321
68 楼
数据多了,model robust, 不也算是造福人类么。
数据可以Anonymize啊。
e
evonneangela
69 楼
赞啊!mark
w
wdong
70 楼
电费挖矿可解,不考虑卡钱,应该还能小赚。而且楼主这个机群看着就像是挖矿的机群。深学的机器不是长这样的。
做mamagraphy deep learning的,去年刚比过。两个sub-challenge,我参加的队排第六和第八。我队里也有同学家里因这个死过人,真是扑心扑肝地做,天天晚上程序写到12点。
https://www.synapse.org/#!Synapse:syn4224222/wiki/401743
我比较肯定的是,inbreast数据量太小,图片格式又不是典型的,如果只是拿inbreast train,实战AUC应该70%都到不了。

这个图比较好地说明了inbreast和一般图的区别:



一般看到的图片,都是用设备商软件增强过的,感觉像左边的这样 (这个DDSM本身是个更老的数据集,胶片扫描的。第一名据说就用了DDSM pretrain的。这个DDSM数据量非常大,楼主倒是可以考虑用用看)。 inbreast的图片没增强过,是右边的那样。我们有好长时间都在纠结那个增强算法到底是怎么弄的。

采集数据我觉得没问题。写个协议让用户上传前签了就行。 但是结果报回来,特别是如果和医生诊断不一致的情况下很容易引发用户不必要的焦虑。楼主慎重。
z
ziyi99
71 楼
lz想法不错。前段时间google搞了一个观察眼睛里血管和心脏病的联系。。。。
能跟google合作吗?
i
iheartglass
72 楼
楼主赞。实际经验是读片子的医生通常很保守,即不是癌也抓出来,让病人去做biopsy再确认。好奇楼主的training data的ground truth是医生最终的诊断还是biopsy结果也考虑进来了?另huaren.usalse positive false negative 也不对称呢。
b
bigfishbowl234
73 楼
楼主你是法盲,这种作法严重违反PHI法规,最好咨询一下律师吧
w
wdong
74 楼
楼主你是法盲,这种作法严重违反PHI法规,最好咨询一下律师吧
bigfishbowl234 发表于 5/17/2018 10:32:13 PM


用户自愿传给楼主,并且如果能签个啥东西,估计PHI也管不了。啥事都咨询律师,这也不让干那也不让干,肯定啥事都成不了。
我看楼主钱比较多,钱多的话,做什么事情应该都比较容易成功。
c
chihuoshenqi
75 楼
回复 70楼wdong的帖子

DDSM 是我一部分的 training data.

InBreast 只是 Test, 没有参加 Training.
s
shining_yg
76 楼
不是很理解隐私问题。 如果网友只是上传一张照片,没有个人信息,姓名年龄国籍等等,这个软件系统除了能得到照片,还能收集到什么个人信息呢?不要说是通过IP地址,那BBS上发照片那不是毫无隐私了?
e
emmajwan
77 楼
不是很理解隐私问题。 如果网友只是上传一张照片,没有个人信息,姓名年龄国籍等等,这个软件系统除了能得到照片,还能收集到什么个人信息呢?不要说是通过IP地址,那BBS上发照片那不是毫无隐私了?
shining_yg 发表于 5/17/2018 11:03:50 PM

你啥都不提供怎么给你反馈?
l
lanno
78 楼
Mark 乳腺癌
a
annielin
79 楼
作为半个内行人,我来说两句吧。也许LZ初衷是好的,不过这种免费平台的确有很多问题。

lz propose的这个听起来像收数据和clinical trial的结合体。不知道lz的设备是自己自费,场地是自己的吗?如果用的是学校的设备和场地,如果research涉及human subjects,那收数据之前必须要得到IRB approval。IRB approval是个非常rigorous的procedure。要向IRB board submit一个protocol,里面详细列举research的内容,怎么保护human subject的privacy,collect数据前一定要充分告知participant所可能的benefits和risk,等等。。。我第一次写IRB protocol的时候简直要写吐血了,光template本身就接近30页,方方面面非常细致。比如保护用户privacy真不是一句“我不会存图片”就完了的。

lz不会存图片,那你的deep learning可以处理streaming data吗?效果和处理batch data比过吗?目前的state-of-the-art来讲,deep learning还是需要海量数据batch处理才能得到比较满意的结果。本身breast cancer病人就是一个small population,这里又有几个会知道这个平台,会upload图片呢?这样收数据太limited,很难达到你想得到的效果。如果真是想做这方面研究,和医院合作是最effective的途径。clinical trial不太了解,估计会更复杂吧。之前用各种machine learning techniques,大家也只敢claim是做medical assistance,就是相当于给医生提供一个tool, 最后diagnosis必须要医生来做。所以目前怎么interpret machine learning结果是个很热的研究方向。如果只是个黑箱tool,最终的output只是个prediction,这样的tool没多大用。deep learning比传统machine learning还复杂还要难解释,所以离应用到clinical上还有一段距离的。

对于用这个平台的mm来说:submit前要充分了解可能的risks。不过目前关于risk细节提供的还不够,所以最好是不要submit。你的图片到底会不会被存储是未知的。即使lz无意侵犯你的隐私,但是还是有未知的隐私泄露风险的。比如learning的过程中图片的信息会被压缩成某种信息存起来吗?从这些信息里有没有可能recover original 信息?怎么保证设备不被别人access? 其次,如果你用这个平台,我觉得得到的结果也很难trust。即使这个model总体准确率是90%,谁知道你是不是被误判的那10%呢?目前的结果只在一个数据集上得到的,有没有overfit的可能?而且这个数据集有没有data imbalanced的问题?如果positive example很少,大部分是negative samples,Accuracy本身是非常misleading的,应该用precision recall F1-measure来衡量。所以最好还是去找医生作诊断,如果不trust一个医生,可以找多个医生。
不管哪种病的研究,都是很有意义的。现在很多医学上的进步都是从研究开始的。不过研究除了有benefit,也是有risk的。美国关于医学研究的各种rule,尽管繁复,还是有必要的。像前面mm说的,they exist for a reason。我觉得作研究不光要有passion,还应该follow 正确的practice,尤其是涉及human subjects的研究。
b
bulldogggg
80 楼
我差不多跟楼主是同行。建议你找个律师看看这个是不是合法的。
小心驶得万年船啊
a
annielin
81 楼
不是很理解隐私问题。 如果网友只是上传一张照片,没有个人信息,姓名年龄国籍等等,这个软件系统除了能得到照片,还能收集到什么个人信息呢?不要说是通过IP地址,那BBS上发照片那不是毫无隐私了?
shining_yg 发表于 5/17/2018 11:03:50 PM


提供这些信息应该会improve诊断效果的,即使什么也不提供,也不是说信息就完全安全的。之前netflix竞赛后来爆出有隐私安全问题,就是用netflix的匿名数据,match了一个public的数据,就能recover netflix user了。有个信息安全领域,专门有一批人研究怎么attack data privacy and security和怎么protect。

当然用户对privacy的要求不一样,有人比较care,有人不太care。不过IRB的guideline是一定要充分告知participant可能的风险(包括隐私泄漏和其他的一些风险),然后用户决定要不要参与这个研究。
T
Txrose
82 楼
大大的赞👍
r
ricepudding
83 楼
LZ,你现在需要一个前端程序员……
然后还有hippa training……
c
c.c.c.c.
84 楼
为什么我觉得有点可疑呢。lz为啥不和医院合作搞这个科研项目,自己弄app是个啥意思
c
chihuoshenqi
85 楼
回复 79楼annielin的帖子

从硬件到软件都是我自己的. 和任何学校或者公司没有关系,所以不需要走你所说的繁琐过程。不过谢谢你让我了解了这些情况。
E
EvaYan
86 楼
mark先,赞赞赞!
w
wojiuaihuaban
87 楼
这个要mark 一下
j
jiayusong
88 楼
搞dl的人表示很可疑
89 楼
哇好详细 赞👍


作为半个内行人,我来说两句吧。也许LZ初衷是好的,不过这种免费平台的确有很多问题。
lz propose的这个听起来像收数据和clinical trial的结合体。不知道lz的设备是自己自费,场地是自己的吗?如果用的是学校的设备和场地,如果research涉及human subjects,那收数据之前必须要得到IRB approval。IRB approval是个非常rigorous的procedure。要向IRB board submit一个protocol,里面详细列举research的内容,怎么保护human subject的privacy,collect数据前一定要充分告知participant所可能的benefits和risk,等等。。。我第一次写IRB protocol的时候简直要写吐血了,光template本身就接近30页,方方面面非常细致。比如保护用户privacy真不是一句“我不会存图片”就完了的。
lz不会存图片,那你的deep learning可以处理streaming data吗?效果和处理batch data比过吗?目前的state-of-the-art来讲,deep learning还是需要海量数据batch处理才能得到比较满意的结果。本身breast cancer病人就是一个small population,这里又有几个会知道这个平台,会upload图片呢?这样收数据太limited,很难达到你想得到的效果。如果真是想做这方面研究,和医院合作是最effective的途径。clinical trial不太了解,估计会更复杂吧。之前用各种machine learning techniques,大家也只敢claim是做medical assistance,就是相当于给医生提供一个tool, 最后diagnosis必须要医生来做。所以目前怎么interpret machine learning结果是个很热的研究方向。如果只是个黑箱tool,最终的output只是个prediction,这样的tool没多大用。deep learning比传统machine learning还复杂还要难解释,所以离应用到clinical上还有一段距离的。
对于用这个平台的mm来说:submit前要充分了解可能的risks。不过目前关于risk细节提供的还不够,所以最好是不要submit。你的图片到底会不会被存储是未知的。即使lz无意侵犯你的隐私,但是还是有未知的隐私泄露风险的。比如learning的过程中图片的信息会被压缩成某种信息存起来吗?从这些信息里有没有可能recover original 信息?怎么保证设备不被别人access? 其次,如果你用这个平台,我觉得得到的结果也很难trust。即使这个model总体准确率是90%,谁知道你是不是被误判的那10%呢?目前的结果只在一个数据集上得到的,有没有overfit的可能?而且这个数据集有没有data imbalanced的问题?如果positive example很少,大部分是negative samples,Accuracy本身是非常misleading的,应该用precision recall F1-measure来衡量。所以最好还是去找医生作诊断,如果不trust一个医生,可以找多个医生。
不管哪种病的研究,都是很有意义的。现在很多医学上的进步都是从研究开始的。不过研究除了有benefit,也是有risk的。美国关于医学研究的各种rule,尽管繁复,还是有必要的。像前面mm说的,they  exist for a reason。我觉得作研究不光要有passion,还应该follow 正确的practice,尤其是涉及human subjects的研究。

annielin 发表于 5/17/2018 23:35:00
a
annielin
90 楼
回复 79楼annielin的帖子

从硬件到软件都是我自己的. 和任何学校或者公司没有关系,所以不需要走你所说的繁琐过程。不过谢谢你让我了解了这些情况。

chihuoshenqi 发表于 5/18/2018 1:02:41 AM

软件相对容易,deep learning现在软件resource很多,很多作machine learning的phd都能实现类似model的。不过deep learning在computational resource上要求非常高,很难想象个人有这样的resource来做research。现在很多公司deep learning进展比学校快,就是因为公司有足够财力支持而且有海量数据。看lz的图片不太像在家里,难道是租的地方?除了先期的投入,还有运转和维护的cost吧。lz这么大的投入是纯慈善目的,是吗?以后会make it into a start-up or something profitable吗?不好意思,也许我是太孤陋寡闻了,用这么大的cost做non-profit research真是没见过。智能医疗这块目前是个大蛋糕,蛮多公司在投入这块,也很多start-up的。
如果真是non-profit,首先要膜拜一下lz,能投入这么多时间金钱很牛。不过deep learning on medical images如果想做的有impact,还是应该找公司和医院合作,单打独斗很难做好。具体有没有什么法规regulate我就不太了解了。不过既然lz目的是要benefit大众,那还是稍微花些时间在网站上把benefit和risk讲清楚。这个model到底有多好?test on一个dataset是不是有点少?有其它measure吗?有significance test吗?结果有多少可信度?Privacy方面都会collect什么数据,图片收到后会immediately处理并丢掉吗?做一个医疗app和作一个游戏app毕竟是不同的,多考虑一些ethical issues没坏处。
c
chihuoshenqi
91 楼
回复 90楼annielin的帖子

谢谢你的回复.

我的这个 GPU cluster 确实不是放在家里的。我的一个朋友有一个 Business. 我租了他的地下室放这几个 Rack.
B
BearPandaMonkey
92 楼
作为半个内行人,我来说两句吧。也许LZ初衷是好的,不过这种免费平台的确有很多问题。

lz propose的这个听起来像收数据和clinical trial的结合体。不知道lz的设备是自己自费,场地是自己的吗?如果用的是学校的设备和场地,如果research涉及human subjects,那收数据之前必须要得到IRB approval。IRB approval是个非常rigorous的procedure。要向IRB board submit一个protocol,里面详细列举research的内容,怎么保护human subject的privacy,collect数据前一定要充分告知participant所可能的benefits和risk,等等。。。我第一次写IRB protocol的时候简直要写吐血了,光template本身就接近30页,方方面面非常细致。比如保护用户privacy真不是一句“我不会存图片”就完了的。

lz不会存图片,那你的deep learning可以处理streaming data吗?效果和处理batch data比过吗?目前的state-of-the-art来讲,deep learning还是需要海量数据batch处理才能得到比较满意的结果。本身breast cancer病人就是一个small population,这里又有几个会知道这个平台,会upload图片呢?这样收数据太limited,很难达到你想得到的效果。如果真是想做这方面研究,和医院合作是最effective的途径。clinical trial不太了解,估计会更复杂吧。之前用各种machine learning techniques,大家也只敢claim是做medical assistance,就是相当于给医生提供一个tool, 最后diagnosis必须要医生来做。所以目前怎么interpret machine learning结果是个很热的研究方向。如果只是个黑箱tool,最终的output只是个prediction,这样的tool没多大用。deep learning比传统machine learning还复杂还要难解释,所以离应用到clinical上还有一段距离的。

对于用这个平台的mm来说:submit前要充分了解可能的risks。不过目前关于risk细节提供的还不够,所以最好是不要submit。你的图片到底会不会被存储是未知的。即使lz无意侵犯你的隐私,但是还是有未知的隐私泄露风险的。比如learning的过程中图片的信息会被压缩成某种信息存起来吗?从这些信息里有没有可能recover original 信息?怎么保证设备不被别人access? 其次,如果你用这个平台,我觉得得到的结果也很难trust。即使这个model总体准确率是90%,谁知道你是不是被误判的那10%呢?目前的结果只在一个数据集上得到的,有没有overfit的可能?而且这个数据集有没有data imbalanced的问题?如果positive example很少,大部分是negative samples,Accuracy本身是非常misleading的,应该用precision recall F1-measure来衡量。所以最好还是去找医生作诊断,如果不trust一个医生,可以找多个医生。
不管哪种病的研究,都是很有意义的。现在很多医学上的进步都是从研究开始的。不过研究除了有benefit,也是有risk的。美国关于医学研究的各种rule,尽管繁复,还是有必要的。像前面mm说的,they exist for a reason。我觉得作研究不光要有passion,还应该follow 正确的practice,尤其是涉及human subjects的研究。

annielin 发表于 5/17/2018 11:35:00 PM

thanks for sharing
P
Pigsqwerty
93 楼
支持有能力的人多为大家做事,你的idea很好。
但是我觉得,不需要second opinion, 不需要借片子。主要去好点的正规医院,医生发报告后自己要一份报告。里面清楚地写好: BI RAD分级, BI RAD 1 是正常。2 是 良性,年检就行。 3 是可能良性,但是要复查。4要化验。 BIRAD 4b 就比较可疑,但是还有机会良性。5 就超级可疑乳癌。
有些医生为了保护自己,即使BI RAD 5 都说只是对病人说建议做化验。如果你会看报告,就可以大概了解要不要犹豫一下要不要等半年。
f
fluffyball
94 楼
回复 1楼chihuoshenqi的帖子

HIPAA,楼主打算怎么处理???
c
chihuoshenqi
95 楼
回复 94楼fluffyball的帖子

关于这个 Concern, 请看 HIPPA 原文:



这个 App 既然是让用户自行使用并不保存数据的, Hippa Law 没有问题。
紫缄
96 楼
回复 79楼annielin的帖子

从硬件到软件都是我自己的. 和任何学校或者公司没有关系,所以不需要走你所说的繁琐过程。不过谢谢你让我了解了这些情况。

chihuoshenqi 发表于 5/18/2018 1:02:41 AM

这种设计病人隐私的操作都需要be hippa compliant, 不管你是个人还是在学校或者公司
z
zhengxumaomao
97 楼
作为半个内行人,我来说两句吧。也许LZ初衷是好的,不过这种免费平台的确有很多问题。

lz propose的这个听起来像收数据和clinical trial的结合体。不知道lz的设备是自己自费,场地是自己的吗?如果用的是学校的设备和场地,如果research涉及human subjects,那收数据之前必须要得到IRB approval。IRB approval是个非常rigorous的procedure。要向IRB board submit一个protocol,里面详细列举research的内容,怎么保护human subject的privacy,collect数据前一定要充分告知participant所可能的benefits和risk,等等。。。我第一次写IRB protocol的时候简直要写吐血了,光template本身就接近30页,方方面面非常细致。比如保护用户privacy真不是一句“我不会存图片”就完了的。

lz不会存图片,那你的deep learning可以处理streaming data吗?效果和处理batch data比过吗?目前的state-of-the-art来讲,deep learning还是需要海量数据batch处理才能得到比较满意的结果。本身breast cancer病人就是一个small population,这里又有几个会知道这个平台,会upload图片呢?这样收数据太limited,很难达到你想得到的效果。如果真是想做这方面研究,和医院合作是最effective的途径。clinical trial不太了解,估计会更复杂吧。之前用各种machine learning techniques,大家也只敢claim是做medical assistance,就是相当于给医生提供一个tool, 最后diagnosis必须要医生来做。所以目前怎么interpret machine learning结果是个很热的研究方向。如果只是个黑箱tool,最终的output只是个prediction,这样的tool没多大用。deep learning比传统machine learning还复杂还要难解释,所以离应用到clinical上还有一段距离的。

对于用这个平台的mm来说:submit前要充分了解可能的risks。不过目前关于risk细节提供的还不够,所以最好是不要submit。你的图片到底会不会被存储是未知的。即使lz无意侵犯你的隐私,但是还是有未知的隐私泄露风险的。比如learning的过程中图片的信息会被压缩成某种信息存起来吗?从这些信息里有没有可能recover original 信息?怎么保证设备不被别人access? 其次,如果你用这个平台,我觉得得到的结果也很难trust。即使这个model总体准确率是90%,谁知道你是不是被误判的那10%呢?目前的结果只在一个数据集上得到的,有没有overfit的可能?而且这个数据集有没有data imbalanced的问题?如果positive example很少,大部分是negative samples,Accuracy本身是非常misleading的,应该用precision recall F1-measure来衡量。所以最好还是去找医生作诊断,如果不trust一个医生,可以找多个医生。
不管哪种病的研究,都是很有意义的。现在很多医学上的进步都是从研究开始的。不过研究除了有benefit,也是有risk的。美国关于医学研究的各种rule,尽管繁复,还是有必要的。像前面mm说的,they exist for a reason。我觉得作研究不光要有passion,还应该follow 正确的practice,尤其是涉及human subjects的研究。

annielin 发表于 5/17/2018 11:35:00 PM


纯外行来请教一下mm, 不太理解这个图片即使被原图储存了,对用户的影响是什么呢?相比之下论坛上发帖回帖泄露的隐私不是更多么
e
ehe888
98 楼
如果用户以匿名的方式提交图片和个人信息,是否就不违反HIPPA了?
耳又易物
99 楼
楼已经歪得不像样子了。

LZ心里肯定是热了狗了
c
chihuoshenqi
100 楼
更新了一个新的 Model.