博士论文求教:pathway marker怎么用来预测癌症

g
gooog
楼主 (北美华人网)
老板让我做的博士论文。
传统是用蛋白质表达水平来预测癌症。老板让我用pathway来预测。
我完成了训练集的数据分析,也找出了pathway markers,机器学习建模也完成了。 cross-validation显示结果也不错。论文初稿写出来,给个答辩委员会的老中教授审。
这个老中教授,轻描淡水地问了个问题。
“你这个模型,将来怎么预测病人呢?假设病人只有一个。”
我一下傻了。因为一个病人,是无法做pathway enrichment analysis的,即使有蛋白质表达水平。
请问,我该怎么修改这篇博士论文。
k
kittyandme
没懂。你做出来一个预测模型。这个病人的指标去跟你模型比对啊。
g
gooog
没懂。你做出来一个预测模型。这个病人的指标去跟你模型比对啊。
kittyandme 发表于 2024-02-01 16:16

这个属于生物的概念。
基因 和 pathway 基因是原始数据,pathway是分析后得到的数据。
训练集能从基因转换到pathway。
而测试集不能。
J
Jicama
为什么测试集不能从基因转到pathway,没做基因检测么?
你这儿说的pathway analysis 是不是类似于KEGG pathway analysis 基于RNA表达水平的?这种一个病人的也可以做啊。
感觉这应该是个很基本的问题。

g
gooog
为什么测试集不能从基因转到pathway,没做基因检测么?
你这儿说的pathway analysis 是不是类似于KEGG pathway analysis 基于RNA表达水平的?这种一个病人的也可以做啊。
感觉这应该是个很基本的问题。


Jicama 发表于 2024-02-01 16:27

对。就是KEGG pathway。
一个病人的不能。
你举个例子,一个病人的,也能做。

Y
YTD1Smore
啥样的癌症只有一个病人?牙癌吗?真是杠得可以。假设只有一个病人的病,怎么不假设嘴比天大呢?如果确是小众疾病,模型就不适合呗。哪有一个模型包打天下适用百病的。只要你的模型能适用于任何一种癌症能高精度预测就是大功一件了。
P
Prionlike
单人sample横向转纵向。
KEGG 里每个pathway 都有包括的子集protein。单个病人proteomics or RNAseq 数据,里面每一个protein/gene, 你放到healthy group 的区间里给个percentile的评分,然后某pathway给个总分评估模拟 dysregulation的程度。
g
gooog
啥样的癌症只有一个病人?牙癌吗?真是杠得可以。假设只有一个病人的病,怎么不假设嘴比天大呢?如果确是小众疾病,模型就不适合呗。哪有一个模型包打天下适用百病的。只要你的模型能适用于任何一种癌症能高精度预测就是大功一件了。

YTD1Smore 发表于 2024-02-01 16:32

训练集有100个病人。这个模型建好了。就给医生用。 医生每次用的时候,来访的病人只有一个。
J
Jicama
对。就是KEGG pathway。
一个病人的不能。
你举个例子,一个病人的,也能做。


gooog 发表于 2024-02-01 16:30

我不是做这个的,但是以前看过一个vendor的demo说到这个,你看看他们有没有tutorial讲具体的? https://www.partek.com/partek-flow/
如果我理解的对的话,你的pathway算法是需要至少两个组(control vs sample)进行比对么?那你用的的control是什么?把他们作为baseline patient group,可以用来算要测试的单个病人的 pathway 结果么?
还是你的 pathway 算法不仅需要control组,sample组病人数量还不能太低?
g
gooog
我不是做这个的,但是以前看过一个vendor的demo说到这个,你看看他们有没有tutorial讲具体的? https://www.partek.com/partek-flow/
如果我理解的对的话,你的pathway算法是需要至少两个组(control vs sample)进行比对么?那你用的的control是什么?把他们作为baseline patient group,可以用来算要测试的单个病人的 pathway 结果么?
还是你的 pathway 算法不仅需要control组,sample组病人数量还不能太低?
Jicama 发表于 2024-02-01 16:46

partek用过。 对,需要两组。 control vs cancer
训练集有这两组数据。所以可以生成pathway。
医生问诊的时候,来的病人,状态未知(如果知道了,还需要去预测干啥呢?) 所以无法生成pathway
P
Prionlike
partek用过。 对,需要两组。 control vs cancer
训练集有这两组数据。所以可以生成pathway。
医生问诊的时候,来的病人,状态未知(如果知道了,还需要去预测干啥呢?) 所以无法生成pathway
gooog 发表于 2024-02-01 16:52

你对这个应用场景的理解就是有偏差的。 multiomics的数据预测根本就不是应用于初诊的。初诊也拿不到 omics的data。
正确定位大多数是精准医疗,药物响应,预测预后。
g
gooog
你对这个应用场景的理解就是有偏差的。 multiomics的数据预测根本就不是应用于初诊的。初诊也拿不到 omics的data。
正确定位大多数是精准医疗,药物响应,预测预后。
Prionlike 发表于 2024-02-01 16:58

如果连这个初诊也做不了。后面的精准医疗,药物响应,预测预后 更难弄。
J
Jicama
partek用过。 对,需要两组。 control vs cancer
训练集有这两组数据。所以可以生成pathway。
医生问诊的时候,来的病人,状态未知(如果知道了,还需要去预测干啥呢?) 所以无法生成pathway
gooog 发表于 2024-02-01 16:52

那这个control vs cancer 算pathway score的时候对每组数量有要求么?比如说,至少每组有三个人。

g
gooog
那这个control vs cancer 算pathway score的时候对每组数量有要求么?比如说,至少每组有三个人。


Jicama 发表于 2024-02-01 17:12

对。每组至少10个。这个已经满足了。
J
Jicama
partek用过。 对,需要两组。 control vs cancer
训练集有这两组数据。所以可以生成pathway。
医生问诊的时候,来的病人,状态未知(如果知道了,还需要去预测干啥呢?) 所以无法生成pathway
gooog 发表于 2024-02-01 16:52

假设你的模型是正确的,pathway score能够区分是否是癌症病人。
退一步说,你应该已经做过specificity evaluation.就是 pathway analysis 这部control vs cancer 你用两组 healthy的数据,算出来pathway score,然后放到你的模型看结果是不是negative.
我觉得可能你得再仔细想一想你的 workflow design.不要陷入循环自证的陷阱里去。
J
Jicama
对。每组至少10个。这个已经满足了。
gooog 发表于 2024-02-01 17:13

那你这个设计一开始每个预测对象就不是一个人,而是一群人。

T
TEMUPDD
楼主,这个问题是你老板让你上来问的吗?
不是的话难道你不是先应该问他?
l
l4528
你论文的核心不就是model prediction performace吗?应该有量化指标或危险预测,auc 或 or之类的,可以作为指导预测其他病人的依据。
g
gooog
那你这个设计一开始每个预测对象就不是一个人,而是一群人。


Jicama 发表于 2024-02-01 17:19

这类论文很多。太多了。铺天盖地。
Identification of Pathway-Based Biomarkers with Crosstalk Analysis for Overall Survival Risk Prediction in Breast Cancer
https://www.frontiersin.org/articles/10.3389/fgene.2021.689715/full
g
gooog
楼主,这个问题是你老板让你上来问的吗?
不是的话难道你不是先应该问他?
TEMUPDD 发表于 2024-02-01 17:21

我想先自己琢磨琢磨,再去面见老板。 免得被老板说我无知。连这也不会。
J
Jicama
回复 19楼gooog的帖子
那你从这些paper里学学怎么每个病人都算出来一个pathway score呀, 比如说你link的这篇Methods里面就写了
Pathway Activity Score The pathway activity score (PAS) for each dataset was calculated based on the method proposed by Bhandari et al. (Bhandari et al., 2019). We downloaded all pathways from the gene ontology (GO) database (http://geneontology.org/) and generated a new mRNA expression matrix that contains only genes that exist in it for each pathway. After that, for each gene, based on its expression level, we classified the tumors into two subgroups, the samples in the higher group were scored +1, while the others were scored −1. Finally, we averaged all gene scores in this pathway as the pathway activity score for each tumor sample. A higher PAS indicates a higher pathway activity in the sample, and otherwise, a lower score means lower activity in the sample.
你之前需要10个病人才能算一个pathway score 肯定是不行的。
g
geneontology
这个问题其实超级难,特别是定量数据特有的batch effect。 很多时候我们需要一群人来做z-score transformation,一个人很难。
l
l4528
这个问题其实超级难,特别是定量数据特有的batch effect。 很多时候我们需要一群人来做z-score transformation,一个人很难。
geneontology 发表于 2024-02-01 17:47

理论上不难,personalized medicine 的核心是当数据量足够大、预测模型足够准确后,每个人根据这些预测变量都可以计算一个risk score,根据risk score分组对应自己所在的位置来估算自己发病风险,这大概就是人家问的意思。
g
gooog
回复 19楼gooog的帖子
那你从这些paper里学学怎么每个病人都算出来一个pathway score呀, 比如说你link的这篇Methods里面就写了
Pathway Activity Score The pathway activity score (PAS) for each dataset was calculated based on the method proposed by Bhandari et al. (Bhandari et al., 2019). We downloaded all pathways from the gene ontology (GO) database (http://geneontology.org/) and generated a new mRNA expression matrix that contains only genes that exist in it for each pathway. After that, for each gene, based on its expression level, we classified the tumors into two subgroups, the samples in the higher group were scored +1, while the others were scored −1. Finally, we averaged all gene scores in this pathway as the pathway activity score for each tumor sample. A higher PAS indicates a higher pathway activity in the sample, and otherwise, a lower score means lower activity in the sample.
你之前需要10个病人才能算一个pathway score 肯定是不行的。
Jicama 发表于 2024-02-01 17:45

谢谢你读了这篇文章。 我就是仿这篇文章做的。
做到最后,才发现,在问诊的病人中,我们不知道这个病人是癌症病人,还是正常人。
所以没法计算出这个PAS。
所以这个方法失败了。
g
gooog
这个问题其实超级难,特别是定量数据特有的batch effect。 很多时候我们需要一群人来做z-score transformation,一个人很难。
geneontology 发表于 2024-02-01 17:47

你提到的这个是另外一个challenge。normalization/transformation。
如果训练集有了normalization。测试集的normalization怎么办?
我也遇到了这个问题。你有什么好方法?
你用什么transformation和normalization针对training set?
又用什么transformation和normalization针对testing set呢?
g
gooog
理论上不难,personalized medicine 的核心是当数据量足够大、预测模型足够准确后,每个人根据这些预测变量都可以计算一个risk score,根据risk score分组对应自己所在的位置来估算自己发病风险,这大概就是人家问的意思。
l4528 发表于 2024-02-01 18:19

geneontology说的意思和你还是有不同。
你的这个risk score,在计算中其实就会面临normalization/transformation的挑战,而变得有误差。 这就是geneontology的意思。
g
gooog
这个问题其实超级难,特别是定量数据特有的batch effect。 很多时候我们需要一群人来做z-score transformation,一个人很难。
geneontology 发表于 2024-02-01 17:47

有意思。我发现你就是做gene ontology的。肯定明白我的意思。
当你用一个GO term来作为marker的时候,是如何让它在测试集中也大显身手呢?
在训练集中,无疑,它的性能将是非常好的。
g
gooog
这个问题其实超级难,特别是定量数据特有的batch effect。 很多时候我们需要一群人来做z-score transformation,一个人很难。
geneontology 发表于 2024-02-01 17:47

请问,你在测试集里,用z-score transformation吗? 这个可能会把同样的数,但是在training set,和testing set,他们转换后的新数,完全不一样。 如你所说。
有没有大牛有解决这个normaliztion/transformation的好方法?
J
Jicama
谢谢你读了这篇文章。 我就是仿这篇文章做的。
做到最后,才发现,在问诊的病人中,我们不知道这个病人是癌症病人,还是正常人。
所以没法计算出这个PAS。
所以这个方法失败了。
gooog 发表于 2024-02-01 18:55

我不明白你为什么要知道数据点是癌症病人还是正常人。
这篇文章所有data都是癌症病人,区别是survial长vs 短。对应于你的普通人vs癌症患者。
里面建feature matrix除了找critical pathways这步用到了survival信息,PAS分数计算并不需要病人survival。 就是只看这些critical pathway,里面的基因表达量高的那些人得1分,低的得-1分(这里涉及到normalize/scale和threshold),加起来,就是这个人这个pathway 的分数。然后在此基础上cluster 发现的确可以分两群,survival还分的很开,然后建ML model 预测survival长短,在各个cohort里验证。
那对你来说也是一样的流程。模型建好了之后,这时候再有一个新病人数据,假设病人demographics(年龄种族etc) 类似,同样的assay + sequencing platform+ bioformatics tool RNA expression calculation/normalization/scale, 那根据之前确定好的n个critical pathway, 和之前定好的threhold算+1/-1,加起来算PAS, 先和之前training set 一起cluster一下看看是不是的确没有太不一样, 然后用已经train好的ML model算结果就好了。
J
Jicama
你对这个应用场景的理解就是有偏差的。 multiomics的数据预测根本就不是应用于初诊的。初诊也拿不到 omics的data。
正确定位大多数是精准医疗,药物响应,预测预后。
Prionlike 发表于 2024-02-01 16:58

的确,通常流程是诊断出来了癌症 ,手术拿到了组织样本,然后送去基因检测,才有RNA exprssion数据. 所谓的tumor/normal指的是同一个人的肿瘤组织和周边的正常组织。
如果根本不知道病人有没有得癌症,不可能有组织样本去做检测, 这个project可能一开始就缺乏应用场景。
除非是抽血检测cell free RNA expression,那training set需要的也是cancer/healthy病人的cell free RNA的数据,我很怀疑楼主用的是不是这个。



v
veroandryan
华人里面牛人辈出啊,字全认识又全不认识。
g
gooog
我不明白你为什么要知道数据点是癌症病人还是正常人。
这篇文章所有data都是癌症病人,区别是survial长vs 短。对应于你的普通人vs癌症患者。
里面建feature matrix除了找critical pathways这步用到了survival信息,PAS分数计算并不需要病人survival。 就是只看这些critical pathway,里面的基因表达量高的那些人得1分,低的得-1分(这里涉及到normalize/scale和threshold),加起来,就是这个人这个pathway 的分数。然后在此基础上cluster 发现的确可以分两群,survival还分的很开,然后建ML model 预测survival长短,在各个cohort里验证。
那对你来说也是一样的流程。模型建好了之后,这时候再有一个新病人数据,假设病人demographics(年龄种族etc) 类似,同样的assay + sequencing platform+ bioformatics tool RNA expression calculation/normalization/scale, 那根据之前确定好的n个critical pathway, 和之前定好的threhold算+1/-1,加起来算PAS, 先和之前training set 一起cluster一下看看是不是的确没有太不一样, 然后用已经train好的ML model算结果就好了。

Jicama 发表于 2024-02-01 20:33

好详细。
PAS分数计算需要病人的survival信息。需要high group和low group
这个对应我的癌症和正常。
J
Jicama
好详细。
PAS分数计算需要病人的survival信息。需要high group和low group
这个对应我的癌症和正常。
gooog 发表于 2024-02-01 21:10

我觉得你是不是理解错了,这里的 high group和low group指的是gene expression high/low.
"After that, for each gene, based on its expression level, we classified the tumors into two subgroups, the samples in the higher group were scored +1, while the others were scored −1"
a
awesomeiris
你的模型是找到了pathway genes,还是一个量化的scoring system?我猜应该是后者,否则没什么意义。
无论如何,这离patient 诊断还很遥远。基本没有大机构,没有至少10米的投入,和几年时间,不可能做出来。教授大概是希望你往后面多想想。也就是hypothetically 后面还要做什么。论文不用改。知道怎么答问题就行。
紫心汤圆
从医药的角度理解,你老板完全不懂行
他的思路就有问题,一个病人也敢搞pathway prediction,你就直接告诉他 要么false positive, or false negative, lack of implications on clinical guidance, will misguide healthcare providers.
J
JamieLe
回复 28楼gooog的帖子
No offense,but每次看到把assay dev和数据分析decouple 就很无奈…
a
awesomeiris
回复 28楼gooog的帖子
No offense,but每次看到把assay dev和数据分析decouple 就很无奈…
JamieLe 发表于 2024-02-01 22:23

所以说都是hypothetical。别较真
b
babybaby
你的input data究竟是啥?没有任何assay或者profiling数据怎么做预测?
q
qwewhatever
不懂,看起来很复杂,有没有可能问一下提出问题的教授?他既然这样问,也许心里有答案。
g
gooog
你的模型是找到了pathway genes,还是一个量化的scoring system?我猜应该是后者,否则没什么意义。
无论如何,这离patient 诊断还很遥远。基本没有大机构,没有至少10米的投入,和几年时间,不可能做出来。教授大概是希望你往后面多想想。也就是hypothetically 后面还要做什么。论文不用改。知道怎么答问题就行。
awesomeiris 发表于 2024-02-01 21:25

多谢!今天和我老板谈了。他也说不用改。回答一下教授们的质疑就可以了。 另外,老板告诉我他的钱快用完了,让我抓紧答辩走人。
r
rmrf
ssGSEA了解下