microsat 发表于 2024-05-18 02:56 请问这样设计实验来识别早期癌症的biomarker,为什么不对? 收集100个正常人(A),100个stage I的癌症患者(B)。 做RNA Sequencing,然后比较A和B,得出1000个differentially expressed的genes。这就是早期癌症biomarker,因为它们能识别出最早的癌症stage(stage I)。
MMitchell 发表于 2024-05-18 07:56 科研可以这样做。临床试验需要另外做。
谢谢! 仅仅是科研。 如果把试验变成下面这样,可行吗? 收集100个stage I的癌症患者(A),100个stage II, or above 的癌症患者(B)。 做RNA Sequencing,然后比较A和B,得出1000个differentially expressed的genes。这就是早期癌症biomarker,因为它们能从癌症患者中识别出最早的癌症stage(stage I)。 microsat 发表于 2024-05-18 11:29
ragond 发表于 2024-05-18 08:16 参考:伊丽莎白·霍尔姆斯(Elizabeth Holmes)是Theranos公司的创始人,该公司曾声称通过一滴血就能进行多种身体化验,这一概念在医疗界引起了极大的关注
个人觉得这个还不如第一个设计。 假设 正常人是0 Stage I 是 1 Stage 2 是 2 从0到1的变化可能远远大于从1到2的变化。 如果你能多组学不断narrow down可能会圈到数量少的有用的基因,如果是1000个基因好像太难下手了,现实意义不够。 xiahuaxian 发表于 2024-05-18 13:11
tataguru 发表于 2024-05-18 14:48 请问你收集啥组织?
收集100个正常人(A),100个stage I的癌症患者(B)。 做RNA Sequencing,然后比较A和B,得出1000个differentially expressed的genes。这就是早期癌症biomarker,因为它们能识别出最早的癌症stage(stage I)。
这个需要做完了看结果再来决定能不能用,
谢谢!
仅仅是科研。
如果把试验变成下面这样,可行吗?
收集100个stage I的癌症患者(A),100个stage II, or above 的癌症患者(B)。 做RNA Sequencing,然后比较A和B,得出1000个differentially expressed的genes。这就是早期癌症biomarker,因为它们能从癌症患者中识别出最早的癌症stage(stage I)。
个人觉得这个还不如第一个设计。
假设
正常人是0 Stage I 是 1 Stage 2 是 2
从0到1的变化可能远远大于从1到2的变化。
如果你能多组学不断narrow down可能会圈到数量少的有用的基因,如果是1000个基因好像太难下手了,现实意义不够。
其实概念是对的,就是太超前了,说的是未来的科技
Re, 楼主如何定义“differentially expressed genes"? 是“有“和“无”的区别,还是“极少量”和“较多”的区别?表达量的区分线划在哪里?
这个实验设计只会得到大量错综复杂没法分析的数据。极有可能会漏掉真正有用的 identifier,因为被埋没在大量相关联数据里,然后被挑选出的一众 candidate genes 的表达量在实际癌症筛选中给出大量假阴和假阳结果,因为之前对表达量区分线的划定就不对
做科研的,哪怕是有一些遗传学统计背景科研的,找biomarkers的时候最好也有一些医学统计常识。比如上面大家说的不同癌症的biomarkers也许完全不同。病人的demographic信息也会对结果有影响。做分析之前怎么定义 cutoff,怎么stratify,control怎么选,都要考虑。
要不然那就什么结果都是Posthoc,exploratory。后续还要做confirmatory研究。
当然大家几十年来一直都这样做。但是早年再烂的研究都有机会捞大鱼。大鱼能经得住时间和条件的考验。现在几乎已经没有单个的大鱼可捞了。
要发好文章,干湿结合,多组学结合。
组织收集会很无可奈何。
曾经尝试性做了20例癌组织和癌旁组织(病人手术拿下来的),最后结果很乱,实在无法分析。
谢谢! 也许我没说清楚。我想设计的是如何能早期诊断癌症。越早越好。
我想问的是,如果我们用cross-sectional的方法,能实现这一目的吗? 为什么不能?
我上面的两个设计 正常vs stage I和stage I vs stage II,都是cross-sectional的。
下面我用早孕试纸测试怀孕来阐明。
如果要研究一种新早孕测试方法,该如何设计这个实验呢? 我这样做对不对。 找出100个没怀孕的妇女,找出100个B超显示怀孕的妇女,然后做RNA-seq分析。找到Differentially expressed genes。 大家说这个方法为什么行不通?
第二个方法。 找出100个用早孕试纸A测试怀孕的妇女(排卵后第7天),找出100个B超显示怀孕的妇女(排卵后第60天),然后做RNA-seq分析。找到Differentially expressed genes。 这个方法可行吗?这样找出的markers到底是干什么的marker是?
癌症和怀孕我觉得完全不一样。癌症个体差异很大,同一种癌症不同人可能都不一样(所以才有精准医学的概念)。但是一旦怀孕了HCG都会增高,个体间几乎没有差异,所以容易捞到关键分子。
癌症发生是因为出现了异常,这种异常可能在不同水平。RNA-Seq只是在RNA转录水平,还有蛋白水平,表观水平,代谢水平,现在还有肠道菌群水平,等等等等。所以我说单纯RNA-Seq捞到关键分子的可能性比较小。另外,RNA-Seq已经不热了。
还有,我前面说了,0到1和1-2的差别可能完全不一样,用RNA-Seq的q value可能看不到,也可能看到的不是真正的biomarker。
你要的是biomarker,不是data marker。
个人观点,不敢说百分百对。
你这个方法总体思路是对的,但是需要考虑更多的问题,例如confounding,sample size, statistical power, multiple comparison等等。marker和模型确定了以后,需要做independent validation.
按照这个思路去做科研的非常多。甚至用类似的思路开发FDA approved的产品也有例子,不一定非要是diagnostic marker, 做prognostic marker这么做的也有。