人工智能异常火爆。人工智能是基于统计数据分析的。 人们常说,“拿数据说话”,仿佛,一切基于数据的统计分析结果都可信赖。 但是,统计本身却有很多局限性,甚至其结果都是错误的(我们先不讨论数据存在bias,我们假设数据都是绝对可靠的)。但是人们还是拿着错误的分析结果到处发表高水平(nature和science)的论文。 请大家举例来分析一下,为什么统计本身有局限性?为何人工智能藏着猫腻? 我先举个例子。 SNP的mediation分析。 X->M->Y 这里X是基因A的表达, M是SNP, Y是另一个基因B的表达 也就是SNP能参与基因A对基因B的表达的调控。 基因A和B的表达来自同一RNA-sequencing。 SNP来自另一个GWAS实验。GWAS实验和RNA-sequencing是同时进行的。 请问这种实验用mediation分析得出的结果可靠吗?其弊端在哪儿? miked 发表于 2025-05-15 10:05
laohua001 发表于 2025-05-15 10:53 再有给你讲一下,统计的基石之一”概率“的真实故事。 机缘巧合,我认识一个开赌场的人,我给他说,你们用概率设计赌博游戏,就2%的概率差别,能挣的盆满钵满。 这话一出。这人差点笑死,说我是书生。他说,靠概率,赌场还没挣到钱,恐怕都倒闭了。 赌场没有一家不是通过作弊挣钱的,记住没有一家不作弊。
adugduzhou 发表于 2025-05-15 12:10回复 6楼 miked 的帖子 你这个逻辑就是错的,SNP是与生俱来的,怎么可能X会影响SNP。。。
There are liars, damn liars, and statisticians. 高云风 发表于 2025-05-15 12:11
但是,统计本身却有很多局限性,甚至其结果都是错误的(我们先不讨论数据存在bias,我们假设数据都是绝对可靠的)。但是人们还是拿着错误的分析结果到处发表高水平(nature和science)的论文。
请大家举例来分析一下,为什么统计本身有局限性?为何人工智能藏着猫腻?
我先举个例子。
SNP的mediation分析。
X->M->Y
这里X是基因A的表达, M是SNP, Y是另一个基因B的表达
也就是SNP能参与基因A对基因B的表达的调控。
基因A和B的表达来自同一RNA-sequencing。 SNP来自另一个GWAS实验。GWAS实验和RNA-sequencing是同时进行的。
请问这种实验用mediation分析得出的结果可靠吗?其弊端在哪儿?
其实数据分析必须以实际应用为基础,数据前期不是考察数据的统计,而是考试数据是否可靠,是不是在所在领域有实际意义,数据测量和收集是否准确。。。。。
专家肉眼看不到的意义通常统计出意义也没用。 这就是为啥,任何数据到我手里,我都趋向于目测分析。
说句不好听的,统计理论指导下的数据分析就是“算命”, 而且你想要啥结论就可以得到啥结论。
再有就是数据分析人员应该是本领域的专家或closely work with 本领域专家才行。
有些搞数据分析的人太绝对了。
再有,为什么现在学术界特别推崇数据分析。 因为,人和人对数据分析的认识不同,不同领域的人对不同领域的结果评价也不同。 所以,在评价结果时(比如发文章), 与其大家吵架,不如统一认识,这个科学家之间的话事人就是”统计学“。但是,真理真的在大多数人承认的统计学里吗?
多谢!听统计大牛讲解就是受益匪浅。
你对这个mediation 分析也了解吧。 能对当前统计学术界对这个mediation分析的发表一下评论吗?
X->M->Y
X,M,Y可以同时测量得出吗?
另外,如何看待X->M, 必须pvalue重要。而这个pvalue重要,昨天讨论过,即使pvalue很小,很可能X和M之间肉眼都观察不到存在任何关系。
X+M -> Y 同上一样的问题。
这个mediation统计方法问题多多。结论非常不可靠。但是我又无法反驳。因为缺乏统计大牛在这个方向上 的指导建议和步骤。
请大家踊跃发言讨论这个mediation。
你这个逻辑就是错的,SNP是与生俱来的,怎么可能X会影响SNP。。。
你认为基因不能影响SNP吗?只能SNP影响基因? 我们都认为环境可以影响SNP,为什么不能接受基因也能影响SNP呢? 因为我们完全可以猜想,环境改变了,导致基因变异了,变异的基因进而影响到了SNP。这个猜想完全合理。
在我们继续上面这个讨论时,我想问个新问题。
上面的基因和SNP还是我们比较熟知的话题,如果不熟知,比方说,任意两个测量的变量A和B,就拉过来 做mediation分析。因为没人知道时A影响B,还是B影响A。或者,有学者说A影响B,但也有学者说B影响A。 或者说,所有学者都说A影响B,但是从来没有任何实际的证明。
在这样的情况下,你来研究A,B之间的调控关系。自然非常新颖,容易发高水平论文。但是 在方法学上,我们应该注意什么呢?
做mediation分析,应该先满足哪些假设条件? 如果这些条件没有满足,我们能够不让作者的论文接收吗?比如hidden confounder。这一条几乎没人能满足。
请问X->M->Y
中的箭头,可以用猜想来代替吗?
比如geneA -> SNP -> geneB.
我们有这3者之间的association分析,且都非常strong, geneA -- SNP -- geneB. 唯一缺的就是这个箭头。
我们可以用猜想吗?
或者用零星的前人发表的低水平论文来代替。比如:某某论文作者发现geneA 调控SNP。某某论文作者发现SNP调控geneB. 我的这个研究就是测试 geneA -> SNP -> geneB是否成立。 注意:geneA 调控SNP和SNP调控geneB,还没有被广泛认可。如果已经被广泛认可了,也轮不到我们来研究geneA -> SNP -> geneB是否成立,因为早就被人抢着做了。 在geneA 调控SNP和SNP调控geneB,还没有被广泛认可之前,怎么来 测试 geneA -> SNP -> geneB是否成立?