线性回归中的很小pvalue如何理解?

m
miked
楼主 (北美华人网)
两个变量X和Y,数据见图。肉眼看,X和Y之间没有关系。
线性回归分析 lm(Y~X)
X系数对应的pvalue 却显示重要。
Coefficients:       Estimate Std. Error t value Pr(>|t|)    (Intercept) 0.46836  0.02063 22.703  <2e-16 *** X      0.08252  0.03468  2.379  0.0176 **
请问如何理解这个p-value = 0.0176 < 0.05呢。
effect of X on Y is significant?
在下这个结论的时候,需要考虑模型的Adjusted R-suqared 吗?
如果Adjusted R-suqared 非常低,那么就不能说effect of X on Y is significant。 对吗?

肉眼看不出关系的两个变量,为啥线性分析,却能得出pvalue很重要? 这是不是说明线性分析并非万能?


b
blushpeony
significant at 5% level
d
destiny2008
p-value = 0.0176 < 0.05 表明在这个回归模型中,变量 X 对 Y 的边际线性效应在统计学上显著。 但如果 Adjusted R-squared 很低说明整个模型的解释力极弱,也就是说,虽然“显著”,但“没用”。
m
miked
significant at 5% level
blushpeony 发表于 2025-05-13 13:34

是设定在5%。但是这个太离谱了。 肉眼根本看不出X和Y存在关联。
但是线性分析,给出的p-value确是重要的。
有统计大牛,深度研究过这个问题吗?这是不是说明:当前我们用的线性回归,其实是有局限性的。并不准确?
m
miked
destiny2008 发表于 2025-05-13 13:36
p-value = 0.0176 < 0.05 表明在这个回归模型中,变量 X 对 Y 的边际线性效应在统计学上显著。 但如果 Adjusted R-squared 很低说明整个模型的解释力极弱,也就是说,虽然“显著”,但“没用”。

把这两个连起来呢?我们能说,“X和Y没有关系” 吗?
有教科书上说,做线性分析的时候,p-value需要和adjusted R-squared统一起来一起下结论吗?
网上都是p-value < alpha, 就一锤定音的。
这幅图X和Y,是我精心设计的。目的就是要研究线性回归的缺点。 实际的X和Y是独立的两个随机数。他们两个之间,没有任何的关系。
这也就是我一开始问,“如果p-value < 0.05, 但是adjusted R-squared < 0.1, 我们可以下结论, X和Y没有关系吗?“
c
crichris
miked 发表于 2025-05-13 13:32
两个变量X和Y,数据见图。肉眼看,X和Y之间没有关系。
线性回归分析 lm(Y~X)
X系数对应的pvalue 却显示重要。
Coefficients:       Estimate Std. Error t value Pr(>|t|)    (Intercept) 0.46836  0.02063 22.703  <2e-16 *** X      0.08252  0.03468  2.379  0.0176 **
请问如何理解这个p-value = 0.0176 < 0.05呢。
effect of X on Y is significant?
在下这个结论的时候,需要考虑模型的Adjusted R-suqared 吗?
如果Adjusted R-suqared 非常低,那么就不能说effect of X on Y is significant。 对吗?

肉眼看不出关系的两个变量,为啥线性分析,却能得出pvalue很重要? 这是不是说明线性分析并非万能?



说明不是0
q
qianqiuxue
destiny2008 发表于 2025-05-13 13:36
p-value = 0.0176 < 0.05 表明在这个回归模型中,变量 X 对 Y 的边际线性效应在统计学上显著。 但如果 Adjusted R-squared 很低说明整个模型的解释力极弱,也就是说,虽然“显著”,但“没用”。

re
p-value significant 只说明斜率不是零----确信有关系 R2低,或者low correlation,或者effect不高说明没有实质性关系 跟林徽因和徐志摩的关系差不多
q
qianqiuxue
crichris 发表于 2025-05-13 14:09
说明不是0

嗯,准确的说是 ‘如果assume线性model的话’,95%确信斜率不是零
I
Inferno
miked 发表于 2025-05-13 13:43
把这两个连起来呢?我们能说,“X和Y没有关系” 吗?
有教科书上说,做线性分析的时候,p-value需要和adjusted R-squared统一起来一起下结论吗?
网上都是p-value < alpha, 就一锤定音的。
这幅图X和Y,是我精心设计的。目的就是要研究线性回归的缺点。 实际的X和Y是独立的两个随机数。他们两个之间,没有任何的关系。
这也就是我一开始问,“如果p-value < 0.05, 但是adjusted R-squared < 0.1, 我们可以下结论, X和Y没有关系吗?“

你做数据分析总要有理论依据和假说吧。不能八竿子打不着的两个变量凑在一起为了数据分析而分析。数据分析是工具。只看工具不看理论有啥用
高云风
回复 1楼 miked 的帖子
Difference between statistical significance vs. practical significance
目测你样本量太大导致excessive statistical power, which can identify however small effect as statistically significant.
高云风
miked 发表于 2025-05-13 13:43
把这两个连起来呢?我们能说,“X和Y没有关系” 吗?
有教科书上说,做线性分析的时候,p-value需要和adjusted R-squared统一起来一起下结论吗?
网上都是p-value < alpha, 就一锤定音的。
这幅图X和Y,是我精心设计的。目的就是要研究线性回归的缺点。 实际的X和Y是独立的两个随机数。他们两个之间,没有任何的关系。
这也就是我一开始问,“如果p-value < 0.05, 但是adjusted R-squared < 0.1, 我们可以下结论, X和Y没有关系吗?“

这不仅是线形回归的缺点,适用于所有parametric 量化分析
木牛流马
统计学上显著,说明统计学上y确实是和x有微弱关联的,比如x增加一个unit, y确实是会增加的。但是这个增幅非常小,这个模型对于预测y没有用。你可以试试加一些covariates,可能x就不再显著了。
m
miked
crichris 发表于 2025-05-13 14:09
说明不是0

请问可以把“X的系数不是0” 再改成 “Y不是常数”吗?
因为X的系数是0, 就等价于 Y是常数。所以, X的系数不是0, 就等价于 Y不是常数。
那么,我们这么多发表的论文,都是这样下结论的,“说明了Y不是个常数”
论文里,大家都是这样下结论的,“X对Y的影响很重要。”
理论上,这个p-value的H0,还真的就是系数=0.
所以,请问, 我们以前包括目前都这样下结论,“pvalue小,X对Y的影响很重要。” 其实是错误的!!!
m
miked
Inferno 发表于 2025-05-13 14:15
你做数据分析总要有理论依据和假说吧。不能八竿子打不着的两个变量凑在一起为了数据分析而分析。数据分析是工具。只看工具不看理论有啥用

你说的这个在我们领域有困难。
因为我们就是把两个八竿子打不着的变量凑到一起,为发论文而分析。 为什么?因为新颖,没人做过。 没人知道这两个变量是啥关系,有啥关联。
如果被人分析过了,我们通常就不做了,因为发表不了高水平的期刊。
m
miked
高云风 发表于 2025-05-13 14:25
这不仅是线形回归的缺点,适用于所有parametric 量化分析

能展开说说parametric分析方法,有什么致命的缺陷吗?
m
miked
木牛流马 发表于 2025-05-13 14:29
统计学上显著,说明统计学上y确实是和x有微弱关联的,比如x增加一个unit, y确实是会增加的。但是这个增幅非常小,这个模型对于预测y没有用。你可以试试加一些covariates,可能x就不再显著了。

谢谢。但是我不同意你的观点。
”比如x增加一个unit, y确实是会增加的。但是这个增幅非常小“
我们可以构造这样的Y和X,使得x增加一个unit, y的增幅非常非常非常小。
但是 虽然X的系数非常小,这个系数不等于0的p-value却非常重要。
下面是code,大家可以验证。 x在模型中的系数非常小(1e-5),但是p-value非常重要。 x=1:1000 y=1e-5*x lm(y~x)
summary(lm(y~x)) Coefficients:        Estimate Std. Error  t value Pr(>|t|)    (Intercept) -5.266e-18 1.523e-19 -3.457e+01  <2e-16 *** x      1.000e-05 2.636e-22 3.793e+16  <2e-16 ***

d
destiny2008
Inferno 发表于 2025-05-13 14:15
你做数据分析总要有理论依据和假说吧。不能八竿子打不着的两个变量凑在一起为了数据分析而分析。数据分析是工具。只看工具不看理论有啥用

这是通俗易懂的解释
高云风
miked 发表于 2025-05-13 14:33
你说的这个在我们领域有困难。
因为我们就是把两个八竿子打不着的变量凑到一起,为发论文而分析。 为什么?因为新颖,没人做过。 没人知道这两个变量是啥关系,有啥关联。
如果被人分析过了,我们通常就不做了,因为发表不了高水平的期刊。

你是本科生还是硕士生?如果博士生的话做科研给你这样的印象,老板水平有点堪忧啊
我的小棉袄
俗话说 大力出奇迹,只要发动机都厉害,砖头都能上天。
统计也一样,只要样本量够大,最后总能得出统计显著的结果。但是有用吗?p-value is not everything,俗话又说,统计就是个p。
m
miked
destiny2008 发表于 2025-05-13 14:38
这是通俗易懂的解释

不做数据分析,怎么能知道两个变量是八竿子打不着,还是打得着呢?
我们的课题很多都是 给定两个变量,我们不知道这它两之间有关系,还是无关系。
举个例子。
X: 糖尿病的血糖值 Y: 看新冠病的次数
有人认为X和Y有关系。有人认为他两无关系。
现在的研究就是判断它两到底有没有关系。

木牛流马
miked 发表于 2025-05-13 14:38
谢谢。但是我不同意你的观点。
”比如x增加一个unit, y确实是会增加的。但是这个增幅非常小“
我们可以构造这样的Y和X,使得x增加一个unit, y的增幅非常非常非常小。
但是 虽然X的系数非常小,这个系数不等于0的p-value却非常重要。
下面是code,大家可以验证。 x在模型中的系数非常小(1e-5),但是p-value非常重要。 x=1:1000 y=1e-5*x lm(y~x)
summary(lm(y~x)) Coefficients:        Estimate Std. Error  t value Pr(>|t|)    (Intercept) -5.266e-18 1.523e-19 -3.457e+01  <2e-16 *** x      1.000e-05 2.636e-22 3.793e+16  <2e-16 ***


你第二个例子里面r2也很大啊 和你的第一个例子不一样 我说的系数小指在影响y的很多因素里面,x的系数占比例非常小。在你第一个例子里面,你如果丢几个和y关联更大的变量进model,x多半不显著了 而你的第二个例子里面所谓的“系数小”是人为scale了y,但其实x可以解释y所有的变化,系数是非常大的
m
miked
我的小棉袄 发表于 2025-05-13 14:43
俗话说 大力出奇迹,只要发动机都厉害,砖头都能上天。
统计也一样,只要样本量够大,最后总能得出统计显著的结果。但是有用吗?p-value is not everything,俗话又说,统计就是个p。

谢谢!
一般样本多大后,统计显著的结果,就会丧失意义?
我们从最简单的举例。
t.test(X, mu=0) 判断X是不是等于0.
那么当X的样本量达到多少时,这个t.test出来的p-value就没啥意义了?
有人研究你说的这类问题吗?这个议题叫什么?type-2 error?矫正后的p-value可信吗?
l
laohua001
不做数据分析,怎么能知道两个变量是八竿子打不着,还是打得着呢?
我们的课题很多都是 给定两个变量,我们不知道这它两之间有关系,还是无关系。
举个例子。
X: 糖尿病的血糖值 Y: 看新冠病的次数
有人认为X和Y有关系。有人认为他两无关系。
现在的研究就是判断它两到底有没有关系。


miked 发表于 2025-05-13 14:46

数据分析第一步就是目测
目测都过不了的,任何统计分析都没用。
统计就是工具,甚至是game
m
miked
木牛流马 发表于 2025-05-13 14:52
你第二个例子里面r2也很大啊 和你的第一个例子不一样 我说的系数小指在影响y的很多因素里面,x的系数占比例非常小。在你第一个例子里面,你如果丢几个和y关联更大的变量进model,x多半不显著了 而你的第二个例子里面所谓的“系数小”是人为scale了y,但其实x可以解释y所有的变化,系数是非常大的

我只是想说,p-value 的大小,和系数的小,没有关系。
我们不能根据系数很小,就说这个系数不重要。
系数很小,也有可能系数很重要。
m
miked
laohua001 发表于 2025-05-13 14:54
数据分析第一步就是目测
目测都过不了的,任何统计分析都没用。
统计就是工具,甚至是game

目测的判断准则是什么?
怎么能保证目测的准确性?
目测的结论,也没法写论文啊?
高云风
miked 发表于 2025-05-13 14:54
谢谢!
一般样本多大后,统计显著的结果,就会丧失意义?
我们从最简单的举例。
t.test(X, mu=0) 判断X是不是等于0.
那么当X的样本量达到多少时,这个t.test出来的p-value就没啥意义了?
有人研究你说的这类问题吗?这个议题叫什么?type-2 error?矫正后的p-value可信吗?

Post hoc power analysis
l
laohua001
目测的判断准则是什么?
怎么能保证目测的准确性?
目测的结论,也没法写论文啊?
miked 发表于 2025-05-13 14:58

专业知识的common sense。
只有专业基础知识通过了,才有必要做统计检验。

m
miked
你是本科生还是硕士生?如果博士生的话做科研给你这样的印象,老板水平有点堪忧啊
高云风 发表于 2025-05-13 14:43

以前听过一个蝴蝶效应。
指一个动态系统中,初始条件微小变化,会得能带动整个系统长期外加巨大链式反应,是一种混沌现象。
你在地球这边扇扇子,可能会引起地球另一端的海啸。
所以,在这样的动态的互相关联的宇宙世界里,我们能找到完全八竿子打不着的两个变量吗?
在这样的理论下,任何独立,都其实不是绝对的独立,都是相对的。
换言之,任何两个变量,都是相连的。不相连的两个变量在宇宙中并不绝对存在。
中美两国贸易战想脱钩,脱不了。
m
magnoliaceae
高云风 发表于 2025-05-13 14:23
回复 1楼 miked 的帖子
Difference between statistical significance vs. practical significance
目测你样本量太大导致excessive statistical power, which can identify however small effect as statistically significant.

也想说这个,纯粹就是样本量太大
只要样本量够大,啥都能显著,不信你试试!
m
miked
magnoliaceae 发表于 2025-05-13 15:07
也想说这个,纯粹就是样本量太大
只要样本量够大,啥都能显著,不信你试试!

是的。那么请问,有人研究过,样本多大后,统计结果就不可信?
这个研究方向叫什么?
m
magnoliaceae
不做数据分析,怎么能知道两个变量是八竿子打不着,还是打得着呢?
我们的课题很多都是 给定两个变量,我们不知道这它两之间有关系,还是无关系。
举个例子。
X: 糖尿病的血糖值 Y: 看新冠病的次数
有人认为X和Y有关系。有人认为他两无关系。
现在的研究就是判断它两到底有没有关系。


miked 发表于 2025-05-13 14:46

判断他俩有没有关系要看domain knowledge,而不是只闭着眼拿两坨数据搞线性分析,因为你都不知道这俩到底是不是有可能是‘线性’关系,因为你根本不知道这两个变量都是啥意思
简直了,这是什么学校什么专业
l
laohua001
miked 发表于 2025-05-13 15:09
是的。那么请问,有人研究过,样本多大后,统计结果就不可信?
这个研究方向叫什么?

数据可信前提下,样本量越大越可信,这是统计学的基石。
数据不可信的话,想要啥结果就有啥结果。
m
magnoliaceae
miked 发表于 2025-05-13 15:09
是的。那么请问,有人研究过,样本多大后,统计结果就不可信?
这个研究方向叫什么?

基本可以肯定这是个烂坑了
m
miked
判断他俩有没有关系要看domain knowledge,而不是只闭着眼拿两坨数据搞线性分析,因为你都不知道这俩到底是不是有可能是‘线性’关系,因为你根本不知道这两个变量都是啥意思
简直了,这是什么学校什么专业
magnoliaceae 发表于 2025-05-13 15:10

不和你争了。
如果知道两个变量有关系,还去做数据分析,干什么呢?
之所以做数据分析,就是去研究两个变量有没有关系,就是因为domain knowledge里没有人知道这个答案,或者知道的答案是互相矛盾的。
s
shanggj
回复 1楼 miked 的帖子
你是 microsat 的马甲吗?
高云风
magnoliaceae 发表于 2025-05-13 15:13
基本可以肯定这是个烂坑了

不一定是坑,只是水平实在堪忧,我最近就被几个博士答辩的水平之烂给震惊到了
v
vraic
miked 发表于 2025-05-13 13:32
两个变量X和Y,数据见图。肉眼看,X和Y之间没有关系。
线性回归分析 lm(Y~X)
X系数对应的pvalue 却显示重要。
Coefficients:       Estimate Std. Error t value Pr(>|t|)    (Intercept) 0.46836  0.02063 22.703  <2e-16 *** X      0.08252  0.03468  2.379  0.0176 **
请问如何理解这个p-value = 0.0176 < 0.05呢。
effect of X on Y is significant?
在下这个结论的时候,需要考虑模型的Adjusted R-suqared 吗?
如果Adjusted R-suqared 非常低,那么就不能说effect of X on Y is significant。 对吗?

肉眼看不出关系的两个变量,为啥线性分析,却能得出pvalue很重要? 这是不是说明线性分析并非万能?



你提到的这个现象非常典型,而且你的疑问非常有价值:**为什么肉眼看 X 和 Y 没啥关系,但线性回归却给出了一个显著的 p-value(0.0176 < 0.05)?**我们逐一解释这个现象以及应如何正确解读: ✅ 首先明确:p-value 的意义 在线性回归中,X 的系数的 p-value 表示“在零假设为真(即 X 对 Y 没有线性影响)时,观察到当前或更极端的样本结果的概率”。 你的结果是: r 复制编辑 X 0.08252 0.03468 t = 2.379 p = 0.0176 意思是,在假设 X 与 Y 毫无线性关系的前提下,观察到 t = 2.379 的几率是 1.76%。低于 5%,所以我们“拒绝零假设”,说 X 与 Y 的线性关系“在统计上显著”。 ❗但:“统计显著” ≠ “实际有意义” 这是很多人误用 p-value 的地方。 你可以这样理解: p-value < 0.05:我们有理由怀疑 X 和 Y 在样本中可能存在 非零的线性关系; 但这个“关系”可以非常微弱,甚至完全无实际价值,只是由于样本量、分布、偶然性等因素被放大出来了。 📉 看 Adjusted R-squared 的作用
Adjusted R² 衡量的是模型整体的解释力 —— X 对 Y 的线性回归模型解释了多少变异性。
如果你发现: X 的 p-value 很小(统计显著); 但 Adjusted R² 非常小,比如 0.01; 这说明:虽然 X 的影响在统计上显著,但其解释力非常低,X 几乎无法解释 Y 的波动。 💡这就像说:“X 是个可靠的预测因子——但只解释了 Y 变异的 1%,几乎没啥实际用途。” 🧠 所以总结一下: 结论类别含义p-value < 0.05拒绝“X 与 Y 没有关系”的零假设,有统计学证据表明 X 与 Y 的线性关系 ≠ 0Adjusted R² 很低即便显著,但X 对 Y 的影响很小,无法解释大部分波动,实际价值可能极低视觉看不出关系线性关系可能微弱或被噪音掩盖;统计分析比人眼更敏感,但不一定更有意义
📌 为什么看上去没关系,但回归却“显著”? 几种常见情况: 样本量较大 只要样本量够大,即便极小的效应也能检测到 → 小 p-value。 数据有微弱但系统性的趋势 人眼很难察觉微弱趋势,但回归模型能捕捉。 数据存在离群点 / leverage points 少数点可能大幅影响回归线,从而导致“伪显著”。 🔎 检查建议 要避免误判,可以多角度审视模型: 画图检查: 散点图 + 回归线 残差图(residual plot) Q-Q图(正态性) 关注 effect size 比如这个回归系数是 0.08 —— 每单位 X 增加,Y 仅增加 0.08,有意义吗? 检查 Adjusted R² 和信赖区间 如果 95% CI 也在零附近,说明影响虽然“显著”,但不一定实质性。 ✅ 总结一句话:
p-value 小 ≠ 关系强;统计显著 ≠ 实质重要。
你完全正确地意识到线性分析不是万能的工具。在“肉眼看无关系”的情形下,哪怕 p-value 很小,也要结合 R²、图形和实际解释力判断其价值。
高云风
laohua001 发表于 2025-05-13 15:12
数据可信前提下,样本量越大越可信,这是统计学的基石。
数据不可信的话,想要啥结果就有啥结果。

第一句不准确,不是越大越好,样本量达到threshold 后再大的边际效应急剧递减
高云风
shanggj 发表于 2025-05-13 15:16
回复 1楼 miked 的帖子
你是 microsat 的马甲吗?

哈哈哈,这个不至于的,microsat比这还是强不少的,这个楼主一看就是学生
木牛流马
miked 发表于 2025-05-13 14:56
我只是想说,p-value 的大小,和系数的小,没有关系。
我们不能根据系数很小,就说这个系数不重要。
系数很小,也有可能系数很重要。

当然不能光看系数啊!要看系数还要看r2啊。系数都是相对的你可以随便scale啊
m
miked
高云风 发表于 2025-05-13 14:23
回复 1楼 miked 的帖子
Difference between statistical significance vs. practical significance
目测你样本量太大导致excessive statistical power, which can identify however small effect as statistically significant.

请问,样本多大,就为 不能提供可靠的结论了呢?
另外,我有一种猜想:
即使样本小,我也能找到这样的X和Y
使得
模型Y~X中,X系数的pvalue很小 (<0.05)
但是X和Y看起来也没什么关系。
因此,如果得出结果“X对于Y很重要”,也是错误的。


m
miked
你提到的这个现象非常典型,而且你的疑问非常有价值:**为什么肉眼看 X 和 Y 没啥关系,但线性回归却给出了一个显著的 p-value(0.0176 < 0.05)?**我们逐一解释这个现象以及应如何正确解读: ✅ 首先明确:p-value 的意义 在线性回归中,X 的系数的 p-value 表示“在零假设为真(即 X 对 Y 没有线性影响)时,观察到当前或更极端的样本结果的概率”。 你的结果是: r 复制编辑 X 0.08252 0.03468 t = 2.379 p = 0.0176 意思是,在假设 X 与 Y 毫无线性关系的前提下,观察到 t = 2.379 的几率是 1.76%。低于 5%,所以我们“拒绝零假设”,说 X 与 Y 的线性关系“在统计上显著”。 ❗但:“统计显著” ≠ “实际有意义” 这是很多人误用 p-value 的地方。 你可以这样理解: p-value < 0.05:我们有理由怀疑 X 和 Y 在样本中可能存在 非零的线性关系; 但这个“关系”可以非常微弱,甚至完全无实际价值,只是由于样本量、分布、偶然性等因素被放大出来了。 📉 看 Adjusted R-squared 的作用
Adjusted R² 衡量的是模型整体的解释力 —— X 对 Y 的线性回归模型解释了多少变异性。
如果你发现: X 的 p-value 很小(统计显著); 但 Adjusted R² 非常小,比如 0.01; 这说明:虽然 X 的影响在统计上显著,但其解释力非常低,X 几乎无法解释 Y 的波动。 💡这就像说:“X 是个可靠的预测因子——但只解释了 Y 变异的 1%,几乎没啥实际用途。” 🧠 所以总结一下: 结论类别含义p-value < 0.05拒绝“X 与 Y 没有关系”的零假设,有统计学证据表明 X 与 Y 的线性关系 ≠ 0Adjusted R² 很低即便显著,但X 对 Y 的影响很小,无法解释大部分波动,实际价值可能极低视觉看不出关系线性关系可能微弱或被噪音掩盖;统计分析比人眼更敏感,但不一定更有意义
📌 为什么看上去没关系,但回归却“显著”? 几种常见情况: 样本量较大 只要样本量够大,即便极小的效应也能检测到 → 小 p-value。 数据有微弱但系统性的趋势 人眼很难察觉微弱趋势,但回归模型能捕捉。 数据存在离群点 / leverage points 少数点可能大幅影响回归线,从而导致“伪显著”。 🔎 检查建议 要避免误判,可以多角度审视模型: 画图检查: 散点图 + 回归线 残差图(residual plot) Q-Q图(正态性) 关注 effect size 比如这个回归系数是 0.08 —— 每单位 X 增加,Y 仅增加 0.08,有意义吗? 检查 Adjusted R² 和信赖区间 如果 95% CI 也在零附近,说明影响虽然“显著”,但不一定实质性。 ✅ 总结一句话:
p-value 小 ≠ 关系强;统计显著 ≠ 实质重要。
你完全正确地意识到线性分析不是万能的工具。在“肉眼看无关系”的情形下,哪怕 p-value 很小,也要结合 R²、图形和实际解释力判断其价值。
vraic 发表于 2025-05-13 15:18

chatgpt里的程序员早就研究过这个问题了?
l
laohua001
第一句不准确,不是越大越好,样本量达到threshold 后再大的边际效应急剧递减
高云风 发表于 2025-05-13 15:21

那是因为数学计算的局限性。
现代统计学被人诟病为“神学”的原因之一是“用样本替代总体”。 只有总体“统计”才能有“真正”的概率。所以说,数学计算和大程度上是“game”, 本身统计学把事物都定义成“分布”就不是真实的。
高云风
laohua001 发表于 2025-05-13 15:28
那是因为数学计算的局限性。
现代统计学被人诟病为“神学”的原因之一是“用样本替代总体”。 只有总体“统计”才能有“真正”的概率。所以说,数学计算和大程度上是“game”, 本身统计学把事物都定义成“分布”就不是真实的。

跟数学计算无关,是基于hypothesis testing 的传统parametric statistics 的内在缺陷, design flaw instead of computational constraint
l
laohua001
跟数学计算无关,是基于hypothesis testing 的传统parametric statistics 的内在缺陷, design flaw instead of computational constraint
高云风 发表于 2025-05-13 15:31

这就是我说的, 统计上定义“分布”本身就是不真实的,所以基于“分布理论”的“一切数学计算”都有”局限性“。
高云风
laohua001 发表于 2025-05-13 15:32
这就是我说的, 统计上定义“分布”本身就是不真实的,所以基于“分布理论”的“一切数学计算”都有”局限性“。

嗯,那我们说的是一个意思
这是基础统计方法课会教的内容
l
laohua001
嗯,那我们说的是一个意思
这是基础统计方法课会教的内容
高云风 发表于 2025-05-13 15:34

一楼的问题很好解释, 这些数据根本没有“分布” , 非要按照“统计设定好的分布”去计算, 得到的任何结果都有可能。
所以,统计的第一步就是用专业知识目测结果。 专业知识都不过,都不能解释的数据,做统计没意义。P值, R值都是game。
m
miked
高云风 发表于 2025-05-13 15:17
不一定是坑,只是水平实在堪忧,我最近就被几个博士答辩的水平之烂给震惊到了

既然你说我水平菜,那我就真心请教你一个问题。
Y~ X + Z
为何改变变量的测量单位,也能直接改变这个变量在模型中的系数的p-value?
假设X是age,那么我们可以用年来计算age,我们也可以用月来计算age,比如30岁,对应360月。
为何我们用年来测量age,和用月来测量age时,对应的age在模型中的系数的p-value会变呢?
特别是,一个小于0.05,而另一个大于0.05.这样我们就得出一个age是在模型中重要的,而另一个age是在模型中不那么重要。这完全是两个结论。为何age的测量单位,对结果影响如此之大?
这是线性回归方法的无法避免的错误吗?
m
miked
laohua001 发表于 2025-05-13 15:32
这就是我说的, 统计上定义“分布”本身就是不真实的,所以基于“分布理论”的“一切数学计算”都有”局限性“。

你这个牛啊。你是要推翻现在的教科书吗?
不基于分布的统计学,感觉结果更不可靠。
高云风
miked 发表于 2025-05-13 15:40
既然你说我水平菜,那我就真心请教你一个问题。
Y~ X + Z
为何改变变量的测量单位,也能直接改变这个变量在模型中的系数的p-value?
假设X是age,那么我们可以用年来计算age,我们也可以用月来计算age,比如30岁,对应360月。
为何我们用年来测量age,和用月来测量age时,对应的age在模型中的系数的p-value会变呢?
特别是,一个小于0.05,而另一个大于0.05.这样我们就得出一个age是在模型中重要的,而另一个age是在模型中不那么重要。这完全是两个结论。为何age的测量单位,对结果影响如此之大?
这是线性回归方法的无法避免的错误吗?

你真的需要回去复习基础统计课的笔记
这是你研究/实验设计的问题,跟统计方法的选择无关,自然不能甩锅给线性回归
l
laohua001
你这个牛啊。你是要推翻现在的教科书吗?
不基于分布的统计学,感觉结果更不可靠。
miked 发表于 2025-05-13 15:42

数学,统计学是人类没办法的办法。 谈不上推翻。
m
miked
laohua001 发表于 2025-05-13 15:39
一楼的问题很好解释, 这些数据根本没有“分布” , 非要按照“统计设定好的分布”去计算, 得到的任何结果都有可能。
所以,统计的第一步就是用专业知识目测结果。 专业知识都不过,都不能解释的数据,做统计没意义。P值, R值都是game。

有道理。
高云风
miked 发表于 2025-05-13 15:42
你这个牛啊。你是要推翻现在的教科书吗?
不基于分布的统计学,感觉结果更不可靠。

不基于分布的统计学叫nonparametric statistics, 那里基本不甩p这么档子事
高云风
laohua001 发表于 2025-05-13 15:39
一楼的问题很好解释, 这些数据根本没有“分布” , 非要按照“统计设定好的分布”去计算, 得到的任何结果都有可能。
所以,统计的第一步就是用专业知识目测结果。 专业知识都不过,都不能解释的数据,做统计没意义。P值, R值都是game。

这个可能性存在,但不大
从楼主给的图看,俩变量都是连续变量,正常的随机连续变量是默认符合正态分布的,unless otherwise stated, 不信你问他这俩变量他用什么函数产生的
这种情况下出现他说的情况,样本量的原因大大超过分布问题的可能性
m
miked
laohua001 发表于 2025-05-13 15:39
一楼的问题很好解释, 这些数据根本没有“分布” , 非要按照“统计设定好的分布”去计算, 得到的任何结果都有可能。
所以,统计的第一步就是用专业知识目测结果。 专业知识都不过,都不能解释的数据,做统计没意义。P值, R值都是game。

我有个多年困惑的问题。特此请教。
请问你在使用Generalized Linear Model (GLM)时候, glm(y~x, data=data, family = "gaussian")
你会先测试是否y满足分布吗? (上面是高斯分布)
我好像从来没在任何网上看到过,谁在使用glm之前,做过任何分布的测试。
这是为什么呢?



m
miked
这个可能性存在,但不大
从楼主给的图看,俩变量都是连续变量,正常的随机连续变量是默认符合正态分布的,unless otherwise stated, 不信你问他这俩变量他用什么函数产生的
这种情况下出现他说的情况,样本量的原因大大超过分布问题的可能性
高云风 发表于 2025-05-13 15:50

均匀分布。
但是我用任何其他分布,都能发现我一楼提出的问题。
有啥方法能判断样本多大为“太大了容易出错”?
高云风
miked 发表于 2025-05-13 15:58
均匀分布。
但是我用任何其他分布,都能发现我一楼提出的问题。
有啥方法能判断样本多大为“太大了容易出错”?

我前面回了,post hoc power analysis
m
miked
这个可能性存在,但不大
从楼主给的图看,俩变量都是连续变量,正常的随机连续变量是默认符合正态分布的,unless otherwise stated, 不信你问他这俩变量他用什么函数产生的
这种情况下出现他说的情况,样本量的原因大大超过分布问题的可能性
高云风 发表于 2025-05-13 15:50

请问你在审nature/science稿子的时候,遇到
用线性回归的p-value,来说明某某变量(X)对于某某变量(Y),非常重要。 (假设,X和Y是当今科学界某领域内非常重要的两个变量,但是我们又不是很熟悉。比如X是光子量, Y是宇宙爆炸级数。)
因此,本文是个重大发现。
但是,你作为统计学家,你感觉“只要样本大,任何两个变量都可能相互关联”,因此,这个发现不一定正确。
这个时候,你要求作者做些什么(如何修改稿子)?
如果你说他的样本太大,那他就会反问,“请问多大为不大”。
你会让这样的稿子通过吗?
m
miked
高云风 发表于 2025-05-13 16:02
我前面回了,post hoc power analysis

请问怎么能从这个post hoc power analysis得出样本要不大于多少?
我用的post hoc power analysis,都是求样本不能小于多少。
q
qianqiuxue
miked 发表于 2025-05-13 14:38
谢谢。但是我不同意你的观点。
”比如x增加一个unit, y确实是会增加的。但是这个增幅非常小“
我们可以构造这样的Y和X,使得x增加一个unit, y的增幅非常非常非常小。
但是 虽然X的系数非常小,这个系数不等于0的p-value却非常重要。
下面是code,大家可以验证。 x在模型中的系数非常小(1e-5),但是p-value非常重要。 x=1:1000 y=1e-5*x lm(y~x)
summary(lm(y~x)) Coefficients:        Estimate Std. Error  t value Pr(>|t|)    (Intercept) -5.266e-18 1.523e-19 -3.457e+01  <2e-16 *** x      1.000e-05 2.636e-22 3.793e+16  <2e-16 ***


的确跟系数大小没关系,你的例子里把data压缩的再平也是同样的p value,只是斜率减小 他应该是想说correlation小
q
qianqiuxue
木牛流马 发表于 2025-05-13 14:52
你第二个例子里面r2也很大啊 和你的第一个例子不一样 我说的系数小指在影响y的很多因素里面,x的系数占比例非常小。在你第一个例子里面,你如果丢几个和y关联更大的变量进model,x多半不显著了 而你的第二个例子里面所谓的“系数小”是人为scale了y,但其实x可以解释y所有的变化,系数是非常大的

嗯哼
m
miked
qianqiuxue 发表于 2025-05-13 16:13
的确跟系数大小没关系,你的例子里把data压缩的再平也是同样的p value,只是斜率减小 他应该是想说correlation小

correlation小的情况,我也试验过。
第一楼的图中的X和Y,就是correlation非常小,但是模型Y~X中的X的系数的pvalue却非常重要。
q
qianqiuxue
miked 发表于 2025-05-13 14:54
谢谢!
一般样本多大后,统计显著的结果,就会丧失意义?
我们从最简单的举例。
t.test(X, mu=0) 判断X是不是等于0.
那么当X的样本量达到多少时,这个t.test出来的p-value就没啥意义了?
有人研究你说的这类问题吗?这个议题叫什么?type-2 error?矫正后的p-value可信吗?

哈哈,也不是说样本大就肯定失去意义啊 你说的样本大,本意应该是too many randomness 进入model 样本如果带着population更多的pattern进来,只会更有意义
p-value告诉人们,爱的多少不重要,要真才好 人们却明白,真的太少,多了没有那么慌
m
miked
哈哈,也不是说样本大就肯定失去意义啊 你说的样本大,本意应该是too many randomness 进入model 样本如果带着population更多的pattern进来,只会更有意义
p-value告诉人们,爱的多少不重要,要真才好 人们却明白,真的太少,多了没有那么慌
qianqiuxue 发表于 2025-05-13 16:18

这一点上,前面的laohua001和高云风是对的。 的确,样本大了后,当今的统计方法得出的p-value不准。
我分析的海量数据,也支持这一观点。
q
qianqiuxue
miked 发表于 2025-05-13 15:05
以前听过一个蝴蝶效应。
指一个动态系统中,初始条件微小变化,会得能带动整个系统长期外加巨大链式反应,是一种混沌现象。
你在地球这边扇扇子,可能会引起地球另一端的海啸。
所以,在这样的动态的互相关联的宇宙世界里,我们能找到完全八竿子打不着的两个变量吗?
在这样的理论下,任何独立,都其实不是绝对的独立,都是相对的。
换言之,任何两个变量,都是相连的。不相连的两个变量在宇宙中并不绝对存在。
中美两国贸易战想脱钩,脱不了。

薛定谔来了
呵呵,任何两个变量都是相连的又怎样 两颗暧昧不明的心又怎样 脱不脱又怎样
q
qianqiuxue
miked 发表于 2025-05-13 15:40
既然你说我水平菜,那我就真心请教你一个问题。
Y~ X + Z
为何改变变量的测量单位,也能直接改变这个变量在模型中的系数的p-value?
假设X是age,那么我们可以用年来计算age,我们也可以用月来计算age,比如30岁,对应360月。
为何我们用年来测量age,和用月来测量age时,对应的age在模型中的系数的p-value会变呢?
特别是,一个小于0.05,而另一个大于0.05.这样我们就得出一个age是在模型中重要的,而另一个age是在模型中不那么重要。这完全是两个结论。为何age的测量单位,对结果影响如此之大?
这是线性回归方法的无法避免的错误吗?

呵呵,有协变量当然不一样
q
qianqiuxue
miked 发表于 2025-05-13 16:07
请问你在审nature/science稿子的时候,遇到
用线性回归的p-value,来说明某某变量(X)对于某某变量(Y),非常重要。 (假设,X和Y是当今科学界某领域内非常重要的两个变量,但是我们又不是很熟悉。比如X是光子量, Y是宇宙爆炸级数。)
因此,本文是个重大发现。
但是,你作为统计学家,你感觉“只要样本大,任何两个变量都可能相互关联”,因此,这个发现不一定正确。
这个时候,你要求作者做些什么(如何修改稿子)?
如果你说他的样本太大,那他就会反问,“请问多大为不大”。
你会让这样的稿子通过吗?

我去,怎么看不完了
q
qianqiuxue
miked 发表于 2025-05-13 16:15
correlation小的情况,我也试验过。
第一楼的图中的X和Y,就是correlation非常小,但是模型Y~X中的X的系数的pvalue却非常重要。

我是说,那位朋友是说‘虽然p显著,但correlation小’,呵呵
q
qianqiuxue
miked 发表于 2025-05-13 16:21
这一点上,前面的laohua001和高云风是对的。 的确,样本大了后,当今的统计方法得出的p-value不准。
我分析的海量数据,也支持这一观点。

i don't think so 你的结果的可能原因是你的data本来就不是一个population的 也就是说统计检验的假设不成立
这在现在ml海量抓数据的情况下是有这个可能性的
绝对不可能存在一个这样的理论: 符合population assumption的data,sample size大了就p-value不准
这是泛神秘主义的伪科学 lol
m
miked
qianqiuxue 发表于 2025-05-13 16:26
呵呵,有协变量当然不一样

如果没有协变量
Y~a * k * X ~ (a*k) * X ~ A * X
所以p-value不变。
为啥如果有协变量,会不一样呢?
q
qianqiuxue
miked 发表于 2025-05-13 16:33
如果没有协变量
Y~a * k * X ~ (a*k) * X ~ A * X
所以p-value不变。
为啥如果有协变量,会不一样呢?

你的久未联系的女神说要跟你谈恋爱,你的女朋友刚刚竟然还敢抢你零食吃,她的系数被你直接清零了
q
qianqiuxue
qianqiuxue 发表于 2025-05-13 16:33
i don't think so 你的结果的可能原因是你的data本来就不是一个population的 也就是说统计检验的假设不成立
这在现在ml海量抓数据的情况下是有这个可能性的
绝对不可能存在一个这样的理论: 符合population assumption的data,sample size大了就p-value不准
这是泛神秘主义的伪科学 lol

btw:你的研究中如果碰见这种情况,你要做的不是寻找一种神秘理论 而是考虑做subgroup analysis
高云风
qianqiuxue 发表于 2025-05-13 16:38
你的久未联系的女神说要跟你谈恋爱,你的女朋友刚刚竟然还敢抢你零食吃,她的系数被你直接清零了

难怪当年闺蜜圈里一致同意,最优秀的情书出自理科生之手😂
健康就好
高云风 发表于 2025-05-13 15:21
哈哈哈,这个不至于的,microsat比这还是强不少的,这个楼主一看就是学生

不一定哦,我甚至还cross reference了一下,这俩问问题风格一样一样的.
木牛流马
qianqiuxue 发表于 2025-05-13 16:38
你的久未联系的女神说要跟你谈恋爱,你的女朋友刚刚竟然还敢抢你零食吃,她的系数被你直接清零了

笑死!你太有才了
c
crichris
miked 发表于 2025-05-13 14:29
请问可以把“X的系数不是0” 再改成 “Y不是常数”吗?
因为X的系数是0, 就等价于 Y是常数。所以, X的系数不是0, 就等价于 Y不是常数。
那么,我们这么多发表的论文,都是这样下结论的,“说明了Y不是个常数”
论文里,大家都是这样下结论的,“X对Y的影响很重要。”
理论上,这个p-value的H0,还真的就是系数=0.
所以,请问, 我们以前包括目前都这样下结论,“pvalue小,X对Y的影响很重要。” 其实是错误的!!!

看你怎么定义重要这个词
有一些beta 数很小的以至于 对y的影响不大
但是在y =x beta + epsilon (有 epsilon这一项误差)这个frame work下 pvalue说的是你有多confident 这个beta 是0

你这个例子太简单了是univariate 的
以至于如果把截距拿掉后r squared correlation 什么的都是有一一对应的 很难单独拿出来讨论
E
Ella2020
我已经忘记了很多的统计知识,但是看了问题的描述,也觉得是样本太大导致的
j
jawa
mark mark
E
Ewj1023
回复 21楼 木牛流马 的帖子
你们在说不同的“系数”。
1楼说的是斜率,木牛流马说的是correlation coefficient。在这个例子里, 虽然斜率很小,但是相关性是最高级别,因为你预设了y和x的线性关系(完美相关性,具体说的话这里的correlation coefficient是-1,which means perfect negative linear relationship)。
你这个例子不需要跑线性模型,因为你已经预设了完美线性,所以不存在用R square判断模型好坏。R square是用于判断(我们不知道自变量因变量到底什么关系的时候)我们所选的模型能够多大程度用自变量解释因变量的变化的(如果很小,说明即使斜率不是零aka p value for null is significant,但是x的变化对y的变化推动/解释性很小,跑模型的话你需要引入别的变量)。
H
Hyacinth172
magnoliaceae 发表于 2025-05-13 15:07
也想说这个,纯粹就是样本量太大
只要样本量够大,啥都能显著,不信你试试!

正想说这个。只要样本够大,啥都能显著。

l
little_white
miked 发表于 2025-05-13 13:32
两个变量X和Y,数据见图。肉眼看,X和Y之间没有关系。
线性回归分析 lm(Y~X)
X系数对应的pvalue 却显示重要。
Coefficients:       Estimate Std. Error t value Pr(>|t|)    (Intercept) 0.46836  0.02063 22.703  <2e-16 *** X      0.08252  0.03468  2.379  0.0176 **
请问如何理解这个p-value = 0.0176 < 0.05呢。
effect of X on Y is significant?
在下这个结论的时候,需要考虑模型的Adjusted R-suqared 吗?
如果Adjusted R-suqared 非常低,那么就不能说effect of X on Y is significant。 对吗?

肉眼看不出关系的两个变量,为啥线性分析,却能得出pvalue很重要? 这是不是说明线性分析并非万能?



只要样本数足够大,任何两个随机变量都会出现统计相关性。任何的模型需要有理论支持然后数据统计模型验证。模型的有效性需要用统计工具进行结构检验, R-square,F-test。p- value,或t-test,仅仅是测试 系数非零, 只要样本足够大se就会足够小,t-test的相关性都会显著。如果模型结构性测试R^2,F-test都通不过,t-test,p-value没有任何意义。
n
neolith2000
Hyacinth172 发表于 2025-05-14 02:00
正想说这个。只要样本够大,啥都能显著。


not really
b
bravov
样本量太大,什么都能显著。你需要做power analysis。
b
bardcat
回复 3楼 destiny2008 的帖子
这个解释相当好
m
miked
little_white 发表于 2025-05-14 05:56
只要样本数足够大,任何两个随机变量都会出现统计相关性。任何的模型需要有理论支持然后数据统计模型验证。模型的有效性需要用统计工具进行结构检验, R-square,F-test。p- value,或t-test,仅仅是测试 系数非零, 只要样本足够大se就会足够小,t-test的相关性都会显著。如果模型结构性测试R^2,F-test都通不过,t-test,p-value没有任何意义。

谢谢!请问业界现在有专门的统计方法来检测样本多大就太大了吗?
m
miked
bravov 发表于 2025-05-14 10:39
样本量太大,什么都能显著。你需要做power analysis。

请问什么power analysis 能检测样本过大? 我用到的,都是检测样本过小的。
m
miked
我的小棉袄 发表于 2025-05-13 14:43
俗话说 大力出奇迹,只要发动机都厉害,砖头都能上天。
统计也一样,只要样本量够大,最后总能得出统计显著的结果。但是有用吗?p-value is not everything,俗话又说,统计就是个p。

请问业界有大牛指出过这个严重的统计学的错误吗? paper之类的。
当然,如果有检验,或者矫正这个错误的,新方法,那就更好。猜想,目前还没有。
只是大家越来越多的人意识到了这个问题。
当我们在审别人的稿子的时候(特别是nature或者science的重要稿件的时候),怎么能 批判作者之所以得出统计显著的结果,只是因为样本量足够大,其实,结论是错误的或者不可靠的? 怎么能让editor信服你的观点?尤其在其他审稿人已经都同意发表的前提下。
m
miked
只要样本数足够大,任何两个随机变量都会出现统计相关性。任何的模型需要有理论支持然后数据统计模型验证。模型的有效性需要用统计工具进行结构检验, R-square,F-test。p- value,或t-test,仅仅是测试 系数非零, 只要样本足够大se就会足够小,t-test的相关性都会显著。如果模型结构性测试R^2,F-test都通不过,t-test,p-value没有任何意义。
little_white 发表于 2025-05-14 05:56

有没有论文可以引用来让别人信服你的观点“只要样本数足够大,任何两个随机变量都会出现统计相关性。”
目前有R^2的阈值,定义 模型结构性测试R^2,通过或者通不过吗?也就是R^2多小算小?
鳗鱼饭
回复 87楼 miked 的帖子
楼主你的统计学知识需要加强,还有很长的路要走。 现在你是发现了p-value的一点问题,有些困惑但是非常激动,似乎发现了新大陆。关于p-value这一点已经研究透彻了。
你把你精心设计的实验,重复100遍(每一次重新生成x和y),每一次把p-value保存下来,然后把这100个p-value的直方图画出来。你就会发现,p-value是一个随机的变量,它的直方图(如果你的实验没有问题的话),我虽然没有做,但是我可以告诉你,近似一个uniform分布。 这就是p-value的本质,如果你的零假设是对的,那么它是一个随机变量,它的分布是uniform。 基于p-value的结论,就如同基于confidence interval的结论一样,它的合理性都是在重复试验中解释的。也就是说,100个人用同样的方法分析他们独立的数据,那么只有5个人会犯type I error,95个不会。 你所惊讶的错误,就是所谓的type I error,也就是你选择的0.05的threshold所要控制的对象。
如果你继续读文献,你会发现有很多关于p-value的讨论和发展。p-value 不是万能的,p-value的问题有很多,p-value的误用很普遍. 有很多人一生只做p-value,有很多人一生一个p-value的都不会做,仍然是伟大的统计学家。
然后你再回过头来看,你会发现使用p-value是有用的。 就跟它当初被设计的初衷一样,有用。
这样一个看山是山 看山不是山 看山又是山的过程,需要你读很多书,需要你思考。
对你当下的建议是,不要在你还处于稚嫩的阶段,吵得全世界都知道,把还没换下的尿布怼editors脸上 希望你多学习。
看好你。
k
kukustar
鳗鱼饭 发表于 2025-05-14 11:54
回复 87楼 miked 的帖子
楼主你的统计学知识需要加强,还有很长的路要走。 现在你是发现了p-value的一点问题,有些困惑但是非常激动,似乎发现了新大陆。关于p-value这一点已经研究透彻了。
你把你精心设计的实验,重复100遍(每一次重新生成x和y),每一次把p-value保存下来,然后把这100个p-value的直方图画出来。你就会发现,p-value是一个随机的变量,它的直方图(如果你的实验没有问题的话),我虽然没有做,但是我可以告诉你,近似一个uniform分布。 这就是p-value的本质,如果你的零假设是对的,那么它是一个随机变量,它的分布是uniform。 基于p-value的结论,就如同基于confidence interval的结论一样,它的合理性都是在重复试验中解释的。也就是说,100个人用同样的方法分析他们独立的数据,那么只有5个人会犯type I error,95个不会。 你所惊讶的错误,就是所谓的type I error,也就是你选择的0.05的threshold所要控制的对象。
如果你继续读文献,你会发现有很多关于p-value的讨论和发展。p-value 不是万能的,p-value的问题有很多,p-value的误用很普遍. 有很多人一生只做p-value,有很多人一生一个p-value的都不会做,仍然是伟大的统计学家。
然后你再回过头来看,你会发现使用p-value是有用的。 就跟它当初被设计的初衷一样,有用。
这样一个看山是山 看山不是山 看山又是山的过程,需要你读很多书,需要你思考。
对你当下的建议是,不要在你还处于稚嫩的阶段,吵得全世界都知道,把还没换下的尿布怼editors脸上 希望你多学习。
看好你。

给这位老师手动点赞。另外加一句:楼主,你在惊讶于p value和variance explained的关系的时候,很多领域,特别是你觉得很有问题的顶刊,已经早就要求preregistration了。虽然这个规则也逐渐被玩坏,但是大家都知道a priori和post hoc不可同日而语。前面很多人给你回复都提到了要从问题出发,所谓theory driven,但是你好像意识不到这是什么意思,或者这个做法跟你说的放开了测测无数次之间是什么关系。前路漫漫,多学习。 看好你!