线性回归中的很小pvalue如何理解？

大约 2 个月

楼主 (北美华人网)

两个变量X和Y，数据见图。肉眼看，X和Y之间没有关系。
线性回归分析 lm(Y~X)
X系数对应的pvalue 却显示重要。
Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 0.46836 0.02063 22.703 <2e-16 *** X 0.08252 0.03468 2.379 0.0176 **
请问如何理解这个p-value = 0.0176 < 0.05呢。
effect of X on Y is significant?
在下这个结论的时候，需要考虑模型的Adjusted R-suqared 吗?
如果Adjusted R-suqared 非常低，那么就不能说effect of X on Y is significant。对吗？

肉眼看不出关系的两个变量，为啥线性分析，却能得出pvalue很重要？这是不是说明线性分析并非万能？

blushpeony

大约 2 个月

significant at 5% level

destiny2008

大约 2 个月

p-value = 0.0176 < 0.05 表明在这个回归模型中，变量 X 对 Y 的边际线性效应在统计学上显著。但如果 Adjusted R-squared 很低说明整个模型的解释力极弱，也就是说，虽然“显著”，但“没用”。

miked

大约 2 个月

significant at 5% level
blushpeony 发表于 2025-05-13 13:34

是设定在5%。但是这个太离谱了。肉眼根本看不出X和Y存在关联。
但是线性分析，给出的p-value确是重要的。
有统计大牛，深度研究过这个问题吗？这是不是说明：当前我们用的线性回归，其实是有局限性的。并不准确？

miked

大约 2 个月

destiny2008 发表于 2025-05-13 13:36
p-value = 0.0176 < 0.05 表明在这个回归模型中，变量 X 对 Y 的边际线性效应在统计学上显著。但如果 Adjusted R-squared 很低说明整个模型的解释力极弱，也就是说，虽然“显著”，但“没用”。

把这两个连起来呢？我们能说，“X和Y没有关系” 吗？
有教科书上说，做线性分析的时候，p-value需要和adjusted R-squared统一起来一起下结论吗？
网上都是p-value < alpha, 就一锤定音的。
这幅图X和Y，是我精心设计的。目的就是要研究线性回归的缺点。实际的X和Y是独立的两个随机数。他们两个之间，没有任何的关系。
这也就是我一开始问，“如果p-value < 0.05, 但是adjusted R-squared < 0.1, 我们可以下结论， X和Y没有关系吗？“

crichris

大约 2 个月

miked 发表于 2025-05-13 13:32
两个变量X和Y，数据见图。肉眼看，X和Y之间没有关系。
线性回归分析 lm(Y~X)
X系数对应的pvalue 却显示重要。
Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 0.46836 0.02063 22.703 <2e-16 *** X 0.08252 0.03468 2.379 0.0176 **
请问如何理解这个p-value = 0.0176 < 0.05呢。
effect of X on Y is significant?
在下这个结论的时候，需要考虑模型的Adjusted R-suqared 吗?
如果Adjusted R-suqared 非常低，那么就不能说effect of X on Y is significant。对吗？

肉眼看不出关系的两个变量，为啥线性分析，却能得出pvalue很重要？这是不是说明线性分析并非万能？

说明不是0

qianqiuxue

大约 2 个月

destiny2008 发表于 2025-05-13 13:36
p-value = 0.0176 < 0.05 表明在这个回归模型中，变量 X 对 Y 的边际线性效应在统计学上显著。但如果 Adjusted R-squared 很低说明整个模型的解释力极弱，也就是说，虽然“显著”，但“没用”。

re
p-value significant 只说明斜率不是零----确信有关系 R2低，或者low correlation，或者effect不高说明没有实质性关系跟林徽因和徐志摩的关系差不多

qianqiuxue

大约 2 个月

crichris 发表于 2025-05-13 14:09
说明不是0

嗯，准确的说是 ‘如果assume线性model的话’，95%确信斜率不是零

Inferno

大约 2 个月

miked 发表于 2025-05-13 13:43
把这两个连起来呢？我们能说，“X和Y没有关系” 吗？
有教科书上说，做线性分析的时候，p-value需要和adjusted R-squared统一起来一起下结论吗？
网上都是p-value < alpha, 就一锤定音的。
这幅图X和Y，是我精心设计的。目的就是要研究线性回归的缺点。实际的X和Y是独立的两个随机数。他们两个之间，没有任何的关系。
这也就是我一开始问，“如果p-value < 0.05, 但是adjusted R-squared < 0.1, 我们可以下结论， X和Y没有关系吗？“

你做数据分析总要有理论依据和假说吧。不能八竿子打不着的两个变量凑在一起为了数据分析而分析。数据分析是工具。只看工具不看理论有啥用

高

高云风

大约 2 个月

回复 1楼 miked 的帖子
Difference between statistical significance vs. practical significance
目测你样本量太大导致excessive statistical power, which can identify however small effect as statistically significant.

高

高云风

大约 2 个月

miked 发表于 2025-05-13 13:43
把这两个连起来呢？我们能说，“X和Y没有关系” 吗？
有教科书上说，做线性分析的时候，p-value需要和adjusted R-squared统一起来一起下结论吗？
网上都是p-value < alpha, 就一锤定音的。
这幅图X和Y，是我精心设计的。目的就是要研究线性回归的缺点。实际的X和Y是独立的两个随机数。他们两个之间，没有任何的关系。
这也就是我一开始问，“如果p-value < 0.05, 但是adjusted R-squared < 0.1, 我们可以下结论， X和Y没有关系吗？“

这不仅是线形回归的缺点，适用于所有parametric 量化分析

木

木牛流马

大约 2 个月

统计学上显著，说明统计学上y确实是和x有微弱关联的，比如x增加一个unit， y确实是会增加的。但是这个增幅非常小，这个模型对于预测y没有用。你可以试试加一些covariates，可能x就不再显著了。

miked

大约 2 个月

crichris 发表于 2025-05-13 14:09
说明不是0

请问可以把“X的系数不是0” 再改成 “Y不是常数”吗？
因为X的系数是0，就等价于 Y是常数。所以， X的系数不是0，就等价于 Y不是常数。
那么，我们这么多发表的论文，都是这样下结论的，“说明了Y不是个常数”
论文里，大家都是这样下结论的，“X对Y的影响很重要。”
理论上，这个p-value的H0，还真的就是系数=0.
所以，请问，我们以前包括目前都这样下结论，“pvalue小，X对Y的影响很重要。” 其实是错误的！！！

miked

大约 2 个月

Inferno 发表于 2025-05-13 14:15
你做数据分析总要有理论依据和假说吧。不能八竿子打不着的两个变量凑在一起为了数据分析而分析。数据分析是工具。只看工具不看理论有啥用

你说的这个在我们领域有困难。
因为我们就是把两个八竿子打不着的变量凑到一起，为发论文而分析。为什么？因为新颖，没人做过。没人知道这两个变量是啥关系，有啥关联。
如果被人分析过了，我们通常就不做了，因为发表不了高水平的期刊。

miked

大约 2 个月

高云风发表于 2025-05-13 14:25
这不仅是线形回归的缺点，适用于所有parametric 量化分析

能展开说说parametric分析方法，有什么致命的缺陷吗？

miked

大约 2 个月

木牛流马发表于 2025-05-13 14:29
统计学上显著，说明统计学上y确实是和x有微弱关联的，比如x增加一个unit， y确实是会增加的。但是这个增幅非常小，这个模型对于预测y没有用。你可以试试加一些covariates，可能x就不再显著了。

谢谢。但是我不同意你的观点。
”比如x增加一个unit， y确实是会增加的。但是这个增幅非常小“
我们可以构造这样的Y和X，使得x增加一个unit， y的增幅非常非常非常小。
但是虽然X的系数非常小，这个系数不等于0的p-value却非常重要。
下面是code，大家可以验证。 x在模型中的系数非常小（1e-5），但是p-value非常重要。 x=1:1000 y=1e-5*x lm(y~x)
summary(lm(y~x)) Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) -5.266e-18 1.523e-19 -3.457e+01 <2e-16 *** x 1.000e-05 2.636e-22 3.793e+16 <2e-16 ***

destiny2008

大约 2 个月

Inferno 发表于 2025-05-13 14:15
你做数据分析总要有理论依据和假说吧。不能八竿子打不着的两个变量凑在一起为了数据分析而分析。数据分析是工具。只看工具不看理论有啥用

这是通俗易懂的解释

高

高云风

大约 2 个月

miked 发表于 2025-05-13 14:33
你说的这个在我们领域有困难。
因为我们就是把两个八竿子打不着的变量凑到一起，为发论文而分析。为什么？因为新颖，没人做过。没人知道这两个变量是啥关系，有啥关联。
如果被人分析过了，我们通常就不做了，因为发表不了高水平的期刊。

你是本科生还是硕士生？如果博士生的话做科研给你这样的印象，老板水平有点堪忧啊

我

我的小棉袄

大约 2 个月

俗话说大力出奇迹，只要发动机都厉害，砖头都能上天。
统计也一样，只要样本量够大，最后总能得出统计显著的结果。但是有用吗？p-value is not everything，俗话又说，统计就是个p。

miked

大约 2 个月

destiny2008 发表于 2025-05-13 14:38
这是通俗易懂的解释

不做数据分析，怎么能知道两个变量是八竿子打不着，还是打得着呢？
我们的课题很多都是给定两个变量，我们不知道这它两之间有关系，还是无关系。
举个例子。
X: 糖尿病的血糖值 Y: 看新冠病的次数
有人认为X和Y有关系。有人认为他两无关系。
现在的研究就是判断它两到底有没有关系。

木

木牛流马

大约 2 个月

miked 发表于 2025-05-13 14:38
谢谢。但是我不同意你的观点。
”比如x增加一个unit， y确实是会增加的。但是这个增幅非常小“
我们可以构造这样的Y和X，使得x增加一个unit， y的增幅非常非常非常小。
但是虽然X的系数非常小，这个系数不等于0的p-value却非常重要。
下面是code，大家可以验证。 x在模型中的系数非常小（1e-5），但是p-value非常重要。 x=1:1000 y=1e-5*x lm(y~x)
summary(lm(y~x)) Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) -5.266e-18 1.523e-19 -3.457e+01 <2e-16 *** x 1.000e-05 2.636e-22 3.793e+16 <2e-16 ***

你第二个例子里面r2也很大啊和你的第一个例子不一样我说的系数小指在影响y的很多因素里面，x的系数占比例非常小。在你第一个例子里面，你如果丢几个和y关联更大的变量进model，x多半不显著了而你的第二个例子里面所谓的“系数小”是人为scale了y，但其实x可以解释y所有的变化，系数是非常大的

miked

大约 2 个月

我的小棉袄发表于 2025-05-13 14:43
俗话说大力出奇迹，只要发动机都厉害，砖头都能上天。
统计也一样，只要样本量够大，最后总能得出统计显著的结果。但是有用吗？p-value is not everything，俗话又说，统计就是个p。

谢谢！
一般样本多大后，统计显著的结果，就会丧失意义？
我们从最简单的举例。
t.test(X, mu=0) 判断X是不是等于0.
那么当X的样本量达到多少时，这个t.test出来的p-value就没啥意义了？
有人研究你说的这类问题吗？这个议题叫什么？type-2 error？矫正后的p-value可信吗？

laohua001

大约 2 个月

不做数据分析，怎么能知道两个变量是八竿子打不着，还是打得着呢？
我们的课题很多都是给定两个变量，我们不知道这它两之间有关系，还是无关系。
举个例子。
X: 糖尿病的血糖值 Y: 看新冠病的次数
有人认为X和Y有关系。有人认为他两无关系。
现在的研究就是判断它两到底有没有关系。

miked 发表于 2025-05-13 14:46

数据分析第一步就是目测
目测都过不了的，任何统计分析都没用。
统计就是工具，甚至是game

miked

大约 2 个月

木牛流马发表于 2025-05-13 14:52
你第二个例子里面r2也很大啊和你的第一个例子不一样我说的系数小指在影响y的很多因素里面，x的系数占比例非常小。在你第一个例子里面，你如果丢几个和y关联更大的变量进model，x多半不显著了而你的第二个例子里面所谓的“系数小”是人为scale了y，但其实x可以解释y所有的变化，系数是非常大的

我只是想说，p-value 的大小，和系数的小，没有关系。
我们不能根据系数很小，就说这个系数不重要。
系数很小，也有可能系数很重要。

miked

大约 2 个月

laohua001 发表于 2025-05-13 14:54
数据分析第一步就是目测
目测都过不了的，任何统计分析都没用。
统计就是工具，甚至是game

目测的判断准则是什么？
怎么能保证目测的准确性？
目测的结论，也没法写论文啊？

高

高云风

大约 2 个月

miked 发表于 2025-05-13 14:54
谢谢！
一般样本多大后，统计显著的结果，就会丧失意义？
我们从最简单的举例。
t.test(X, mu=0) 判断X是不是等于0.
那么当X的样本量达到多少时，这个t.test出来的p-value就没啥意义了？
有人研究你说的这类问题吗？这个议题叫什么？type-2 error？矫正后的p-value可信吗？

Post hoc power analysis

laohua001

大约 2 个月

目测的判断准则是什么？
怎么能保证目测的准确性？
目测的结论，也没法写论文啊？
miked 发表于 2025-05-13 14:58

专业知识的common sense。
只有专业基础知识通过了，才有必要做统计检验。

miked

大约 2 个月

你是本科生还是硕士生？如果博士生的话做科研给你这样的印象，老板水平有点堪忧啊
高云风发表于 2025-05-13 14:43

以前听过一个蝴蝶效应。
指一个动态系统中，初始条件微小变化，会得能带动整个系统长期外加巨大链式反应，是一种混沌现象。
你在地球这边扇扇子，可能会引起地球另一端的海啸。
所以，在这样的动态的互相关联的宇宙世界里，我们能找到完全八竿子打不着的两个变量吗？
在这样的理论下，任何独立，都其实不是绝对的独立，都是相对的。
换言之，任何两个变量，都是相连的。不相连的两个变量在宇宙中并不绝对存在。
中美两国贸易战想脱钩，脱不了。

magnoliaceae

大约 2 个月

高云风发表于 2025-05-13 14:23
回复 1楼 miked 的帖子
Difference between statistical significance vs. practical significance
目测你样本量太大导致excessive statistical power, which can identify however small effect as statistically significant.

也想说这个，纯粹就是样本量太大
只要样本量够大，啥都能显著，不信你试试！

miked

大约 2 个月

magnoliaceae 发表于 2025-05-13 15:07
也想说这个，纯粹就是样本量太大
只要样本量够大，啥都能显著，不信你试试！

是的。那么请问，有人研究过，样本多大后，统计结果就不可信？
这个研究方向叫什么？

magnoliaceae

大约 2 个月

不做数据分析，怎么能知道两个变量是八竿子打不着，还是打得着呢？
我们的课题很多都是给定两个变量，我们不知道这它两之间有关系，还是无关系。
举个例子。
X: 糖尿病的血糖值 Y: 看新冠病的次数
有人认为X和Y有关系。有人认为他两无关系。
现在的研究就是判断它两到底有没有关系。

miked 发表于 2025-05-13 14:46

判断他俩有没有关系要看domain knowledge，而不是只闭着眼拿两坨数据搞线性分析，因为你都不知道这俩到底是不是有可能是‘线性’关系，因为你根本不知道这两个变量都是啥意思
简直了，这是什么学校什么专业

laohua001

大约 2 个月

miked 发表于 2025-05-13 15:09
是的。那么请问，有人研究过，样本多大后，统计结果就不可信？
这个研究方向叫什么？

数据可信前提下，样本量越大越可信，这是统计学的基石。
数据不可信的话，想要啥结果就有啥结果。

magnoliaceae

大约 2 个月

miked 发表于 2025-05-13 15:09
是的。那么请问，有人研究过，样本多大后，统计结果就不可信？
这个研究方向叫什么？

基本可以肯定这是个烂坑了

miked

大约 2 个月

判断他俩有没有关系要看domain knowledge，而不是只闭着眼拿两坨数据搞线性分析，因为你都不知道这俩到底是不是有可能是‘线性’关系，因为你根本不知道这两个变量都是啥意思
简直了，这是什么学校什么专业
magnoliaceae 发表于 2025-05-13 15:10

不和你争了。
如果知道两个变量有关系，还去做数据分析，干什么呢？
之所以做数据分析，就是去研究两个变量有没有关系，就是因为domain knowledge里没有人知道这个答案，或者知道的答案是互相矛盾的。

shanggj

大约 2 个月

回复 1楼 miked 的帖子
你是 microsat 的马甲吗？

高

高云风

大约 2 个月

magnoliaceae 发表于 2025-05-13 15:13
基本可以肯定这是个烂坑了

不一定是坑，只是水平实在堪忧，我最近就被几个博士答辩的水平之烂给震惊到了

vraic

大约 2 个月

miked 发表于 2025-05-13 13:32
两个变量X和Y，数据见图。肉眼看，X和Y之间没有关系。
线性回归分析 lm(Y~X)
X系数对应的pvalue 却显示重要。
Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 0.46836 0.02063 22.703 <2e-16 *** X 0.08252 0.03468 2.379 0.0176 **
请问如何理解这个p-value = 0.0176 < 0.05呢。
effect of X on Y is significant?
在下这个结论的时候，需要考虑模型的Adjusted R-suqared 吗?
如果Adjusted R-suqared 非常低，那么就不能说effect of X on Y is significant。对吗？

肉眼看不出关系的两个变量，为啥线性分析，却能得出pvalue很重要？这是不是说明线性分析并非万能？

你提到的这个现象非常典型，而且你的疑问非常有价值：**为什么肉眼看 X 和 Y 没啥关系，但线性回归却给出了一个显著的 p-value（0.0176 < 0.05）？**我们逐一解释这个现象以及应如何正确解读： ✅ 首先明确：p-value 的意义 在线性回归中，X 的系数的 p-value 表示“在零假设为真（即 X 对 Y 没有线性影响）时，观察到当前或更极端的样本结果的概率”。 你的结果是： r 复制编辑 X 0.08252 0.03468 t = 2.379 p = 0.0176 意思是，在假设 X 与 Y 毫无线性关系的前提下，观察到 t = 2.379 的几率是 1.76%。低于 5%，所以我们“拒绝零假设”，说 X 与 Y 的线性关系“在统计上显著”。 ❗但：“统计显著” ≠ “实际有意义” 这是很多人误用 p-value 的地方。你可以这样理解： p-value < 0.05：我们有理由怀疑 X 和 Y 在样本中可能存在 非零的线性关系；但这个“关系”可以非常微弱，甚至完全无实际价值，只是由于样本量、分布、偶然性等因素被放大出来了。 📉 看 Adjusted R-squared 的作用

Adjusted R² 衡量的是模型整体的解释力 —— X 对 Y 的线性回归模型解释了多少变异性。

如果你发现： X 的 p-value 很小（统计显著）；但 Adjusted R² 非常小，比如 0.01；这说明：虽然 X 的影响在统计上显著，但其解释力非常低，X 几乎无法解释 Y 的波动。 💡这就像说：“X 是个可靠的预测因子——但只解释了 Y 变异的 1%，几乎没啥实际用途。” 🧠 所以总结一下：结论类别含义p-value < 0.05拒绝“X 与 Y 没有关系”的零假设，有统计学证据表明 X 与 Y 的线性关系 ≠ 0Adjusted R² 很低即便显著，但X 对 Y 的影响很小，无法解释大部分波动，实际价值可能极低视觉看不出关系线性关系可能微弱或被噪音掩盖；统计分析比人眼更敏感，但不一定更有意义
📌 为什么看上去没关系，但回归却“显著”？几种常见情况： 样本量较大 只要样本量够大，即便极小的效应也能检测到 → 小 p-value。 数据有微弱但系统性的趋势 人眼很难察觉微弱趋势，但回归模型能捕捉。 数据存在离群点 / leverage points 少数点可能大幅影响回归线，从而导致“伪显著”。 🔎 检查建议要避免误判，可以多角度审视模型： 画图检查： 散点图 + 回归线残差图（residual plot） Q-Q图（正态性） 关注 effect size 比如这个回归系数是 0.08 —— 每单位 X 增加，Y 仅增加 0.08，有意义吗？ 检查 Adjusted R² 和信赖区间 如果 95% CI 也在零附近，说明影响虽然“显著”，但不一定实质性。 ✅ 总结一句话：

p-value 小 ≠ 关系强；统计显著 ≠ 实质重要。

你完全正确地意识到线性分析不是万能的工具。在“肉眼看无关系”的情形下，哪怕 p-value 很小，也要结合 R²、图形和实际解释力判断其价值。

高

高云风

大约 2 个月

laohua001 发表于 2025-05-13 15:12
数据可信前提下，样本量越大越可信，这是统计学的基石。
数据不可信的话，想要啥结果就有啥结果。

第一句不准确，不是越大越好，样本量达到threshold 后再大的边际效应急剧递减

高

高云风

大约 2 个月

shanggj 发表于 2025-05-13 15:16
回复 1楼 miked 的帖子
你是 microsat 的马甲吗？

哈哈哈，这个不至于的，microsat比这还是强不少的，这个楼主一看就是学生

木

木牛流马

大约 2 个月

miked 发表于 2025-05-13 14:56
我只是想说，p-value 的大小，和系数的小，没有关系。
我们不能根据系数很小，就说这个系数不重要。
系数很小，也有可能系数很重要。

当然不能光看系数啊！要看系数还要看r2啊。系数都是相对的你可以随便scale啊

miked

大约 2 个月

高云风发表于 2025-05-13 14:23
回复 1楼 miked 的帖子
Difference between statistical significance vs. practical significance
目测你样本量太大导致excessive statistical power, which can identify however small effect as statistically significant.

请问，样本多大，就为不能提供可靠的结论了呢？
另外，我有一种猜想：
即使样本小，我也能找到这样的X和Y
使得
模型Y~X中，X系数的pvalue很小（<0.05)
但是X和Y看起来也没什么关系。
因此，如果得出结果“X对于Y很重要”，也是错误的。

miked

大约 2 个月

你提到的这个现象非常典型，而且你的疑问非常有价值：**为什么肉眼看 X 和 Y 没啥关系，但线性回归却给出了一个显著的 p-value（0.0176 < 0.05）？**我们逐一解释这个现象以及应如何正确解读： ✅ 首先明确：p-value 的意义 在线性回归中，X 的系数的 p-value 表示“在零假设为真（即 X 对 Y 没有线性影响）时，观察到当前或更极端的样本结果的概率”。 你的结果是： r 复制编辑 X 0.08252 0.03468 t = 2.379 p = 0.0176 意思是，在假设 X 与 Y 毫无线性关系的前提下，观察到 t = 2.379 的几率是 1.76%。低于 5%，所以我们“拒绝零假设”，说 X 与 Y 的线性关系“在统计上显著”。 ❗但：“统计显著” ≠ “实际有意义” 这是很多人误用 p-value 的地方。你可以这样理解： p-value < 0.05：我们有理由怀疑 X 和 Y 在样本中可能存在 非零的线性关系；但这个“关系”可以非常微弱，甚至完全无实际价值，只是由于样本量、分布、偶然性等因素被放大出来了。 📉 看 Adjusted R-squared 的作用
Adjusted R² 衡量的是模型整体的解释力 —— X 对 Y 的线性回归模型解释了多少变异性。
如果你发现： X 的 p-value 很小（统计显著）；但 Adjusted R² 非常小，比如 0.01；这说明：虽然 X 的影响在统计上显著，但其解释力非常低，X 几乎无法解释 Y 的波动。 💡这就像说：“X 是个可靠的预测因子——但只解释了 Y 变异的 1%，几乎没啥实际用途。” 🧠 所以总结一下：结论类别含义p-value < 0.05拒绝“X 与 Y 没有关系”的零假设，有统计学证据表明 X 与 Y 的线性关系 ≠ 0Adjusted R² 很低即便显著，但X 对 Y 的影响很小，无法解释大部分波动，实际价值可能极低视觉看不出关系线性关系可能微弱或被噪音掩盖；统计分析比人眼更敏感，但不一定更有意义
📌 为什么看上去没关系，但回归却“显著”？几种常见情况： 样本量较大 只要样本量够大，即便极小的效应也能检测到 → 小 p-value。 数据有微弱但系统性的趋势 人眼很难察觉微弱趋势，但回归模型能捕捉。 数据存在离群点 / leverage points 少数点可能大幅影响回归线，从而导致“伪显著”。 🔎 检查建议要避免误判，可以多角度审视模型： 画图检查： 散点图 + 回归线残差图（residual plot） Q-Q图（正态性） 关注 effect size 比如这个回归系数是 0.08 —— 每单位 X 增加，Y 仅增加 0.08，有意义吗？ 检查 Adjusted R² 和信赖区间 如果 95% CI 也在零附近，说明影响虽然“显著”，但不一定实质性。 ✅ 总结一句话：
p-value 小 ≠ 关系强；统计显著 ≠ 实质重要。
你完全正确地意识到线性分析不是万能的工具。在“肉眼看无关系”的情形下，哪怕 p-value 很小，也要结合 R²、图形和实际解释力判断其价值。
vraic 发表于 2025-05-13 15:18

chatgpt里的程序员早就研究过这个问题了？

laohua001

大约 2 个月

第一句不准确，不是越大越好，样本量达到threshold 后再大的边际效应急剧递减
高云风发表于 2025-05-13 15:21

那是因为数学计算的局限性。
现代统计学被人诟病为“神学”的原因之一是“用样本替代总体”。只有总体“统计”才能有“真正”的概率。所以说，数学计算和大程度上是“game”，本身统计学把事物都定义成“分布”就不是真实的。

高

高云风

大约 2 个月

laohua001 发表于 2025-05-13 15:28
那是因为数学计算的局限性。
现代统计学被人诟病为“神学”的原因之一是“用样本替代总体”。只有总体“统计”才能有“真正”的概率。所以说，数学计算和大程度上是“game”，本身统计学把事物都定义成“分布”就不是真实的。

跟数学计算无关，是基于hypothesis testing 的传统parametric statistics 的内在缺陷， design flaw instead of computational constraint

laohua001

大约 2 个月

跟数学计算无关，是基于hypothesis testing 的传统parametric statistics 的内在缺陷， design flaw instead of computational constraint
高云风发表于 2025-05-13 15:31

这就是我说的，统计上定义“分布”本身就是不真实的，所以基于“分布理论”的“一切数学计算”都有”局限性“。

高

高云风

大约 2 个月

laohua001 发表于 2025-05-13 15:32
这就是我说的，统计上定义“分布”本身就是不真实的，所以基于“分布理论”的“一切数学计算”都有”局限性“。

嗯，那我们说的是一个意思
这是基础统计方法课会教的内容

laohua001

大约 2 个月

嗯，那我们说的是一个意思
这是基础统计方法课会教的内容
高云风发表于 2025-05-13 15:34

一楼的问题很好解释，这些数据根本没有“分布” ，非要按照“统计设定好的分布”去计算，得到的任何结果都有可能。
所以，统计的第一步就是用专业知识目测结果。专业知识都不过，都不能解释的数据，做统计没意义。P值， R值都是game。

miked

大约 2 个月

高云风发表于 2025-05-13 15:17
不一定是坑，只是水平实在堪忧，我最近就被几个博士答辩的水平之烂给震惊到了

既然你说我水平菜，那我就真心请教你一个问题。
Y~ X + Z
为何改变变量的测量单位，也能直接改变这个变量在模型中的系数的p-value？
假设X是age，那么我们可以用年来计算age，我们也可以用月来计算age，比如30岁，对应360月。
为何我们用年来测量age，和用月来测量age时，对应的age在模型中的系数的p-value会变呢？
特别是，一个小于0.05，而另一个大于0.05.这样我们就得出一个age是在模型中重要的，而另一个age是在模型中不那么重要。这完全是两个结论。为何age的测量单位，对结果影响如此之大？
这是线性回归方法的无法避免的错误吗？

miked

大约 2 个月

laohua001 发表于 2025-05-13 15:32
这就是我说的，统计上定义“分布”本身就是不真实的，所以基于“分布理论”的“一切数学计算”都有”局限性“。

你这个牛啊。你是要推翻现在的教科书吗？
不基于分布的统计学，感觉结果更不可靠。

高

高云风

大约 2 个月

miked 发表于 2025-05-13 15:40
既然你说我水平菜，那我就真心请教你一个问题。
Y~ X + Z
为何改变变量的测量单位，也能直接改变这个变量在模型中的系数的p-value？
假设X是age，那么我们可以用年来计算age，我们也可以用月来计算age，比如30岁，对应360月。
为何我们用年来测量age，和用月来测量age时，对应的age在模型中的系数的p-value会变呢？
特别是，一个小于0.05，而另一个大于0.05.这样我们就得出一个age是在模型中重要的，而另一个age是在模型中不那么重要。这完全是两个结论。为何age的测量单位，对结果影响如此之大？
这是线性回归方法的无法避免的错误吗？

你真的需要回去复习基础统计课的笔记
这是你研究/实验设计的问题，跟统计方法的选择无关，自然不能甩锅给线性回归

laohua001

大约 2 个月

你这个牛啊。你是要推翻现在的教科书吗？
不基于分布的统计学，感觉结果更不可靠。
miked 发表于 2025-05-13 15:42

数学，统计学是人类没办法的办法。谈不上推翻。

miked

大约 2 个月

laohua001 发表于 2025-05-13 15:39
一楼的问题很好解释，这些数据根本没有“分布” ，非要按照“统计设定好的分布”去计算，得到的任何结果都有可能。
所以，统计的第一步就是用专业知识目测结果。专业知识都不过，都不能解释的数据，做统计没意义。P值， R值都是game。

有道理。

高

高云风

大约 2 个月

miked 发表于 2025-05-13 15:42
你这个牛啊。你是要推翻现在的教科书吗？
不基于分布的统计学，感觉结果更不可靠。

不基于分布的统计学叫nonparametric statistics, 那里基本不甩p这么档子事

高

高云风

大约 2 个月

laohua001 发表于 2025-05-13 15:39
一楼的问题很好解释，这些数据根本没有“分布” ，非要按照“统计设定好的分布”去计算，得到的任何结果都有可能。
所以，统计的第一步就是用专业知识目测结果。专业知识都不过，都不能解释的数据，做统计没意义。P值， R值都是game。

这个可能性存在，但不大
从楼主给的图看，俩变量都是连续变量，正常的随机连续变量是默认符合正态分布的，unless otherwise stated, 不信你问他这俩变量他用什么函数产生的
这种情况下出现他说的情况，样本量的原因大大超过分布问题的可能性

miked

大约 2 个月

laohua001 发表于 2025-05-13 15:39
一楼的问题很好解释，这些数据根本没有“分布” ，非要按照“统计设定好的分布”去计算，得到的任何结果都有可能。
所以，统计的第一步就是用专业知识目测结果。专业知识都不过，都不能解释的数据，做统计没意义。P值， R值都是game。

我有个多年困惑的问题。特此请教。
请问你在使用Generalized Linear Model (GLM)时候， glm(y~x, data=data, family = "gaussian")
你会先测试是否y满足分布吗？（上面是高斯分布）
我好像从来没在任何网上看到过，谁在使用glm之前，做过任何分布的测试。
这是为什么呢？

miked

大约 2 个月

这个可能性存在，但不大
从楼主给的图看，俩变量都是连续变量，正常的随机连续变量是默认符合正态分布的，unless otherwise stated, 不信你问他这俩变量他用什么函数产生的
这种情况下出现他说的情况，样本量的原因大大超过分布问题的可能性
高云风发表于 2025-05-13 15:50

均匀分布。
但是我用任何其他分布，都能发现我一楼提出的问题。
有啥方法能判断样本多大为“太大了容易出错”？

高

高云风

大约 2 个月

miked 发表于 2025-05-13 15:58
均匀分布。
但是我用任何其他分布，都能发现我一楼提出的问题。
有啥方法能判断样本多大为“太大了容易出错”？

我前面回了，post hoc power analysis

miked

大约 2 个月

这个可能性存在，但不大
从楼主给的图看，俩变量都是连续变量，正常的随机连续变量是默认符合正态分布的，unless otherwise stated, 不信你问他这俩变量他用什么函数产生的
这种情况下出现他说的情况，样本量的原因大大超过分布问题的可能性
高云风发表于 2025-05-13 15:50

请问你在审nature/science稿子的时候，遇到
用线性回归的p-value，来说明某某变量（X）对于某某变量（Y），非常重要。 (假设，X和Y是当今科学界某领域内非常重要的两个变量,但是我们又不是很熟悉。比如X是光子量， Y是宇宙爆炸级数。)
因此，本文是个重大发现。
但是，你作为统计学家，你感觉“只要样本大，任何两个变量都可能相互关联”，因此，这个发现不一定正确。
这个时候，你要求作者做些什么（如何修改稿子）？
如果你说他的样本太大，那他就会反问，“请问多大为不大”。
你会让这样的稿子通过吗？

miked

大约 2 个月

高云风发表于 2025-05-13 16:02
我前面回了，post hoc power analysis

请问怎么能从这个post hoc power analysis得出样本要不大于多少？
我用的post hoc power analysis，都是求样本不能小于多少。

qianqiuxue

大约 2 个月

miked 发表于 2025-05-13 14:38
谢谢。但是我不同意你的观点。
”比如x增加一个unit， y确实是会增加的。但是这个增幅非常小“
我们可以构造这样的Y和X，使得x增加一个unit， y的增幅非常非常非常小。
但是虽然X的系数非常小，这个系数不等于0的p-value却非常重要。
下面是code，大家可以验证。 x在模型中的系数非常小（1e-5），但是p-value非常重要。 x=1:1000 y=1e-5*x lm(y~x)
summary(lm(y~x)) Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) -5.266e-18 1.523e-19 -3.457e+01 <2e-16 *** x 1.000e-05 2.636e-22 3.793e+16 <2e-16 ***

的确跟系数大小没关系，你的例子里把data压缩的再平也是同样的p value，只是斜率减小他应该是想说correlation小

qianqiuxue

大约 2 个月

木牛流马发表于 2025-05-13 14:52
你第二个例子里面r2也很大啊和你的第一个例子不一样我说的系数小指在影响y的很多因素里面，x的系数占比例非常小。在你第一个例子里面，你如果丢几个和y关联更大的变量进model，x多半不显著了而你的第二个例子里面所谓的“系数小”是人为scale了y，但其实x可以解释y所有的变化，系数是非常大的

嗯哼

miked

大约 2 个月

qianqiuxue 发表于 2025-05-13 16:13
的确跟系数大小没关系，你的例子里把data压缩的再平也是同样的p value，只是斜率减小他应该是想说correlation小

correlation小的情况，我也试验过。
第一楼的图中的X和Y，就是correlation非常小，但是模型Y~X中的X的系数的pvalue却非常重要。

qianqiuxue

大约 2 个月

miked 发表于 2025-05-13 14:54
谢谢！
一般样本多大后，统计显著的结果，就会丧失意义？
我们从最简单的举例。
t.test(X, mu=0) 判断X是不是等于0.
那么当X的样本量达到多少时，这个t.test出来的p-value就没啥意义了？
有人研究你说的这类问题吗？这个议题叫什么？type-2 error？矫正后的p-value可信吗？

哈哈，也不是说样本大就肯定失去意义啊你说的样本大，本意应该是too many randomness 进入model 样本如果带着population更多的pattern进来，只会更有意义
p-value告诉人们，爱的多少不重要，要真才好人们却明白，真的太少，多了没有那么慌

miked

大约 2 个月

哈哈，也不是说样本大就肯定失去意义啊你说的样本大，本意应该是too many randomness 进入model 样本如果带着population更多的pattern进来，只会更有意义
p-value告诉人们，爱的多少不重要，要真才好人们却明白，真的太少，多了没有那么慌
qianqiuxue 发表于 2025-05-13 16:18

这一点上，前面的laohua001和高云风是对的。的确，样本大了后，当今的统计方法得出的p-value不准。
我分析的海量数据，也支持这一观点。

qianqiuxue

大约 2 个月

miked 发表于 2025-05-13 15:05
以前听过一个蝴蝶效应。
指一个动态系统中，初始条件微小变化，会得能带动整个系统长期外加巨大链式反应，是一种混沌现象。
你在地球这边扇扇子，可能会引起地球另一端的海啸。
所以，在这样的动态的互相关联的宇宙世界里，我们能找到完全八竿子打不着的两个变量吗？
在这样的理论下，任何独立，都其实不是绝对的独立，都是相对的。
换言之，任何两个变量，都是相连的。不相连的两个变量在宇宙中并不绝对存在。
中美两国贸易战想脱钩，脱不了。

薛定谔来了
呵呵，任何两个变量都是相连的又怎样两颗暧昧不明的心又怎样脱不脱又怎样

qianqiuxue

大约 2 个月

miked 发表于 2025-05-13 15:40
既然你说我水平菜，那我就真心请教你一个问题。
Y~ X + Z
为何改变变量的测量单位，也能直接改变这个变量在模型中的系数的p-value？
假设X是age，那么我们可以用年来计算age，我们也可以用月来计算age，比如30岁，对应360月。
为何我们用年来测量age，和用月来测量age时，对应的age在模型中的系数的p-value会变呢？
特别是，一个小于0.05，而另一个大于0.05.这样我们就得出一个age是在模型中重要的，而另一个age是在模型中不那么重要。这完全是两个结论。为何age的测量单位，对结果影响如此之大？
这是线性回归方法的无法避免的错误吗？

呵呵，有协变量当然不一样

qianqiuxue

大约 2 个月

miked 发表于 2025-05-13 16:07
请问你在审nature/science稿子的时候，遇到
用线性回归的p-value，来说明某某变量（X）对于某某变量（Y），非常重要。 (假设，X和Y是当今科学界某领域内非常重要的两个变量,但是我们又不是很熟悉。比如X是光子量， Y是宇宙爆炸级数。)
因此，本文是个重大发现。
但是，你作为统计学家，你感觉“只要样本大，任何两个变量都可能相互关联”，因此，这个发现不一定正确。
这个时候，你要求作者做些什么（如何修改稿子）？
如果你说他的样本太大，那他就会反问，“请问多大为不大”。
你会让这样的稿子通过吗？

我去，怎么看不完了

qianqiuxue

大约 2 个月

miked 发表于 2025-05-13 16:15
correlation小的情况，我也试验过。
第一楼的图中的X和Y，就是correlation非常小，但是模型Y~X中的X的系数的pvalue却非常重要。

我是说，那位朋友是说‘虽然p显著，但correlation小’，呵呵

qianqiuxue

大约 2 个月

miked 发表于 2025-05-13 16:21
这一点上，前面的laohua001和高云风是对的。的确，样本大了后，当今的统计方法得出的p-value不准。
我分析的海量数据，也支持这一观点。

i don't think so 你的结果的可能原因是你的data本来就不是一个population的也就是说统计检验的假设不成立
这在现在ml海量抓数据的情况下是有这个可能性的
绝对不可能存在一个这样的理论：符合population assumption的data，sample size大了就p-value不准
这是泛神秘主义的伪科学 lol

miked

大约 2 个月

qianqiuxue 发表于 2025-05-13 16:26
呵呵，有协变量当然不一样

如果没有协变量
Y~a * k * X ~ (a*k) * X ~ A * X
所以p-value不变。
为啥如果有协变量，会不一样呢？

qianqiuxue

大约 2 个月

miked 发表于 2025-05-13 16:33
如果没有协变量
Y~a * k * X ~ (a*k) * X ~ A * X
所以p-value不变。
为啥如果有协变量，会不一样呢？

你的久未联系的女神说要跟你谈恋爱，你的女朋友刚刚竟然还敢抢你零食吃，她的系数被你直接清零了

qianqiuxue

大约 2 个月

qianqiuxue 发表于 2025-05-13 16:33
i don't think so 你的结果的可能原因是你的data本来就不是一个population的也就是说统计检验的假设不成立
这在现在ml海量抓数据的情况下是有这个可能性的
绝对不可能存在一个这样的理论：符合population assumption的data，sample size大了就p-value不准
这是泛神秘主义的伪科学 lol

btw：你的研究中如果碰见这种情况，你要做的不是寻找一种神秘理论而是考虑做subgroup analysis

高

高云风

大约 2 个月

qianqiuxue 发表于 2025-05-13 16:38
你的久未联系的女神说要跟你谈恋爱，你的女朋友刚刚竟然还敢抢你零食吃，她的系数被你直接清零了

难怪当年闺蜜圈里一致同意，最优秀的情书出自理科生之手😂

健

健康就好

大约 2 个月

高云风发表于 2025-05-13 15:21
哈哈哈，这个不至于的，microsat比这还是强不少的，这个楼主一看就是学生

不一定哦，我甚至还cross reference了一下，这俩问问题风格一样一样的.

木

木牛流马

大约 2 个月

qianqiuxue 发表于 2025-05-13 16:38
你的久未联系的女神说要跟你谈恋爱，你的女朋友刚刚竟然还敢抢你零食吃，她的系数被你直接清零了

笑死！你太有才了

crichris

大约 2 个月

miked 发表于 2025-05-13 14:29
请问可以把“X的系数不是0” 再改成 “Y不是常数”吗？
因为X的系数是0，就等价于 Y是常数。所以， X的系数不是0，就等价于 Y不是常数。
那么，我们这么多发表的论文，都是这样下结论的，“说明了Y不是个常数”
论文里，大家都是这样下结论的，“X对Y的影响很重要。”
理论上，这个p-value的H0，还真的就是系数=0.
所以，请问，我们以前包括目前都这样下结论，“pvalue小，X对Y的影响很重要。” 其实是错误的！！！

看你怎么定义重要这个词
有一些beta 数很小的以至于对y的影响不大
但是在y =x beta + epsilon (有 epsilon这一项误差)这个frame work下 pvalue说的是你有多confident 这个beta 是0

你这个例子太简单了是univariate 的
以至于如果把截距拿掉后r squared correlation 什么的都是有一一对应的很难单独拿出来讨论

Ella2020

大约 2 个月

我已经忘记了很多的统计知识，但是看了问题的描述，也觉得是样本太大导致的

jawa

大约 2 个月

mark mark

Ewj1023

大约 2 个月

回复 21楼木牛流马的帖子
你们在说不同的“系数”。
1楼说的是斜率，木牛流马说的是correlation coefficient。在这个例子里，虽然斜率很小，但是相关性是最高级别,因为你预设了y和x的线性关系（完美相关性，具体说的话这里的correlation coefficient是-1，which means perfect negative linear relationship)。
你这个例子不需要跑线性模型，因为你已经预设了完美线性，所以不存在用R square判断模型好坏。R square是用于判断（我们不知道自变量因变量到底什么关系的时候）我们所选的模型能够多大程度用自变量解释因变量的变化的（如果很小，说明即使斜率不是零aka p value for null is significant，但是x的变化对y的变化推动/解释性很小，跑模型的话你需要引入别的变量）。

Hyacinth172

大约 2 个月

magnoliaceae 发表于 2025-05-13 15:07
也想说这个，纯粹就是样本量太大
只要样本量够大，啥都能显著，不信你试试！

正想说这个。只要样本够大，啥都能显著。

little_white

大约 2 个月

miked 发表于 2025-05-13 13:32
两个变量X和Y，数据见图。肉眼看，X和Y之间没有关系。
线性回归分析 lm(Y~X)
X系数对应的pvalue 却显示重要。
Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 0.46836 0.02063 22.703 <2e-16 *** X 0.08252 0.03468 2.379 0.0176 **
请问如何理解这个p-value = 0.0176 < 0.05呢。
effect of X on Y is significant?
在下这个结论的时候，需要考虑模型的Adjusted R-suqared 吗?
如果Adjusted R-suqared 非常低，那么就不能说effect of X on Y is significant。对吗？

肉眼看不出关系的两个变量，为啥线性分析，却能得出pvalue很重要？这是不是说明线性分析并非万能？

只要样本数足够大，任何两个随机变量都会出现统计相关性。任何的模型需要有理论支持然后数据统计模型验证。模型的有效性需要用统计工具进行结构检验， R-square，F-test。p- value，或t-test，仅仅是测试系数非零，只要样本足够大se就会足够小，t-test的相关性都会显著。如果模型结构性测试R^2，F-test都通不过，t-test，p-value没有任何意义。

neolith2000

大约 2 个月

Hyacinth172 发表于 2025-05-14 02:00
正想说这个。只要样本够大，啥都能显著。

not really

bravov

大约 2 个月

样本量太大，什么都能显著。你需要做power analysis。

bardcat

大约 2 个月

回复 3楼 destiny2008 的帖子
这个解释相当好

miked

大约 2 个月

little_white 发表于 2025-05-14 05:56
只要样本数足够大，任何两个随机变量都会出现统计相关性。任何的模型需要有理论支持然后数据统计模型验证。模型的有效性需要用统计工具进行结构检验， R-square，F-test。p- value，或t-test，仅仅是测试系数非零，只要样本足够大se就会足够小，t-test的相关性都会显著。如果模型结构性测试R^2，F-test都通不过，t-test，p-value没有任何意义。

谢谢！请问业界现在有专门的统计方法来检测样本多大就太大了吗？

miked

大约 2 个月

bravov 发表于 2025-05-14 10:39
样本量太大，什么都能显著。你需要做power analysis。

请问什么power analysis 能检测样本过大？我用到的，都是检测样本过小的。

miked

大约 2 个月

我的小棉袄发表于 2025-05-13 14:43
俗话说大力出奇迹，只要发动机都厉害，砖头都能上天。
统计也一样，只要样本量够大，最后总能得出统计显著的结果。但是有用吗？p-value is not everything，俗话又说，统计就是个p。

请问业界有大牛指出过这个严重的统计学的错误吗？ paper之类的。
当然，如果有检验，或者矫正这个错误的，新方法，那就更好。猜想，目前还没有。
只是大家越来越多的人意识到了这个问题。
当我们在审别人的稿子的时候（特别是nature或者science的重要稿件的时候），怎么能批判作者之所以得出统计显著的结果，只是因为样本量足够大，其实，结论是错误的或者不可靠的？怎么能让editor信服你的观点？尤其在其他审稿人已经都同意发表的前提下。

miked

大约 2 个月

只要样本数足够大，任何两个随机变量都会出现统计相关性。任何的模型需要有理论支持然后数据统计模型验证。模型的有效性需要用统计工具进行结构检验， R-square，F-test。p- value，或t-test，仅仅是测试系数非零，只要样本足够大se就会足够小，t-test的相关性都会显著。如果模型结构性测试R^2，F-test都通不过，t-test，p-value没有任何意义。
little_white 发表于 2025-05-14 05:56

有没有论文可以引用来让别人信服你的观点“只要样本数足够大，任何两个随机变量都会出现统计相关性。”
目前有R^2的阈值，定义模型结构性测试R^2，通过或者通不过吗？也就是R^2多小算小？

鳗

鳗鱼饭

大约 2 个月

回复 87楼 miked 的帖子
楼主你的统计学知识需要加强，还有很长的路要走。现在你是发现了p-value的一点问题，有些困惑但是非常激动，似乎发现了新大陆。关于p-value这一点已经研究透彻了。
你把你精心设计的实验，重复100遍（每一次重新生成x和y），每一次把p-value保存下来，然后把这100个p-value的直方图画出来。你就会发现，p-value是一个随机的变量，它的直方图（如果你的实验没有问题的话），我虽然没有做，但是我可以告诉你，近似一个uniform分布。这就是p-value的本质，如果你的零假设是对的，那么它是一个随机变量，它的分布是uniform。基于p-value的结论，就如同基于confidence interval的结论一样，它的合理性都是在重复试验中解释的。也就是说，100个人用同样的方法分析他们独立的数据，那么只有5个人会犯type I error，95个不会。你所惊讶的错误，就是所谓的type I error，也就是你选择的0.05的threshold所要控制的对象。
如果你继续读文献，你会发现有很多关于p-value的讨论和发展。p-value 不是万能的，p-value的问题有很多，p-value的误用很普遍. 有很多人一生只做p-value，有很多人一生一个p-value的都不会做，仍然是伟大的统计学家。
然后你再回过头来看，你会发现使用p-value是有用的。就跟它当初被设计的初衷一样，有用。
这样一个看山是山看山不是山看山又是山的过程，需要你读很多书，需要你思考。
对你当下的建议是，不要在你还处于稚嫩的阶段，吵得全世界都知道，把还没换下的尿布怼editors脸上希望你多学习。
看好你。

kukustar

大约 2 个月

鳗鱼饭发表于 2025-05-14 11:54
回复 87楼 miked 的帖子
楼主你的统计学知识需要加强，还有很长的路要走。现在你是发现了p-value的一点问题，有些困惑但是非常激动，似乎发现了新大陆。关于p-value这一点已经研究透彻了。
你把你精心设计的实验，重复100遍（每一次重新生成x和y），每一次把p-value保存下来，然后把这100个p-value的直方图画出来。你就会发现，p-value是一个随机的变量，它的直方图（如果你的实验没有问题的话），我虽然没有做，但是我可以告诉你，近似一个uniform分布。这就是p-value的本质，如果你的零假设是对的，那么它是一个随机变量，它的分布是uniform。基于p-value的结论，就如同基于confidence interval的结论一样，它的合理性都是在重复试验中解释的。也就是说，100个人用同样的方法分析他们独立的数据，那么只有5个人会犯type I error，95个不会。你所惊讶的错误，就是所谓的type I error，也就是你选择的0.05的threshold所要控制的对象。
如果你继续读文献，你会发现有很多关于p-value的讨论和发展。p-value 不是万能的，p-value的问题有很多，p-value的误用很普遍. 有很多人一生只做p-value，有很多人一生一个p-value的都不会做，仍然是伟大的统计学家。
然后你再回过头来看，你会发现使用p-value是有用的。就跟它当初被设计的初衷一样，有用。
这样一个看山是山看山不是山看山又是山的过程，需要你读很多书，需要你思考。
对你当下的建议是，不要在你还处于稚嫩的阶段，吵得全世界都知道，把还没换下的尿布怼editors脸上希望你多学习。
看好你。

给这位老师手动点赞。另外加一句：楼主，你在惊讶于p value和variance explained的关系的时候，很多领域，特别是你觉得很有问题的顶刊，已经早就要求preregistration了。虽然这个规则也逐渐被玩坏，但是大家都知道a priori和post hoc不可同日而语。前面很多人给你回复都提到了要从问题出发，所谓theory driven，但是你好像意识不到这是什么意思，或者这个做法跟你说的放开了测测无数次之间是什么关系。前路漫漫，多学习。看好你！