线性回归中的很小pvalue如何理解?

m
miked
楼主 (北美华人网)
两个变量X和Y,数据见图。肉眼看,X和Y之间没有关系。
线性回归分析 lm(Y~X)
X系数对应的pvalue 却显示重要。
Coefficients:       Estimate Std. Error t value Pr(>|t|)    (Intercept) 0.46836  0.02063 22.703  <2e-16 *** X      0.08252  0.03468  2.379  0.0176 **
请问如何理解这个p-value = 0.0176 < 0.05呢。
effect of X on Y is significant?
在下这个结论的时候,需要考虑模型的Adjusted R-suqared 吗?
如果Adjusted R-suqared 非常低,那么就不能说effect of X on Y is significant。 对吗?

肉眼看不出关系的两个变量,为啥线性分析,却能得出pvalue很重要? 这是不是说明线性分析并非万能?


b
blushpeony
significant at 5% level
d
destiny2008
p-value = 0.0176 < 0.05 表明在这个回归模型中,变量 X 对 Y 的边际线性效应在统计学上显著。 但如果 Adjusted R-squared 很低说明整个模型的解释力极弱,也就是说,虽然“显著”,但“没用”。
m
miked
significant at 5% level
blushpeony 发表于 2025-05-13 13:34

是设定在5%。但是这个太离谱了。 肉眼根本看不出X和Y存在关联。
但是线性分析,给出的p-value确是重要的。
有统计大牛,深度研究过这个问题吗?这是不是说明:当前我们用的线性回归,其实是有局限性的。并不准确?
m
miked
destiny2008 发表于 2025-05-13 13:36
p-value = 0.0176 < 0.05 表明在这个回归模型中,变量 X 对 Y 的边际线性效应在统计学上显著。 但如果 Adjusted R-squared 很低说明整个模型的解释力极弱,也就是说,虽然“显著”,但“没用”。

把这两个连起来呢?我们能说,“X和Y没有关系” 吗?
有教科书上说,做线性分析的时候,p-value需要和adjusted R-squared统一起来一起下结论吗?
网上都是p-value < alpha, 就一锤定音的。
这幅图X和Y,是我精心设计的。目的就是要研究线性回归的缺点。 实际的X和Y是独立的两个随机数。他们两个之间,没有任何的关系。
这也就是我一开始问,“如果p-value < 0.05, 但是adjusted R-squared < 0.1, 我们可以下结论, X和Y没有关系吗?“
c
crichris
miked 发表于 2025-05-13 13:32
两个变量X和Y,数据见图。肉眼看,X和Y之间没有关系。
线性回归分析 lm(Y~X)
X系数对应的pvalue 却显示重要。
Coefficients:       Estimate Std. Error t value Pr(>|t|)    (Intercept) 0.46836  0.02063 22.703  <2e-16 *** X      0.08252  0.03468  2.379  0.0176 **
请问如何理解这个p-value = 0.0176 < 0.05呢。
effect of X on Y is significant?
在下这个结论的时候,需要考虑模型的Adjusted R-suqared 吗?
如果Adjusted R-suqared 非常低,那么就不能说effect of X on Y is significant。 对吗?

肉眼看不出关系的两个变量,为啥线性分析,却能得出pvalue很重要? 这是不是说明线性分析并非万能?



说明不是0
q
qianqiuxue
destiny2008 发表于 2025-05-13 13:36
p-value = 0.0176 < 0.05 表明在这个回归模型中,变量 X 对 Y 的边际线性效应在统计学上显著。 但如果 Adjusted R-squared 很低说明整个模型的解释力极弱,也就是说,虽然“显著”,但“没用”。

re
p-value significant 只说明斜率不是零----确信有关系 R2低,或者low correlation,或者effect不高说明没有实质性关系 跟林徽因和徐志摩的关系差不多
q
qianqiuxue
crichris 发表于 2025-05-13 14:09
说明不是0

嗯,准确的说是 ‘如果assume线性model的话’,95%确信斜率不是零
I
Inferno
miked 发表于 2025-05-13 13:43
把这两个连起来呢?我们能说,“X和Y没有关系” 吗?
有教科书上说,做线性分析的时候,p-value需要和adjusted R-squared统一起来一起下结论吗?
网上都是p-value < alpha, 就一锤定音的。
这幅图X和Y,是我精心设计的。目的就是要研究线性回归的缺点。 实际的X和Y是独立的两个随机数。他们两个之间,没有任何的关系。
这也就是我一开始问,“如果p-value < 0.05, 但是adjusted R-squared < 0.1, 我们可以下结论, X和Y没有关系吗?“

你做数据分析总要有理论依据和假说吧。不能八竿子打不着的两个变量凑在一起为了数据分析而分析。数据分析是工具。只看工具不看理论有啥用
高云风
回复 1楼 miked 的帖子
Difference between statistical significance vs. practical significance
目测你样本量太大导致excessive statistical power, which can identify however small effect as statistically significant.
高云风
miked 发表于 2025-05-13 13:43
把这两个连起来呢?我们能说,“X和Y没有关系” 吗?
有教科书上说,做线性分析的时候,p-value需要和adjusted R-squared统一起来一起下结论吗?
网上都是p-value < alpha, 就一锤定音的。
这幅图X和Y,是我精心设计的。目的就是要研究线性回归的缺点。 实际的X和Y是独立的两个随机数。他们两个之间,没有任何的关系。
这也就是我一开始问,“如果p-value < 0.05, 但是adjusted R-squared < 0.1, 我们可以下结论, X和Y没有关系吗?“

这不仅是线形回归的缺点,适用于所有parametric 量化分析
木牛流马
统计学上显著,说明统计学上y确实是和x有微弱关联的,比如x增加一个unit, y确实是会增加的。但是这个增幅非常小,这个模型对于预测y没有用。你可以试试加一些covariates,可能x就不再显著了。
m
miked
crichris 发表于 2025-05-13 14:09
说明不是0

请问可以把“X的系数不是0” 再改成 “Y不是常数”吗?
因为X的系数是0, 就等价于 Y是常数。所以, X的系数不是0, 就等价于 Y不是常数。
那么,我们这么多发表的论文,都是这样下结论的,“说明了Y不是个常数”
论文里,大家都是这样下结论的,“X对Y的影响很重要。”
理论上,这个p-value的H0,还真的就是系数=0.
所以,请问, 我们以前包括目前都这样下结论,“pvalue小,X对Y的影响很重要。” 其实是错误的!!!
m
miked
Inferno 发表于 2025-05-13 14:15
你做数据分析总要有理论依据和假说吧。不能八竿子打不着的两个变量凑在一起为了数据分析而分析。数据分析是工具。只看工具不看理论有啥用

你说的这个在我们领域有困难。
因为我们就是把两个八竿子打不着的变量凑到一起,为发论文而分析。 为什么?因为新颖,没人做过。 没人知道这两个变量是啥关系,有啥关联。
如果被人分析过了,我们通常就不做了,因为发表不了高水平的期刊。
m
miked
高云风 发表于 2025-05-13 14:25
这不仅是线形回归的缺点,适用于所有parametric 量化分析

能展开说说parametric分析方法,有什么致命的缺陷吗?
m
miked
木牛流马 发表于 2025-05-13 14:29
统计学上显著,说明统计学上y确实是和x有微弱关联的,比如x增加一个unit, y确实是会增加的。但是这个增幅非常小,这个模型对于预测y没有用。你可以试试加一些covariates,可能x就不再显著了。

谢谢。但是我不同意你的观点。
”比如x增加一个unit, y确实是会增加的。但是这个增幅非常小“
我们可以构造这样的Y和X,使得x增加一个unit, y的增幅非常非常非常小。
但是 虽然X的系数非常小,这个系数不等于0的p-value却非常重要。
下面是code,大家可以验证。 x在模型中的系数非常小(1e-5),但是p-value非常重要。 x=1:1000 y=1e-5*x lm(y~x)
summary(lm(y~x)) Coefficients:        Estimate Std. Error  t value Pr(>|t|)    (Intercept) -5.266e-18 1.523e-19 -3.457e+01  <2e-16 *** x      1.000e-05 2.636e-22 3.793e+16  <2e-16 ***

d
destiny2008
Inferno 发表于 2025-05-13 14:15
你做数据分析总要有理论依据和假说吧。不能八竿子打不着的两个变量凑在一起为了数据分析而分析。数据分析是工具。只看工具不看理论有啥用

这是通俗易懂的解释
高云风
miked 发表于 2025-05-13 14:33
你说的这个在我们领域有困难。
因为我们就是把两个八竿子打不着的变量凑到一起,为发论文而分析。 为什么?因为新颖,没人做过。 没人知道这两个变量是啥关系,有啥关联。
如果被人分析过了,我们通常就不做了,因为发表不了高水平的期刊。

你是本科生还是硕士生?如果博士生的话做科研给你这样的印象,老板水平有点堪忧啊
我的小棉袄
俗话说 大力出奇迹,只要发动机都厉害,砖头都能上天。
统计也一样,只要样本量够大,最后总能得出统计显著的结果。但是有用吗?p-value is not everything,俗话又说,统计就是个p。
m
miked
destiny2008 发表于 2025-05-13 14:38
这是通俗易懂的解释

不做数据分析,怎么能知道两个变量是八竿子打不着,还是打得着呢?
我们的课题很多都是 给定两个变量,我们不知道这它两之间有关系,还是无关系。
举个例子。
X: 糖尿病的血糖值 Y: 看新冠病的次数
有人认为X和Y有关系。有人认为他两无关系。
现在的研究就是判断它两到底有没有关系。

木牛流马
miked 发表于 2025-05-13 14:38
谢谢。但是我不同意你的观点。
”比如x增加一个unit, y确实是会增加的。但是这个增幅非常小“
我们可以构造这样的Y和X,使得x增加一个unit, y的增幅非常非常非常小。
但是 虽然X的系数非常小,这个系数不等于0的p-value却非常重要。
下面是code,大家可以验证。 x在模型中的系数非常小(1e-5),但是p-value非常重要。 x=1:1000 y=1e-5*x lm(y~x)
summary(lm(y~x)) Coefficients:        Estimate Std. Error  t value Pr(>|t|)    (Intercept) -5.266e-18 1.523e-19 -3.457e+01  <2e-16 *** x      1.000e-05 2.636e-22 3.793e+16  <2e-16 ***


你第二个例子里面r2也很大啊 和你的第一个例子不一样 我说的系数小指在影响y的很多因素里面,x的系数占比例非常小。在你第一个例子里面,你如果丢几个和y关联更大的变量进model,x多半不显著了 而你的第二个例子里面所谓的“系数小”是人为scale了y,但其实x可以解释y所有的变化,系数是非常大的
m
miked
我的小棉袄 发表于 2025-05-13 14:43
俗话说 大力出奇迹,只要发动机都厉害,砖头都能上天。
统计也一样,只要样本量够大,最后总能得出统计显著的结果。但是有用吗?p-value is not everything,俗话又说,统计就是个p。

谢谢!
一般样本多大后,统计显著的结果,就会丧失意义?
我们从最简单的举例。
t.test(X, mu=0) 判断X是不是等于0.
那么当X的样本量达到多少时,这个t.test出来的p-value就没啥意义了?
有人研究你说的这类问题吗?这个议题叫什么?type-2 error?矫正后的p-value可信吗?
l
laohua001
不做数据分析,怎么能知道两个变量是八竿子打不着,还是打得着呢?
我们的课题很多都是 给定两个变量,我们不知道这它两之间有关系,还是无关系。
举个例子。
X: 糖尿病的血糖值 Y: 看新冠病的次数
有人认为X和Y有关系。有人认为他两无关系。
现在的研究就是判断它两到底有没有关系。


miked 发表于 2025-05-13 14:46

数据分析第一步就是目测
目测都过不了的,任何统计分析都没用。
统计就是工具,甚至是game
m
miked
木牛流马 发表于 2025-05-13 14:52
你第二个例子里面r2也很大啊 和你的第一个例子不一样 我说的系数小指在影响y的很多因素里面,x的系数占比例非常小。在你第一个例子里面,你如果丢几个和y关联更大的变量进model,x多半不显著了 而你的第二个例子里面所谓的“系数小”是人为scale了y,但其实x可以解释y所有的变化,系数是非常大的

我只是想说,p-value 的大小,和系数的小,没有关系。
我们不能根据系数很小,就说这个系数不重要。
系数很小,也有可能系数很重要。
m
miked
laohua001 发表于 2025-05-13 14:54
数据分析第一步就是目测
目测都过不了的,任何统计分析都没用。
统计就是工具,甚至是game

目测的判断准则是什么?
怎么能保证目测的准确性?
目测的结论,也没法写论文啊?
高云风
miked 发表于 2025-05-13 14:54
谢谢!
一般样本多大后,统计显著的结果,就会丧失意义?
我们从最简单的举例。
t.test(X, mu=0) 判断X是不是等于0.
那么当X的样本量达到多少时,这个t.test出来的p-value就没啥意义了?
有人研究你说的这类问题吗?这个议题叫什么?type-2 error?矫正后的p-value可信吗?

Post hoc power analysis
l
laohua001
目测的判断准则是什么?
怎么能保证目测的准确性?
目测的结论,也没法写论文啊?
miked 发表于 2025-05-13 14:58

专业知识的common sense。
只有专业基础知识通过了,才有必要做统计检验。

m
miked
你是本科生还是硕士生?如果博士生的话做科研给你这样的印象,老板水平有点堪忧啊
高云风 发表于 2025-05-13 14:43

以前听过一个蝴蝶效应。
指一个动态系统中,初始条件微小变化,会得能带动整个系统长期外加巨大链式反应,是一种混沌现象。
你在地球这边扇扇子,可能会引起地球另一端的海啸。
所以,在这样的动态的互相关联的宇宙世界里,我们能找到完全八竿子打不着的两个变量吗?
在这样的理论下,任何独立,都其实不是绝对的独立,都是相对的。
换言之,任何两个变量,都是相连的。不相连的两个变量在宇宙中并不绝对存在。
中美两国贸易战想脱钩,脱不了。
m
magnoliaceae
高云风 发表于 2025-05-13 14:23
回复 1楼 miked 的帖子
Difference between statistical significance vs. practical significance
目测你样本量太大导致excessive statistical power, which can identify however small effect as statistically significant.

也想说这个,纯粹就是样本量太大
只要样本量够大,啥都能显著,不信你试试!
m
miked
magnoliaceae 发表于 2025-05-13 15:07
也想说这个,纯粹就是样本量太大
只要样本量够大,啥都能显著,不信你试试!

是的。那么请问,有人研究过,样本多大后,统计结果就不可信?
这个研究方向叫什么?
m
magnoliaceae
不做数据分析,怎么能知道两个变量是八竿子打不着,还是打得着呢?
我们的课题很多都是 给定两个变量,我们不知道这它两之间有关系,还是无关系。
举个例子。
X: 糖尿病的血糖值 Y: 看新冠病的次数
有人认为X和Y有关系。有人认为他两无关系。
现在的研究就是判断它两到底有没有关系。


miked 发表于 2025-05-13 14:46

判断他俩有没有关系要看domain knowledge,而不是只闭着眼拿两坨数据搞线性分析,因为你都不知道这俩到底是不是有可能是‘线性’关系,因为你根本不知道这两个变量都是啥意思
简直了,这是什么学校什么专业
l
laohua001
miked 发表于 2025-05-13 15:09
是的。那么请问,有人研究过,样本多大后,统计结果就不可信?
这个研究方向叫什么?

数据可信前提下,样本量越大越可信,这是统计学的基石。
数据不可信的话,想要啥结果就有啥结果。
m
magnoliaceae
miked 发表于 2025-05-13 15:09
是的。那么请问,有人研究过,样本多大后,统计结果就不可信?
这个研究方向叫什么?

基本可以肯定这是个烂坑了
m
miked
判断他俩有没有关系要看domain knowledge,而不是只闭着眼拿两坨数据搞线性分析,因为你都不知道这俩到底是不是有可能是‘线性’关系,因为你根本不知道这两个变量都是啥意思
简直了,这是什么学校什么专业
magnoliaceae 发表于 2025-05-13 15:10

不和你争了。
如果知道两个变量有关系,还去做数据分析,干什么呢?
之所以做数据分析,就是去研究两个变量有没有关系,就是因为domain knowledge里没有人知道这个答案,或者知道的答案是互相矛盾的。
s
shanggj
回复 1楼 miked 的帖子
你是 microsat 的马甲吗?
高云风
magnoliaceae 发表于 2025-05-13 15:13
基本可以肯定这是个烂坑了

不一定是坑,只是水平实在堪忧,我最近就被几个博士答辩的水平之烂给震惊到了
v
vraic
miked 发表于 2025-05-13 13:32
两个变量X和Y,数据见图。肉眼看,X和Y之间没有关系。
线性回归分析 lm(Y~X)
X系数对应的pvalue 却显示重要。
Coefficients:       Estimate Std. Error t value Pr(>|t|)    (Intercept) 0.46836  0.02063 22.703  <2e-16 *** X      0.08252  0.03468  2.379  0.0176 **
请问如何理解这个p-value = 0.0176 < 0.05呢。
effect of X on Y is significant?
在下这个结论的时候,需要考虑模型的Adjusted R-suqared 吗?
如果Adjusted R-suqared 非常低,那么就不能说effect of X on Y is significant。 对吗?

肉眼看不出关系的两个变量,为啥线性分析,却能得出pvalue很重要? 这是不是说明线性分析并非万能?



你提到的这个现象非常典型,而且你的疑问非常有价值:**为什么肉眼看 X 和 Y 没啥关系,但线性回归却给出了一个显著的 p-value(0.0176 < 0.05)?**我们逐一解释这个现象以及应如何正确解读: ✅ 首先明确:p-value 的意义 在线性回归中,X 的系数的 p-value 表示“在零假设为真(即 X 对 Y 没有线性影响)时,观察到当前或更极端的样本结果的概率”。 你的结果是: r 复制编辑 X 0.08252 0.03468 t = 2.379 p = 0.0176 意思是,在假设 X 与 Y 毫无线性关系的前提下,观察到 t = 2.379 的几率是 1.76%。低于 5%,所以我们“拒绝零假设”,说 X 与 Y 的线性关系“在统计上显著”。 ❗但:“统计显著” ≠ “实际有意义” 这是很多人误用 p-value 的地方。 你可以这样理解: p-value < 0.05:我们有理由怀疑 X 和 Y 在样本中可能存在 非零的线性关系; 但这个“关系”可以非常微弱,甚至完全无实际价值,只是由于样本量、分布、偶然性等因素被放大出来了。 📉 看 Adjusted R-squared 的作用
Adjusted R² 衡量的是模型整体的解释力 —— X 对 Y 的线性回归模型解释了多少变异性。
如果你发现: X 的 p-value 很小(统计显著); 但 Adjusted R² 非常小,比如 0.01; 这说明:虽然 X 的影响在统计上显著,但其解释力非常低,X 几乎无法解释 Y 的波动。 💡这就像说:“X 是个可靠的预测因子——但只解释了 Y 变异的 1%,几乎没啥实际用途。” 🧠 所以总结一下: 结论类别含义p-value < 0.05拒绝“X 与 Y 没有关系”的零假设,有统计学证据表明 X 与 Y 的线性关系 ≠ 0Adjusted R² 很低即便显著,但X 对 Y 的影响很小,无法解释大部分波动,实际价值可能极低视觉看不出关系线性关系可能微弱或被噪音掩盖;统计分析比人眼更敏感,但不一定更有意义
📌 为什么看上去没关系,但回归却“显著”? 几种常见情况: 样本量较大 只要样本量够大,即便极小的效应也能检测到 → 小 p-value。 数据有微弱但系统性的趋势 人眼很难察觉微弱趋势,但回归模型能捕捉。 数据存在离群点 / leverage points 少数点可能大幅影响回归线,从而导致“伪显著”。 🔎 检查建议 要避免误判,可以多角度审视模型: 画图检查: 散点图 + 回归线 残差图(residual plot) Q-Q图(正态性) 关注 effect size 比如这个回归系数是 0.08 —— 每单位 X 增加,Y 仅增加 0.08,有意义吗? 检查 Adjusted R² 和信赖区间 如果 95% CI 也在零附近,说明影响虽然“显著”,但不一定实质性。 ✅ 总结一句话:
p-value 小 ≠ 关系强;统计显著 ≠ 实质重要。
你完全正确地意识到线性分析不是万能的工具。在“肉眼看无关系”的情形下,哪怕 p-value 很小,也要结合 R²、图形和实际解释力判断其价值。
高云风
laohua001 发表于 2025-05-13 15:12
数据可信前提下,样本量越大越可信,这是统计学的基石。
数据不可信的话,想要啥结果就有啥结果。

第一句不准确,不是越大越好,样本量达到threshold 后再大的边际效应急剧递减
高云风
shanggj 发表于 2025-05-13 15:16
回复 1楼 miked 的帖子
你是 microsat 的马甲吗?

哈哈哈,这个不至于的,microsat比这还是强不少的,这个楼主一看就是学生
木牛流马
miked 发表于 2025-05-13 14:56
我只是想说,p-value 的大小,和系数的小,没有关系。
我们不能根据系数很小,就说这个系数不重要。
系数很小,也有可能系数很重要。

当然不能光看系数啊!要看系数还要看r2啊。系数都是相对的你可以随便scale啊
m
miked
高云风 发表于 2025-05-13 14:23
回复 1楼 miked 的帖子
Difference between statistical significance vs. practical significance
目测你样本量太大导致excessive statistical power, which can identify however small effect as statistically significant.

请问,样本多大,就为 不能提供可靠的结论了呢?
另外,我有一种猜想:
即使样本小,我也能找到这样的X和Y
使得
模型Y~X中,X系数的pvalue很小 (<0.05)
但是X和Y看起来也没什么关系。
因此,如果得出结果“X对于Y很重要”,也是错误的。


m
miked
你提到的这个现象非常典型,而且你的疑问非常有价值:**为什么肉眼看 X 和 Y 没啥关系,但线性回归却给出了一个显著的 p-value(0.0176 < 0.05)?**我们逐一解释这个现象以及应如何正确解读: ✅ 首先明确:p-value 的意义 在线性回归中,X 的系数的 p-value 表示“在零假设为真(即 X 对 Y 没有线性影响)时,观察到当前或更极端的样本结果的概率”。 你的结果是: r 复制编辑 X 0.08252 0.03468 t = 2.379 p = 0.0176 意思是,在假设 X 与 Y 毫无线性关系的前提下,观察到 t = 2.379 的几率是 1.76%。低于 5%,所以我们“拒绝零假设”,说 X 与 Y 的线性关系“在统计上显著”。 ❗但:“统计显著” ≠ “实际有意义” 这是很多人误用 p-value 的地方。 你可以这样理解: p-value < 0.05:我们有理由怀疑 X 和 Y 在样本中可能存在 非零的线性关系; 但这个“关系”可以非常微弱,甚至完全无实际价值,只是由于样本量、分布、偶然性等因素被放大出来了。 📉 看 Adjusted R-squared 的作用
Adjusted R² 衡量的是模型整体的解释力 —— X 对 Y 的线性回归模型解释了多少变异性。
如果你发现: X 的 p-value 很小(统计显著); 但 Adjusted R² 非常小,比如 0.01; 这说明:虽然 X 的影响在统计上显著,但其解释力非常低,X 几乎无法解释 Y 的波动。 💡这就像说:“X 是个可靠的预测因子——但只解释了 Y 变异的 1%,几乎没啥实际用途。” 🧠 所以总结一下: 结论类别含义p-value < 0.05拒绝“X 与 Y 没有关系”的零假设,有统计学证据表明 X 与 Y 的线性关系 ≠ 0Adjusted R² 很低即便显著,但X 对 Y 的影响很小,无法解释大部分波动,实际价值可能极低视觉看不出关系线性关系可能微弱或被噪音掩盖;统计分析比人眼更敏感,但不一定更有意义
📌 为什么看上去没关系,但回归却“显著”? 几种常见情况: 样本量较大 只要样本量够大,即便极小的效应也能检测到 → 小 p-value。 数据有微弱但系统性的趋势 人眼很难察觉微弱趋势,但回归模型能捕捉。 数据存在离群点 / leverage points 少数点可能大幅影响回归线,从而导致“伪显著”。 🔎 检查建议 要避免误判,可以多角度审视模型: 画图检查: 散点图 + 回归线 残差图(residual plot) Q-Q图(正态性) 关注 effect size 比如这个回归系数是 0.08 —— 每单位 X 增加,Y 仅增加 0.08,有意义吗? 检查 Adjusted R² 和信赖区间 如果 95% CI 也在零附近,说明影响虽然“显著”,但不一定实质性。 ✅ 总结一句话:
p-value 小 ≠ 关系强;统计显著 ≠ 实质重要。
你完全正确地意识到线性分析不是万能的工具。在“肉眼看无关系”的情形下,哪怕 p-value 很小,也要结合 R²、图形和实际解释力判断其价值。
vraic 发表于 2025-05-13 15:18

chatgpt里的程序员早就研究过这个问题了?
l
laohua001
第一句不准确,不是越大越好,样本量达到threshold 后再大的边际效应急剧递减
高云风 发表于 2025-05-13 15:21

那是因为数学计算的局限性。
现代统计学被人诟病为“神学”的原因之一是“用样本替代总体”。 只有总体“统计”才能有“真正”的概率。所以说,数学计算和大程度上是“game”, 本身统计学把事物都定义成“分布”就不是真实的。
高云风
laohua001 发表于 2025-05-13 15:28
那是因为数学计算的局限性。
现代统计学被人诟病为“神学”的原因之一是“用样本替代总体”。 只有总体“统计”才能有“真正”的概率。所以说,数学计算和大程度上是“game”, 本身统计学把事物都定义成“分布”就不是真实的。

跟数学计算无关,是基于hypothesis testing 的传统parametric statistics 的内在缺陷, design flaw instead of computational constraint
l
laohua001
跟数学计算无关,是基于hypothesis testing 的传统parametric statistics 的内在缺陷, design flaw instead of computational constraint
高云风 发表于 2025-05-13 15:31

这就是我说的, 统计上定义“分布”本身就是不真实的,所以基于“分布理论”的“一切数学计算”都有”局限性“。
高云风
laohua001 发表于 2025-05-13 15:32
这就是我说的, 统计上定义“分布”本身就是不真实的,所以基于“分布理论”的“一切数学计算”都有”局限性“。

嗯,那我们说的是一个意思
这是基础统计方法课会教的内容
l
laohua001
嗯,那我们说的是一个意思
这是基础统计方法课会教的内容
高云风 发表于 2025-05-13 15:34

一楼的问题很好解释, 这些数据根本没有“分布” , 非要按照“统计设定好的分布”去计算, 得到的任何结果都有可能。
所以,统计的第一步就是用专业知识目测结果。 专业知识都不过,都不能解释的数据,做统计没意义。P值, R值都是game。
m
miked
高云风 发表于 2025-05-13 15:17
不一定是坑,只是水平实在堪忧,我最近就被几个博士答辩的水平之烂给震惊到了

既然你说我水平菜,那我就真心请教你一个问题。
Y~ X + Z
为何改变变量的测量单位,也能直接改变这个变量在模型中的系数的p-value?
假设X是age,那么我们可以用年来计算age,我们也可以用月来计算age,比如30岁,对应360月。
为何我们用年来测量age,和用月来测量age时,对应的age在模型中的系数的p-value会变呢?
特别是,一个小于0.05,而另一个大于0.05.这样我们就得出一个age是在模型中重要的,而另一个age是在模型中不那么重要。这完全是两个结论。为何age的测量单位,对结果影响如此之大?
这是线性回归方法的无法避免的错误吗?
m
miked
laohua001 发表于 2025-05-13 15:32
这就是我说的, 统计上定义“分布”本身就是不真实的,所以基于“分布理论”的“一切数学计算”都有”局限性“。

你这个牛啊。你是要推翻现在的教科书吗?
不基于分布的统计学,感觉结果更不可靠。
高云风
miked 发表于 2025-05-13 15:40
既然你说我水平菜,那我就真心请教你一个问题。
Y~ X + Z
为何改变变量的测量单位,也能直接改变这个变量在模型中的系数的p-value?
假设X是age,那么我们可以用年来计算age,我们也可以用月来计算age,比如30岁,对应360月。
为何我们用年来测量age,和用月来测量age时,对应的age在模型中的系数的p-value会变呢?
特别是,一个小于0.05,而另一个大于0.05.这样我们就得出一个age是在模型中重要的,而另一个age是在模型中不那么重要。这完全是两个结论。为何age的测量单位,对结果影响如此之大?
这是线性回归方法的无法避免的错误吗?

你真的需要回去复习基础统计课的笔记
这是你研究/实验设计的问题,跟统计方法的选择无关,自然不能甩锅给线性回归
l
laohua001
你这个牛啊。你是要推翻现在的教科书吗?
不基于分布的统计学,感觉结果更不可靠。
miked 发表于 2025-05-13 15:42

数学,统计学是人类没办法的办法。 谈不上推翻。
m
miked
laohua001 发表于 2025-05-13 15:39
一楼的问题很好解释, 这些数据根本没有“分布” , 非要按照“统计设定好的分布”去计算, 得到的任何结果都有可能。
所以,统计的第一步就是用专业知识目测结果。 专业知识都不过,都不能解释的数据,做统计没意义。P值, R值都是game。

有道理。
高云风
miked 发表于 2025-05-13 15:42
你这个牛啊。你是要推翻现在的教科书吗?
不基于分布的统计学,感觉结果更不可靠。

不基于分布的统计学叫nonparametric statistics, 那里基本不甩p这么档子事
高云风
laohua001 发表于 2025-05-13 15:39
一楼的问题很好解释, 这些数据根本没有“分布” , 非要按照“统计设定好的分布”去计算, 得到的任何结果都有可能。
所以,统计的第一步就是用专业知识目测结果。 专业知识都不过,都不能解释的数据,做统计没意义。P值, R值都是game。

这个可能性存在,但不大
从楼主给的图看,俩变量都是连续变量,正常的随机连续变量是默认符合正态分布的,unless otherwise stated, 不信你问他这俩变量他用什么函数产生的
这种情况下出现他说的情况,样本量的原因大大超过分布问题的可能性
m
miked
laohua001 发表于 2025-05-13 15:39
一楼的问题很好解释, 这些数据根本没有“分布” , 非要按照“统计设定好的分布”去计算, 得到的任何结果都有可能。
所以,统计的第一步就是用专业知识目测结果。 专业知识都不过,都不能解释的数据,做统计没意义。P值, R值都是game。

我有个多年困惑的问题。特此请教。
请问你在使用Generalized Linear Model (GLM)时候, glm(y~x, data=data, family = "gaussian")
你会先测试是否y满足分布吗? (上面是高斯分布)
我好像从来没在任何网上看到过,谁在使用glm之前,做过任何分布的测试。
这是为什么呢?



m
miked
这个可能性存在,但不大
从楼主给的图看,俩变量都是连续变量,正常的随机连续变量是默认符合正态分布的,unless otherwise stated, 不信你问他这俩变量他用什么函数产生的
这种情况下出现他说的情况,样本量的原因大大超过分布问题的可能性
高云风 发表于 2025-05-13 15:50

均匀分布。
但是我用任何其他分布,都能发现我一楼提出的问题。
有啥方法能判断样本多大为“太大了容易出错”?
高云风
miked 发表于 2025-05-13 15:58
均匀分布。
但是我用任何其他分布,都能发现我一楼提出的问题。
有啥方法能判断样本多大为“太大了容易出错”?

我前面回了,post hoc power analysis
m
miked
这个可能性存在,但不大
从楼主给的图看,俩变量都是连续变量,正常的随机连续变量是默认符合正态分布的,unless otherwise stated, 不信你问他这俩变量他用什么函数产生的
这种情况下出现他说的情况,样本量的原因大大超过分布问题的可能性
高云风 发表于 2025-05-13 15:50

请问你在审nature/science稿子的时候,遇到
用线性回归的p-value,来说明某某变量(X)对于某某变量(Y),非常重要。 (假设,X和Y是当今科学界某领域内非常重要的两个变量,但是我们又不是很熟悉。比如X是光子量, Y是宇宙爆炸级数。)
因此,本文是个重大发现。
但是,你作为统计学家,你感觉“只要样本大,任何两个变量都可能相互关联”,因此,这个发现不一定正确。
这个时候,你要求作者做些什么(如何修改稿子)?
如果你说他的样本太大,那他就会反问,“请问多大为不大”。
你会让这样的稿子通过吗?
m
miked
高云风 发表于 2025-05-13 16:02
我前面回了,post hoc power analysis

请问怎么能从这个post hoc power analysis得出样本要不大于多少?
我用的post hoc power analysis,都是求样本不能小于多少。
q
qianqiuxue
miked 发表于 2025-05-13 14:38
谢谢。但是我不同意你的观点。
”比如x增加一个unit, y确实是会增加的。但是这个增幅非常小“
我们可以构造这样的Y和X,使得x增加一个unit, y的增幅非常非常非常小。
但是 虽然X的系数非常小,这个系数不等于0的p-value却非常重要。
下面是code,大家可以验证。 x在模型中的系数非常小(1e-5),但是p-value非常重要。 x=1:1000 y=1e-5*x lm(y~x)
summary(lm(y~x)) Coefficients:        Estimate Std. Error  t value Pr(>|t|)    (Intercept) -5.266e-18 1.523e-19 -3.457e+01  <2e-16 *** x      1.000e-05 2.636e-22 3.793e+16  <2e-16 ***


的确跟系数大小没关系,你的例子里把data压缩的再平也是同样的p value,只是斜率减小 他应该是想说correlation小
q
qianqiuxue
miked 发表于 2025-05-13 16:33
如果没有协变量
Y~a * k * X ~ (a*k) * X ~ A * X
所以p-value不变。
为啥如果有协变量,会不一样呢?

你的久未联系的女神说要跟你谈恋爱,你的女朋友刚刚竟然还敢抢你零食吃,她的系数被你直接清零了
q
qianqiuxue
qianqiuxue 发表于 2025-05-13 16:33
i don't think so 你的结果的可能原因是你的data本来就不是一个population的 也就是说统计检验的假设不成立
这在现在ml海量抓数据的情况下是有这个可能性的
绝对不可能存在一个这样的理论: 符合population assumption的data,sample size大了就p-value不准
这是泛神秘主义的伪科学 lol

btw:你的研究中如果碰见这种情况,你要做的不是寻找一种神秘理论 而是考虑做subgroup analysis
高云风
qianqiuxue 发表于 2025-05-13 16:38
你的久未联系的女神说要跟你谈恋爱,你的女朋友刚刚竟然还敢抢你零食吃,她的系数被你直接清零了

难怪当年闺蜜圈里一致同意,最优秀的情书出自理科生之手😂
健康就好
高云风 发表于 2025-05-13 15:21
哈哈哈,这个不至于的,microsat比这还是强不少的,这个楼主一看就是学生

不一定哦,我甚至还cross reference了一下,这俩问问题风格一样一样的.
木牛流马
qianqiuxue 发表于 2025-05-13 16:38
你的久未联系的女神说要跟你谈恋爱,你的女朋友刚刚竟然还敢抢你零食吃,她的系数被你直接清零了

笑死!你太有才了
c
crichris
miked 发表于 2025-05-13 14:29
请问可以把“X的系数不是0” 再改成 “Y不是常数”吗?
因为X的系数是0, 就等价于 Y是常数。所以, X的系数不是0, 就等价于 Y不是常数。
那么,我们这么多发表的论文,都是这样下结论的,“说明了Y不是个常数”
论文里,大家都是这样下结论的,“X对Y的影响很重要。”
理论上,这个p-value的H0,还真的就是系数=0.
所以,请问, 我们以前包括目前都这样下结论,“pvalue小,X对Y的影响很重要。” 其实是错误的!!!

看你怎么定义重要这个词
有一些beta 数很小的以至于 对y的影响不大
但是在y =x beta + epsilon (有 epsilon这一项误差)这个frame work下 pvalue说的是你有多confident 这个beta 是0

你这个例子太简单了是univariate 的
以至于如果把截距拿掉后r squared correlation 什么的都是有一一对应的 很难单独拿出来讨论