如果高斯分布不满足,怎么替代线性回归

m
microsat
楼主 (北美华人网)
A~ B+C
模型的residules并不满足高斯分布
请问可以用什么其他模型和方法吗?
使用其他的模型和方法,需要新的测试吗?
c
cavine747
样本多大?
m
microsat
有统计学大侠指点一下吗?
m
mystmist
什么类型的不符合?做transformation能解决吗?
m
microsat
mystmist 发表于 2024-10-19 15:11
什么类型的不符合?做transformation能解决吗?

为什么大家都提到transformation? 为什么我所有的transformation都无法实现满足normality test。 这个transformation是个法宝吗?还是,根本就不好使。
t
teabucket
GMM.
m
microsat
teabucket 发表于 2024-10-19 20:42
GMM.

do you mean Gaussian Mixture Model (GMM)?
使用你这个GMM需要测试是否满足Gauss 分布吗?
z
zorrozhang
microsat 发表于 2024-10-18 19:34
A~ B+C
模型的residules并不满足高斯分布
请问可以用什么其他模型和方法吗?
使用其他的模型和方法,需要新的测试吗?

样本如果很多的话,用人工神经网络试试。理论上,神经网络可以学习出A -> B的任意函数(假设C是你的residual),无论这个函数有多复杂
w
wengyuan
microsat 发表于 2024-10-19 21:01
do you mean Gaussian Mixture Model (GMM)?
使用你这个GMM需要测试是否满足Gauss 分布吗?

她想说的是Generalized Linear Model (GLM), not GMM.
伪猴王
线性回归并没有要求variable一定要服从高斯分布。
m
microsat
wengyuan 发表于 2024-10-19 21:23
她想说的是Generalized Linear Model (GLM), not GMM.

GLM,里面的参数family = gaussian
请问当设置成gaussian的时候,需要测试数据是否满足gaussian分布吗? 如果数据不满足gaussian分布,可以使用这个GLM吗?
m
microsat
伪猴王 发表于 2024-10-19 21:25
线性回归并没有要求variable一定要服从高斯分布。

那么线性回归要求什么满足高斯分布?
假设,我们要求residual 满足高斯分布。
然后,再假设这个要求,不满足。
那么该用什么回归方法呢?
c
crichris
伪猴王 发表于 2024-10-19 21:25
线性回归并没有要求variable一定要服从高斯分布。

我第一个反应也是这个……
就如果满足的话再加上一些其他的假设你可以证明OLS estimator就是MLE 但是OLS 本身并没有说residuals必须Gaussian

m
mystmist
microsat 发表于 2024-10-19 20:40
为什么大家都提到transformation? 为什么我所有的transformation都无法实现满足normality test。 这个transformation是个法宝吗?还是,根本就不好使。

所以问什么类型的,有些可以transform解决,有些不可以 有些情况下是模型不对,residual contains more than random noise。 你什么信息都不给,还问为什么都说transform。因为transformation 是最简单的,先排除了这个再去想其它方法。
c
crichris
wengyuan 发表于 2024-10-19 21:23
她想说的是Generalized Linear Model (GLM), not GMM.

难道不是generalized method of moments么
m
microsat
crichris 发表于 2024-10-19 23:12
我第一个反应也是这个……
就如果满足的话再加上一些其他的假设你可以证明OLS estimator就是MLE 但是OLS 本身并没有说residuals必须Gaussian


请问线性回归,assumpution,主要是什么要求是高斯分布(正态分布)呢?
无欲则刚
Ranked ANCOVA 试试
p
poppyjasper
.
m
microsat
无欲则刚 发表于 2024-10-19 23:50
Ranked ANCOVA 试试

也就是说目前对于线性回归不满足assumption的, 其实并没有一个好的解决办法?
伪猴王
Yes, the Ordinary Least Squares (OLS) method assumes that the error terms are normally distributed, but this assumption is not required for the OLS method to be valid:  Assumption: The error terms are normally distributed, given the independent variables.  Importance: This assumption is important for defining finite-sample properties, performing statistical hypothesis testing, and generating reliable confidence and prediction intervals.  Dependent variable: The dependent variable Y does not need to be normally distributed.  Other assumptions of OLS include:  The estimated slope parameter is constant, making the model linear.  The expected value of the error is zero.  You can check if your data is normally distributed by performing a test of normality. If the p-value is less than 0.05, the data is not normally distributed. Even if your data is not normal, you can still check the distribution to understand your data. If your data is not normal, you can try transforming it or using other analysis methods. 
伪猴王
microsat 发表于 2024-10-19 21:57
那么线性回归要求什么满足高斯分布?
假设,我们要求residual 满足高斯分布。
然后,再假设这个要求,不满足。
那么该用什么回归方法呢?

就像你说的,只要求residual满足normal distribution. 不是变量本身。 这个要求不满足的话,得看具体是什么原因。 比如你是个1/0变量,那ols就不对。需要用Logistic。 或者你得dependent variable is bounded (e.g., between 0 and 1), then beta regression (instead of OLS) might be better.
n
neolith2000
microsat 发表于 2024-10-20 00:01
也就是说目前对于线性回归不满足assumption的, 其实并没有一个好的解决办法?

残差不满足高斯分布,说明模型肯定有某个重要变量遗漏了,再回去改改模型?
理查德
partial least square-PLS试一试
c
crichris
伪猴王 发表于 2024-10-20 01:41
Yes, the Ordinary Least Squares (OLS) method assumes that the error terms are normally distributed, but this assumption is not required for the OLS method to be valid:  Assumption: The error terms are normally distributed, given the independent variables.  Importance: This assumption is important for defining finite-sample properties, performing statistical hypothesis testing, and generating reliable confidence and prediction intervals.  Dependent variable: The dependent variable Y does not need to be normally distributed.  Other assumptions of OLS include:  The estimated slope parameter is constant, making the model linear.  The expected value of the error is zero.  You can check if your data is normally distributed by performing a test of normality. If the p-value is less than 0.05, the data is not normally distributed. Even if your data is not normal, you can still check the distribution to understand your data. If your data is not normal, you can try transforming it or using other analysis methods. 

这....是不是AI生成的....

伪猴王
crichris 发表于 2024-10-20 10:31
这....是不是AI生成的....


那肯定啊。直接问google,
m
microsat
伪猴王 发表于 2024-10-20 11:30
那肯定啊。直接问google,

核心就在最后一句话。 “ If your data is not normal, you can try transforming it or using other analysis methods. ”
如果无论怎么transform,数据还是非normal的怎么办?
如果尝试其他分析方法,其他分析方法不假定数据要提前满足什么分布吗?如果数据并不满足那个假定要求的分布呢?
请高手多多分享实战经验。

m
microsat
伪猴王 发表于 2024-10-20 01:45
就像你说的,只要求residual满足normal distribution. 不是变量本身。 这个要求不满足的话,得看具体是什么原因。 比如你是个1/0变量,那ols就不对。需要用Logistic。 或者你得dependent variable is bounded (e.g., between 0 and 1), then beta regression (instead of OLS) might be better.

请问logistic regression没有要求要满足什么分布吗?
哪个logistic regression里面的参数项 family = “binomial”是啥意思?是要求数据必须满足binomial分布吗?
f
fj033
microsat 发表于 2024-10-21 10:15
请问logistic regression没有要求要满足什么分布吗?
哪个logistic regression里面的参数项 family = “binomial”是啥意思?是要求数据必须满足binomial分布吗?

logistic regression需要outcome是binary。你这种情况可以试试GLM