统计回归请教

m
microsat
楼主 (北美华人网)
一个回归问题。C ~ A1+A2+...A10 C continuous variable 现在知道C不满足高斯分布。
请问在不知道C满足其他什么分布的情况下(很可能不满足,比如坡松,伯努利等),能用什么回归模型呢?
请高手指点一二。
左蹄猪猪
ChatGPT回复,
在处理因变量 \(C\) 不满足高斯分布的回归问题时,有几种方法可以考虑:
1. **广义线性模型 (Generalized Linear Models, GLM)**:   广义线性模型扩展了线性回归模型,允许因变量 \(C\) 来自非高斯分布。常见的广义线性模型包括:   - **泊松回归**:如果 \(C\) 是计数数据(非负整数)。   - **二项回归(逻辑回归)**:如果 \(C\) 是二值数据(0或1)。   - **Gamma 回归**:如果 \(C\) 是正的连续数据且有正偏。
2. **广义加性模型 (Generalized Additive Models, GAMs)**:   这是广义线性模型的扩展,允许非线性关系,通过使用样条函数等非参数方法来捕捉数据的非线性特征。
3. **非参数回归方法**:   当对 \(C\) 的分布假设较少时,非参数回归方法如核回归(Kernel Regression)和最近邻回归(K-Nearest Neighbors Regression)可以被使用。
4. **决策树和随机森林**:   决策树和随机森林是一种非参数方法,可以处理各种类型的数据分布。它们通过划分数据空间来拟合数据,因此对分布假设要求较低。
5. **支持向量回归 (Support Vector Regression, SVR)**:   SVR 是一种基于支持向量机的回归方法,可以处理非线性和非高斯分布的数据。
6. **神经网络回归**:   深度学习模型,如多层感知器(MLP),可以处理复杂的非线性关系和各种分布的数据。
具体选择哪种方法取决于数据的特性和问题的具体需求。如果你对数据的分布没有任何假设,可以从广义线性模型开始,因为它提供了一套灵活的框架来处理不同类型的因变量。
需要注意的是,模型选择后,还需对模型进行适当的验证(如交叉验证)和诊断,以确保模型的适用性和准确性。
左蹄猪猪
被姜妹妹的天才闹的,如今不懂数学很弱智。
m
microsat
左蹄猪猪 发表于 2024-07-02 00:45
被姜妹妹的天才闹的,如今不懂数学很弱智。

多谢!
你在现实中遇到过这个问题吗? 我一般用linear regression。但是发现其实,现实数据中,很少满足高斯分布的。 但是为何大家还用这个linear regression呢?
另外,你这个chatgpt给的答案,我其实早就查阅过了。 你看看它的回答1. 广义线性模型。 这个广义线性模型虽然允许C来自非高斯分布。但是它的模型要求必须满足其它的分布, 泊松,伯努利等等。 而在现实数据中,很难满足泊松,伯努利等。这样,1的回答还能用吗?
4,5,6不能使用。我需要产生一个pvalue。
m
microsat
左蹄猪猪 发表于 2024-07-02 00:43
ChatGPT回复,
在处理因变量 \(C\) 不满足高斯分布的回归问题时,有几种方法可以考虑:
1. **广义线性模型 (Generalized Linear Models, GLM)**:   广义线性模型扩展了线性回归模型,允许因变量 \(C\) 来自非高斯分布。常见的广义线性模型包括:   - **泊松回归**:如果 \(C\) 是计数数据(非负整数)。   - **二项回归(逻辑回归)**:如果 \(C\) 是二值数据(0或1)。   - **Gamma 回归**:如果 \(C\) 是正的连续数据且有正偏。
2. **广义加性模型 (Generalized Additive Models, GAMs)**:   这是广义线性模型的扩展,允许非线性关系,通过使用样条函数等非参数方法来捕捉数据的非线性特征。
3. **非参数回归方法**:   当对 \(C\) 的分布假设较少时,非参数回归方法如核回归(Kernel Regression)和最近邻回归(K-Nearest Neighbors Regression)可以被使用。
4. **决策树和随机森林**:   决策树和随机森林是一种非参数方法,可以处理各种类型的数据分布。它们通过划分数据空间来拟合数据,因此对分布假设要求较低。
5. **支持向量回归 (Support Vector Regression, SVR)**:   SVR 是一种基于支持向量机的回归方法,可以处理非线性和非高斯分布的数据。
6. **神经网络回归**:   深度学习模型,如多层感知器(MLP),可以处理复杂的非线性关系和各种分布的数据。
具体选择哪种方法取决于数据的特性和问题的具体需求。如果你对数据的分布没有任何假设,可以从广义线性模型开始,因为它提供了一套灵活的框架来处理不同类型的因变量。
需要注意的是,模型选择后,还需对模型进行适当的验证(如交叉验证)和诊断,以确保模型的适用性和准确性。

我的问题已经列出了,可能不满足泊松分布等。但是chatgpt还是给出了1的答案。这个应该认为是画蛇添足。
n
neolith2000
microsat 发表于 2024-07-02 00:58
我的问题已经列出了,可能不满足泊松分布等。但是chatgpt还是给出了1的答案。这个应该认为是画蛇添足。

变幻一下 y 值,使变幻后的数据满足回归模型要求的分布
t
teabucket
大部分数据分布都很接近高斯分布。如果一个统计数据不符合高斯模型,那么你用Gaussian mixture model 建模也能很好的估计他的分布函数,用EM算法
m
microsat
neolith2000 发表于 2024-07-02 01:04
变幻一下 y 值,使变幻后的数据满足回归模型要求的分布

变换了。不行。
n
neolith2000
microsat 发表于 2024-07-02 01:39
变换了。不行。

你把残差fit 一下常见的分布,看看符合哪一个
c
computer101
嗯 这里应该做的事情是对C的分布进行研究,找到能转化为Normal Distribution的路径,然后再fit linear regression
m
microsat
computer101 发表于 2024-07-02 03:35
嗯 这里应该做的事情是对C的分布进行研究,找到能转化为Normal Distribution的路径,然后再fit linear regression

回归是个老话题了。学过统计的都不陌生。
请问对非高斯分布的回归,都是这样的处理步骤吗?
如果实在是分析不出因变量是什么分布,该怎么办呢?
这种因变量是什么分布根本就猜不出来,并非少数,而是广泛存在于真实世界里。
比如:股票的曲线。就不符合任何分布。如果股票符合某一分布的话,炒股的人人都是亿万元户。
m
microsat
neolith2000 发表于 2024-07-02 01:43
你把残差fit 一下常见的分布,看看符合哪一个

多谢。残差还是不符合常见的分布(泊松,伯努利,高斯)
m
microsat
左蹄猪猪 发表于 2024-07-02 00:45
被姜妹妹的天才闹的,如今不懂数学很弱智。

你发现没有。我们的真实世界里,有很多实用的数学问题, 急切需要人们去解决。比如:我问的这个问题。
比如:如何预测股票的明天的趋势。 想发财的人,做梦都想得到各大银行锁在保险柜的预测模型。
为什么还有人去学姜妹妹的这么枯燥的考试呢?
所以有个美女(姜妹妹)愿意去学这么枯燥的数学考试,也算难得了。 我们应该鼓励和支持啊。
凡是愿意钻研数学的,都应该鼓励和支持,特别是美女。
w
weiyixia
先test一下C是什么分布?
m
microsat
weiyixia 发表于 2024-07-02 12:51
先test一下C是什么分布?

所有分布,都能测试出吗?
比如:Poisson咋测试呢?
m
microsat
computer101 发表于 2024-07-02 03:35
嗯 这里应该做的事情是对C的分布进行研究,找到能转化为Normal Distribution的路径,然后再fit linear regression

challenge 是,有很多数据根本无法通过变换,就能转化成高斯分布。
s
songxm99
回复 11楼 microsat 的帖子
对任何事物建模都需要有一些预先知道的知识。例如数学上的线性,高斯分布,还有一些实际的商业逻辑。
数学模型是对实际问题的压缩,如果你对数据的来源的内在规律一无所知,那么模型的复杂度会无穷大,需要的数据无穷多,那就无法建立实用的模型。必须有一些先验的知识。如果没有,就只能凭直觉,假设一些,然后看看哪种假设误差小。
o
oqo
songxm99 发表于 2024-07-02 14:22
回复 11楼 microsat 的帖子
对任何事物建模都需要有一些预先知道的知识。例如数学上的线性,高斯分布,还有一些实际的商业逻辑。
数学模型是对实际问题的压缩,如果你对数据的来源的内在规律一无所知,那么模型的复杂度会无穷大,需要的数据无穷多,那就无法建立实用的模型。必须有一些先验的知识。如果没有,就只能凭直觉,假设一些,然后看看哪种假设误差小。

从lz以前的帖子来看 无解
m
midusa
回复 1楼 microsat 的帖子
不是C要高斯,是回归出来的残差最好是高斯,而且不是高斯也没大关系。
g
graceman
这有我一个人觉得楼主的描述有些矛盾吗?C是一个continuous variable, 难道泊松分布和Bernoulli 不是离散变量的发布吗?