左蹄猪猪 发表于 2024-07-02 00:45 被姜妹妹的天才闹的,如今不懂数学很弱智。
左蹄猪猪 发表于 2024-07-02 00:43 ChatGPT回复, 在处理因变量 \(C\) 不满足高斯分布的回归问题时,有几种方法可以考虑: 1. **广义线性模型 (Generalized Linear Models, GLM)**: 广义线性模型扩展了线性回归模型,允许因变量 \(C\) 来自非高斯分布。常见的广义线性模型包括: - **泊松回归**:如果 \(C\) 是计数数据(非负整数)。 - **二项回归(逻辑回归)**:如果 \(C\) 是二值数据(0或1)。 - **Gamma 回归**:如果 \(C\) 是正的连续数据且有正偏。 2. **广义加性模型 (Generalized Additive Models, GAMs)**: 这是广义线性模型的扩展,允许非线性关系,通过使用样条函数等非参数方法来捕捉数据的非线性特征。 3. **非参数回归方法**: 当对 \(C\) 的分布假设较少时,非参数回归方法如核回归(Kernel Regression)和最近邻回归(K-Nearest Neighbors Regression)可以被使用。 4. **决策树和随机森林**: 决策树和随机森林是一种非参数方法,可以处理各种类型的数据分布。它们通过划分数据空间来拟合数据,因此对分布假设要求较低。 5. **支持向量回归 (Support Vector Regression, SVR)**: SVR 是一种基于支持向量机的回归方法,可以处理非线性和非高斯分布的数据。 6. **神经网络回归**: 深度学习模型,如多层感知器(MLP),可以处理复杂的非线性关系和各种分布的数据。 具体选择哪种方法取决于数据的特性和问题的具体需求。如果你对数据的分布没有任何假设,可以从广义线性模型开始,因为它提供了一套灵活的框架来处理不同类型的因变量。 需要注意的是,模型选择后,还需对模型进行适当的验证(如交叉验证)和诊断,以确保模型的适用性和准确性。
microsat 发表于 2024-07-02 00:58 我的问题已经列出了,可能不满足泊松分布等。但是chatgpt还是给出了1的答案。这个应该认为是画蛇添足。
neolith2000 发表于 2024-07-02 01:04 变幻一下 y 值,使变幻后的数据满足回归模型要求的分布
microsat 发表于 2024-07-02 01:39 变换了。不行。
computer101 发表于 2024-07-02 03:35 嗯 这里应该做的事情是对C的分布进行研究,找到能转化为Normal Distribution的路径,然后再fit linear regression
neolith2000 发表于 2024-07-02 01:43 你把残差fit 一下常见的分布,看看符合哪一个
weiyixia 发表于 2024-07-02 12:51 先test一下C是什么分布?
songxm99 发表于 2024-07-02 14:22回复 11楼 microsat 的帖子 对任何事物建模都需要有一些预先知道的知识。例如数学上的线性,高斯分布,还有一些实际的商业逻辑。 数学模型是对实际问题的压缩,如果你对数据的来源的内在规律一无所知,那么模型的复杂度会无穷大,需要的数据无穷多,那就无法建立实用的模型。必须有一些先验的知识。如果没有,就只能凭直觉,假设一些,然后看看哪种假设误差小。
请问在不知道C满足其他什么分布的情况下(很可能不满足,比如坡松,伯努利等),能用什么回归模型呢?
请高手指点一二。
在处理因变量 \(C\) 不满足高斯分布的回归问题时,有几种方法可以考虑:
1. **广义线性模型 (Generalized Linear Models, GLM)**: 广义线性模型扩展了线性回归模型,允许因变量 \(C\) 来自非高斯分布。常见的广义线性模型包括: - **泊松回归**:如果 \(C\) 是计数数据(非负整数)。 - **二项回归(逻辑回归)**:如果 \(C\) 是二值数据(0或1)。 - **Gamma 回归**:如果 \(C\) 是正的连续数据且有正偏。
2. **广义加性模型 (Generalized Additive Models, GAMs)**: 这是广义线性模型的扩展,允许非线性关系,通过使用样条函数等非参数方法来捕捉数据的非线性特征。
3. **非参数回归方法**: 当对 \(C\) 的分布假设较少时,非参数回归方法如核回归(Kernel Regression)和最近邻回归(K-Nearest Neighbors Regression)可以被使用。
4. **决策树和随机森林**: 决策树和随机森林是一种非参数方法,可以处理各种类型的数据分布。它们通过划分数据空间来拟合数据,因此对分布假设要求较低。
5. **支持向量回归 (Support Vector Regression, SVR)**: SVR 是一种基于支持向量机的回归方法,可以处理非线性和非高斯分布的数据。
6. **神经网络回归**: 深度学习模型,如多层感知器(MLP),可以处理复杂的非线性关系和各种分布的数据。
具体选择哪种方法取决于数据的特性和问题的具体需求。如果你对数据的分布没有任何假设,可以从广义线性模型开始,因为它提供了一套灵活的框架来处理不同类型的因变量。
需要注意的是,模型选择后,还需对模型进行适当的验证(如交叉验证)和诊断,以确保模型的适用性和准确性。
多谢!
你在现实中遇到过这个问题吗? 我一般用linear regression。但是发现其实,现实数据中,很少满足高斯分布的。 但是为何大家还用这个linear regression呢?
另外,你这个chatgpt给的答案,我其实早就查阅过了。 你看看它的回答1. 广义线性模型。 这个广义线性模型虽然允许C来自非高斯分布。但是它的模型要求必须满足其它的分布, 泊松,伯努利等等。 而在现实数据中,很难满足泊松,伯努利等。这样,1的回答还能用吗?
4,5,6不能使用。我需要产生一个pvalue。
我的问题已经列出了,可能不满足泊松分布等。但是chatgpt还是给出了1的答案。这个应该认为是画蛇添足。
变幻一下 y 值,使变幻后的数据满足回归模型要求的分布
变换了。不行。
你把残差fit 一下常见的分布,看看符合哪一个
回归是个老话题了。学过统计的都不陌生。
请问对非高斯分布的回归,都是这样的处理步骤吗?
如果实在是分析不出因变量是什么分布,该怎么办呢?
这种因变量是什么分布根本就猜不出来,并非少数,而是广泛存在于真实世界里。
比如:股票的曲线。就不符合任何分布。如果股票符合某一分布的话,炒股的人人都是亿万元户。
多谢。残差还是不符合常见的分布(泊松,伯努利,高斯)
你发现没有。我们的真实世界里,有很多实用的数学问题, 急切需要人们去解决。比如:我问的这个问题。
比如:如何预测股票的明天的趋势。 想发财的人,做梦都想得到各大银行锁在保险柜的预测模型。
为什么还有人去学姜妹妹的这么枯燥的考试呢?
所以有个美女(姜妹妹)愿意去学这么枯燥的数学考试,也算难得了。 我们应该鼓励和支持啊。
凡是愿意钻研数学的,都应该鼓励和支持,特别是美女。
所有分布,都能测试出吗?
比如:Poisson咋测试呢?
challenge 是,有很多数据根本无法通过变换,就能转化成高斯分布。
对任何事物建模都需要有一些预先知道的知识。例如数学上的线性,高斯分布,还有一些实际的商业逻辑。
数学模型是对实际问题的压缩,如果你对数据的来源的内在规律一无所知,那么模型的复杂度会无穷大,需要的数据无穷多,那就无法建立实用的模型。必须有一些先验的知识。如果没有,就只能凭直觉,假设一些,然后看看哪种假设误差小。
从lz以前的帖子来看 无解
不是C要高斯,是回归出来的残差最好是高斯,而且不是高斯也没大关系。