请问regression预测中,检测是否正则分布是必须的吗?

g
gooog
楼主 (北美华人网)
根据很多参数预测房屋的价格。
发现很多网上的预测模型,都没有分析是否房屋的价格是满足正则分布。 我也没有。
但是,今天被老板批评说,没有做正则分布与否的分析。老板还说,我水平太次,连这个简单的人人都会的步骤都不知道。 我真想挖个地洞钻进去。
请问大侠们,这个正则分布与否的分析是必须的吗?
我用的是decision tree模型中的xgboost。
如果用linear regression模型呢?
这个回归预测,有没有什么标准的步骤,一步步怎么做?

r
realsimplejill
回复 1楼 gooog 的帖子
我站你老板一边。数据分析第一条原则就是要测数据是什么分布,因为分析方法的根据就是分布。不符合分布,结果自然不对。分析方法来自最基础的theory of statistics这门课,听起来你没上过,不然就是忘了😂而且在测分布之前要检查数据,删除outliners 等等基本工作。
我为这个问题跟我们公司的data analyst干过一架。最后是我查了四个小时文献后给他提了整改意见,因为数据有点非常规,找了最优的分析方法,他接受了。我都不是做数据的都能查出的问题,这不丢脸吗?
C
Cath226
outcome的marginal不需要是正态分布 residual需要是正态 否则就不满足linear regression的assumption
但decision tree没有distribution assumption,没必要看分布
还有楼上说的theory of statistics,本人待过的两个统计系都没有这门课开
n
newlife2007
Linear regression 模型, independent variable and dependent variable 不需要看是否正态分布,但是residual 需要看,还是其它几个tests, 比如serial correlation etc to see whether they are I.i.d.
w
weiyixia
一般看看residual就好了。
k
kengdie
这就是版上著名的把华人当stackoverflow 用的那位,又换个马甲发帖问统计问题了。看了他发的贴,就不难回答隔壁贴的问题了
h
hijklmn
我当初学的时候,normal distribution叫正态分布,什么是正则分布?
k
kengdie
hijklmn 发表于 2024-05-23 22:17
我当初学的时候,normal distribution叫正态分布,什么是正则分布?

更牛的是,楼上这么多人没有一个对正则分布产生疑问
g
gooog
realsimplejill 发表于 2024-05-23 21:43
回复 1楼 gooog 的帖子
我站你老板一边。数据分析第一条原则就是要测数据是什么分布,因为分析方法的根据就是分布。不符合分布,结果自然不对。分析方法来自最基础的theory of statistics这门课,听起来你没上过,不然就是忘了😂而且在测分布之前要检查数据,删除outliners 等等基本工作。
我为这个问题跟我们公司的data analyst干过一架。最后是我查了四个小时文献后给他提了整改意见,因为数据有点非常规,找了最优的分析方法,他接受了。我都不是做数据的都能查出的问题,这不丢脸吗?

请问如果 “数据有点非常规,找了最优的分析方法” 怎么能找到最优分析方法? 如果非normal distribution,当使用generalized linear regression的时候,需要再次校验 是否满足泊松分布吗?
另外,这个normal distribution分析,是对target variable,还是对input variables呢?

g
gooog
Cath226 发表于 2024-05-23 21:50
outcome的marginal不需要是正态分布 residual需要是正态 否则就不满足linear regression的assumption
但decision tree没有distribution assumption,没必要看分布
还有楼上说的theory of statistics,本人待过的两个统计系都没有这门课开

我就是这样认为的。 而且当今最流行的深度神经网,根本不需要满足是否normal distribution。
g
gooog
kengdie 发表于 2024-05-23 22:19
更牛的是,楼上这么多人没有一个对正则分布产生疑问

一个英语单词,为什么要搞出那么多烂七八糟的翻译呢?
normal force normal equation
这些,我们都是翻译成 “正则”
换成了normal distribtuion,就要“正态”?
m
mangmang
楼主你问了好几个统计问题了……你是写作业呢? 按理说工作用到的话,不应该三天两头问些基础问题,google一下,到处都有深入浅出的答案
g
gooog
mangmang 发表于 2024-05-24 11:50
楼主你问了好几个统计问题了……你是写作业呢? 按理说工作用到的话,不应该三天两头问些基础问题,google一下,到处都有深入浅出的答案

你怎么知道我没google?
k
kiwikiwifruits05
回复 1楼 gooog 的帖子
找一本大学的LINEAR REGRESSION的教科书都有这些内容,每个统计测试都有ASSUMPTION需要满足。
h
hijklmn
gooog 发表于 2024-05-24 11:49
一个英语单词,为什么要搞出那么多烂七八糟的翻译呢?
normal force normal equation
这些,我们都是翻译成 “正则”
换成了normal distribtuion,就要“正态”?

你是哪儿的人?台湾的?台湾也不说正则分布啊。。。
g
gooog
hijklmn 发表于 2024-05-24 12:00
你是哪儿的人?台湾的?台湾也不说正则分布啊。。。

香港
c
chengle
如果一般线性回归,可以转换变量到normal distribution. 我今天看了一个paper, 直接找一个固定函数回归,变量分布就不重要了。但是不知道residue分布不normal会怎样。说明这个固定函数拟合不够好吗?
c
chengle
而且楼主说的是预测,还不是拟合。。。 真是一言难尽
g
gooog
chengle 发表于 2024-05-24 12:11
而且楼主说的是预测,还不是拟合。。。 真是一言难尽

我也不知道哪个好。总之,很乱。
h
happyTruth
回复 3楼 的帖子
我們有Probability theory 和 Statistics Theory.研究生的课程。 记得课本叫Statistical inference. 非常好的书。大概是讲这些测试是怎么推导出来的,而不是教人怎么用这些测试。
c
chengle
gooog 发表于 2024-05-23 17:09
根据很多参数预测房屋的价格。
发现很多网上的预测模型,都没有分析是否房屋的价格是满足正则分布。 我也没有。
但是,今天被老板批评说,没有做正则分布与否的分析。老板还说,我水平太次,连这个简单的人人都会的步骤都不知道。 我真想挖个地洞钻进去。
请问大侠们,这个正则分布与否的分析是必须的吗?
我用的是decision tree模型中的xgboost。
如果用linear regression模型呢?
这个回归预测,有没有什么标准的步骤,一步步怎么做?


xgboost是black box吗?能提供一下algorithm吗