hijklmn 发表于 2024-05-23 22:17 我当初学的时候,normal distribution叫正态分布,什么是正则分布?
realsimplejill 发表于 2024-05-23 21:43回复 1楼 gooog 的帖子 我站你老板一边。数据分析第一条原则就是要测数据是什么分布,因为分析方法的根据就是分布。不符合分布,结果自然不对。分析方法来自最基础的theory of statistics这门课,听起来你没上过,不然就是忘了😂而且在测分布之前要检查数据,删除outliners 等等基本工作。 我为这个问题跟我们公司的data analyst干过一架。最后是我查了四个小时文献后给他提了整改意见,因为数据有点非常规,找了最优的分析方法,他接受了。我都不是做数据的都能查出的问题,这不丢脸吗?
Cath226 发表于 2024-05-23 21:50 outcome的marginal不需要是正态分布 residual需要是正态 否则就不满足linear regression的assumption 但decision tree没有distribution assumption,没必要看分布 还有楼上说的theory of statistics,本人待过的两个统计系都没有这门课开
kengdie 发表于 2024-05-23 22:19 更牛的是,楼上这么多人没有一个对正则分布产生疑问
mangmang 发表于 2024-05-24 11:50 楼主你问了好几个统计问题了……你是写作业呢? 按理说工作用到的话,不应该三天两头问些基础问题,google一下,到处都有深入浅出的答案
gooog 发表于 2024-05-24 11:49 一个英语单词,为什么要搞出那么多烂七八糟的翻译呢? normal force normal equation 这些,我们都是翻译成 “正则” 换成了normal distribtuion,就要“正态”?
hijklmn 发表于 2024-05-24 12:00 你是哪儿的人?台湾的?台湾也不说正则分布啊。。。
chengle 发表于 2024-05-24 12:11 而且楼主说的是预测,还不是拟合。。。 真是一言难尽
gooog 发表于 2024-05-23 17:09 根据很多参数预测房屋的价格。 发现很多网上的预测模型,都没有分析是否房屋的价格是满足正则分布。 我也没有。 但是,今天被老板批评说,没有做正则分布与否的分析。老板还说,我水平太次,连这个简单的人人都会的步骤都不知道。 我真想挖个地洞钻进去。 请问大侠们,这个正则分布与否的分析是必须的吗? 我用的是decision tree模型中的xgboost。 如果用linear regression模型呢? 这个回归预测,有没有什么标准的步骤,一步步怎么做?
发现很多网上的预测模型,都没有分析是否房屋的价格是满足正则分布。 我也没有。
但是,今天被老板批评说,没有做正则分布与否的分析。老板还说,我水平太次,连这个简单的人人都会的步骤都不知道。 我真想挖个地洞钻进去。
请问大侠们,这个正则分布与否的分析是必须的吗?
我用的是decision tree模型中的xgboost。
如果用linear regression模型呢?
这个回归预测,有没有什么标准的步骤,一步步怎么做?
我站你老板一边。数据分析第一条原则就是要测数据是什么分布,因为分析方法的根据就是分布。不符合分布,结果自然不对。分析方法来自最基础的theory of statistics这门课,听起来你没上过,不然就是忘了😂而且在测分布之前要检查数据,删除outliners 等等基本工作。
我为这个问题跟我们公司的data analyst干过一架。最后是我查了四个小时文献后给他提了整改意见,因为数据有点非常规,找了最优的分析方法,他接受了。我都不是做数据的都能查出的问题,这不丢脸吗?
但decision tree没有distribution assumption,没必要看分布
还有楼上说的theory of statistics,本人待过的两个统计系都没有这门课开
更牛的是,楼上这么多人没有一个对正则分布产生疑问
请问如果 “数据有点非常规,找了最优的分析方法” 怎么能找到最优分析方法? 如果非normal distribution,当使用generalized linear regression的时候,需要再次校验 是否满足泊松分布吗?
另外,这个normal distribution分析,是对target variable,还是对input variables呢?
我就是这样认为的。 而且当今最流行的深度神经网,根本不需要满足是否normal distribution。
一个英语单词,为什么要搞出那么多烂七八糟的翻译呢?
normal force normal equation
这些,我们都是翻译成 “正则”
换成了normal distribtuion,就要“正态”?
你怎么知道我没google?
找一本大学的LINEAR REGRESSION的教科书都有这些内容,每个统计测试都有ASSUMPTION需要满足。
你是哪儿的人?台湾的?台湾也不说正则分布啊。。。
香港
我也不知道哪个好。总之,很乱。
我們有Probability theory 和 Statistics Theory.研究生的课程。 记得课本叫Statistical inference. 非常好的书。大概是讲这些测试是怎么推导出来的,而不是教人怎么用这些测试。
xgboost是black box吗?能提供一下algorithm吗