请教一个统计分析的问题 - 2022年4月7日北美华人网存档

3 年多

楼主 (北美华人网)

华人上的mm好多做分析的，想请教一个回归问题。
如果dependent variable和independent variables的unit of measurement不一样，可以放一起分析吗？
比如假设检验：“员工的教育水平越高，公司的财政状况越好。” 常见的是把员工的教育水平aggregate到公司level后建模，但我想知道，如果independent variable直接是单个员工的教育水平等数据，dependent variable是公司的数据，可以直接run回归的吗？

plantT

3 年多

看是不是normal distribution, 可以用员工教育水平的mean or median or mode吗？等牛人解答。

星

星月花草

3 年多

回复 1楼xxmjdd的帖子
个人理解：当然可以，但是模型这些要回到本质，那就是你要分析的是什么？你要分析的如果是整体员工受教育水平越高，公司的财政更好。那用单个的个体做样本，应该没什么意义吧？

hoohoo001

3 年多

你的data是很多个公司的数据在一起的？其中一个公司里有若干员工样本？

cs5560

3 年多

怎么觉得lz这个例子有点因果倒置啊？明明是公司财政好，才雇得起教育水平高的员工？

Cath226

3 年多

如果你有多个公司和这些公司内部所有员工的数据当然可以做回归
但是回归系数的interpretation就变成：每个员工的教育水平对所在公司财政状况的影响。apparently这个影响不会特别大所以估计standard error也会很大

Cath226

3 年多

万物都可以回归（除了那种variation不够的degenerate case）不同的也就是interpretation

xi_xi

3 年多

可以，去search HLM或者mixed model。

HSKM

3 年多

如果dependent variable是一个公司的数据，所有这个公司员工的y都一样只是x不一样，那么这些data就不是i.i.d，他们之间是有correlation的，不能用简单的model。另外一个问题是如果一个公司所有员工Y都一样，X（教育程度）有很大的variance，这个model就提供不了太大的意义。最好还是aggregate一下每个公司的员工再run regression，如果公司够多。当然只要X和Y一对一啥都能run。All models are wrong, some are helpful.

annebell

3 年多

华人上的mm好多做分析的，想请教一个回归问题。
如果dependent variable和independent variables的unit of measurement不一样，可以放一起分析吗？
比如我想假设检验：“员工的教育水平越高，公司的财政状况越好。” 常见的是把员工的教育水平aggregate到公司level后建模，但我想知道，如果independent variable直接是单个员工的教育水平等数据，dependent variable是公司的数据，可以run回归的吗？

xxmjdd 发表于 2022-04-07 08:39

这是multi-level analysis, level 1 单个员工教育水平不能predict公司level。所以才要aggregate到公司level后predict

shanggj

3 年多

怎么觉得lz这个例子有点因果倒置啊？明明是公司财政好，才雇得起教育水平高的员工？
cs5560 发表于 2022-04-07 09:47

统计从来不管因果。

machi

3 年多

楼主的data是nested data，可以用mixed/multi-level model

timeflies2015

3 年多

楼主的data是nested data，可以用mixed/multi-level model
machi 发表于 2022-04-07 12:48

应该把教育水平aggregate 到公司的level再做，最直接比如一个公司有多少比例的人教育水平高于哪个程度。
我觉得不适应mixed model直接做每个员工的教育水平。mixed model 适用在outcome 的variation 由个人教育水平和公司共同引起的，但这个例子同一个公司outcome效益是相同的，nested 在公司里的，没有个人的variation 在里面。