如果dependent variable是一个公司的数据,所有这个公司员工的y都一样只是x不一样,那么这些data就不是i.i.d,他们之间是有correlation的,不能用简单的model。另外一个问题是如果一个公司所有员工Y都一样,X(教育程度)有很大的variance,这个model就提供不了太大的意义。最好还是aggregate一下每个公司的员工再run regression,如果公司够多。当然只要X和Y一对一啥都能run。All models are wrong, some are helpful.
如果dependent variable和independent variables的unit of measurement不一样,可以放一起分析吗?
比如假设检验:“员工的教育水平越高,公司的财政状况越好。” 常见的是把员工的教育水平aggregate到公司level后建模,但我想知道,如果independent variable直接是单个员工的教育水平等数据,dependent variable是公司的数据,可以直接run回归的吗?
个人理解:当然可以,但是模型这些要回到本质,那就是你要分析的是什么?你要分析的如果是整体员工受教育水平越高,公司的财政更好。那用单个的个体做样本,应该没什么意义吧?
但是回归系数的interpretation就变成:每个员工的教育水平对所在公司财政状况的影响。apparently这个影响不会特别大 所以估计standard error也会很大
这是multi-level analysis, level 1 单个员工教育水平 不能predict公司level。 所以才要aggregate到公司level后predict
统计从来不管 因果。
应该把教育水平aggregate 到 公司的level再做,最直接比如一个公司有多少比例的人教育水平高于哪个程度。
我觉得不适应mixed model直接做每个员工的教育水平。mixed model 适用在outcome 的variation 由个人教育水平和公司共同引起的,但这个例子同一个公司outcome效益是相同的,nested 在公司里的, 没有个人的variation 在里面。