统计学问题:如何调整因变量

m
microsat
楼主 (北美华人网)
线性模型来研究 新冠对人记忆力的影响 Y ~ X+age+sex
Y是记忆力(连续变量) X(0是没得新冠,1是得了新冠)
我画了一个boxplot, axis-x是X(分成0和1两个状态) axis-y是Y记忆力(数值型)
审稿人要求 把Y的值进行调整,因为有age和sex作为covariate
请问这个adjust_Y该怎么求呢?

m
microsat
回复 1楼 microsat 的帖子
如果你认为不能求。也请列出你的理由。
m
microsat
有高手出手相救吗?
b
bzzby
调整 Y(记忆力)的值主要是为了消除协变量 年龄和 性别的影响,让我们更清楚地看到 X(是否感染新冠)对记忆力的独立作用。 具体步骤如下: 建立线性模型:用年龄和性别来预测记忆力,计算出模型对每个样本的预测值(Y^)。 计算残差:用实际的记忆力值 Y减去预测值 Y^,得到残差(即调整后的记忆力值)。 adjusted Y=Y−Y^ 这些残差值表示去掉了年龄和性别影响后的记忆力变化。 分析调整后的 Y:将调整后的 Y 与 X(新冠感染状态)进行比较或建模 这样,调整后的 Y 更准确地反映了 X 对记忆力的影响,而不会被年龄和性别混淆。
v
vivian_benben
是让你用模型得出的fitted value吧?你都fit了模型了,为什么还要用raw value?
m
microsat
bzzby 发表于 2024-12-13 22:19
调整 Y(记忆力)的值主要是为了消除协变量 年龄和 性别的影响,让我们更清楚地看到 X(是否感染新冠)对记忆力的独立作用。 具体步骤如下: 建立线性模型:用年龄和性别来预测记忆力,计算出模型对每个样本的预测值(Y^)。 计算残差:用实际的记忆力值 Y减去预测值 Y^,得到残差(即调整后的记忆力值)。 adjusted Y=Y−Y^ 这些残差值表示去掉了年龄和性别影响后的记忆力变化。 分析调整后的 Y:将调整后的 Y 与 X(新冠感染状态)进行比较或建模 这样,调整后的 Y 更准确地反映了 X 对记忆力的影响,而不会被年龄和性别混淆。

你觉得这个chatgpt的回复是正确的吗?
我认为是错误的。
m
microsat
vivian_benben 发表于 2024-12-13 22:20
是让你用模型得出的fitted value吧?你都fit了模型了,为什么还要用raw value?

有人说fitted value不是。
请高手解答一下。
v
vivian_benben
又看了遍,我说的不对,应该是用Y减去age和sex的部分,比如你age的coefficient是A,sex的coefficient是B,对于每个subject, 用Y或者Y_fitted减去(A*age+B*sex)
S
SunsetForest
应该再加个变量:最近三年内是否生孩子了,正所谓一孕傻三年。😂
m
microsat
vivian_benben 发表于 2024-12-13 22:54
又看了遍,我说的不对,应该是用Y减去age和sex的部分,比如你age的coefficient是A,sex的coefficient是B,对于每个subject, 用Y或者Y_fitted减去(A*age+B*sex)

谢谢!
伪猴王
这不是瞎扯吗? y=age+sex, regression出来的residual。 然后用这个residual去regress on X(covid). 这肯定错误啊。 如果你假设age, sex和covid 有相关。那就不能这么干。应该是一个regression。 他让你adjust Y的理由不成立啊。 如果他说里面有mediating effect,age会影响covid, sex会影响covid。那就是direct effect是age, sex, 而covid是个indirect effect. 所以你的第一个model应该是covid = m*age+n*sex。 然后第2个model是 y=a*covid+b*age+c*sex. direct effect是b, c。 indirect effect是m*a, n*a.

s
superego
回复 4楼 bzzby 的帖子
DML
伪猴王
microsat 发表于 2024-12-14 00:13
谢谢!

alternatively,如果你要像这个建议的做。 那你第2次regression的时候要把age, sex继续加上。