大家遇到过这样的logistic regression吗?

m
miked
楼主 (北美华人网)
今天的logitstic regression是这样的。大家说说有啥问题。
20个变量,其中的BMI, stress levels, sex,age这4个拿出来合成了一个新变量risk_level
然后这个risk_level做logistic regression, 来分析参数的系数等等。
模型是risk_level ~.
大家遇到过这类问题吗?你认为这个是有问题的吗? 如何解释这个不对呢?

x
xiaoqiu123
4个变量合成新变量risk level有现成公式吗?
小城往事
回复 1楼 miked 的帖子
这样的技术问题,上网搜,不比来华人发帖问有效率?
c
cavine747
怎么合成?特别是性别,怎么blend进去的?1,0? 反正garbage in garbage out。
w
wdong
我能想象有人这么做,类似的情况我遇到过,但是这么做水平真的很低。
p
ppnn
变量太多了,可以考虑dimension reduction
m
miked
wdong 发表于 2024-03-25 17:48
我能想象有人这么做,类似的情况我遇到过,但是这么做水平真的很低。

请大牛指点一二。如何解释这样做不对? 这个是一个著名学校的著名小组提出的模型。
当然,他们主要是做医学的。所以对统计学不懂。
我觉得从统计学上,这就是个骗子模型。
但是这个骗子模型几乎人人都在接受,人人都在用。比如 癌症患者的MRI图。找几个radiologist根据图像,判断一下是不是癌症 (0 vs 1) (设为目标变量 y)
然后以这个是否为癌症的目标变量y为gold standard。 图片为输入参数。 y ~ 图片参数
进行机器学习。
这个模型几乎人人用。没人说是错的。 但是y并不是真正的gold standard,因为识别图像的radiologist也会出错。
为什么大家都这么做,又都认为这么做没错呢?

m
miked
xiaoqiu123 发表于 2024-03-25 17:33
4个变量合成新变量risk level有现成公式吗?

如果分成三种情况 1)有现成的公式 2)没有公式,但是有现成的逻辑。比如 if then..... 3) 不是1,也不是2
那么你的回答是什么?
m
miked
cavine747 发表于 2024-03-25 17:36
怎么合成?特别是性别,怎么blend进去的?1,0? 反正garbage in garbage out。

用if male, and if BMI > 20, then risk score = 1 if female, and if BMI > 25, then risk score = 1
x
xiaoqiu123
这个if then algorithm 由谁定义呢? 看来code不难写。
w
wdong
回复 7楼 miked 的帖子
因为统计还有一帮人在死守着他们的阵地不愿意向机器学习妥协。
想不出名字啊啊啊
propensity score?????
哦不是。看了之后你有一层的回复。 我没遇到过这种分析。是不是有什么医学上的解释啊这么做的原因
想不出名字啊啊啊
wdong 发表于 2024-03-25 18:09
回复 7楼 miked 的帖子
因为统计还有一帮人在死守着他们的阵地不愿意向机器学习妥协。

如此arrogant的我在业界还真的没遇到过......
C
Cumberbitch
miked 发表于 2024-03-25 17:31
今天的logitstic regression是这样的。大家说说有啥问题。
20个变量,其中的BMI, stress levels, sex,age这4个拿出来合成了一个新变量risk_level
然后这个risk_level做logistic regression, 来分析参数的系数等等。
模型是risk_level ~.
大家遇到过这类问题吗?你认为这个是有问题的吗? 如何解释这个不对呢?


这是gooog的另一个马甲吗
小东西
如果是经验公式,感觉也可以用。
C
Cath226
关键是,要回答的scientific问题是什么? 单从这个模型看,要研究的是这个risk level跟其他变量之间的关系。 given 这个risklevel是4个变量决定的,其实也就是研究这4个变量跟其他变量间的关系。我假设这个所谓risk level其实是某种疾病的risk level,那么这个模型的问题其实在于根本没有把任何疾病信息放进去。
这跟radiologist看图那个例子不是一回事。radiologist也许是AI想要替代的一个东西,那么当然就是用他们给的0,1来训练。
千渔千寻
现在cs的ai宗已经一统人工智能江湖了。传统统计真是没啥用了。
c
cavine747
千渔千寻 发表于 2024-03-25 20:20
现在cs的ai宗已经一统人工智能江湖了。传统统计真是没啥用了。

小样本的领域ai还不行吧?
k
kanon
回复 7楼 miked 的帖子
我没看懂这个logistic regression 想干嘛 我觉得具体要看它的科学问题 但是你说的 y~图片参数 这是computer vision 意义是想教会机器代替人类来看mri图 所以需要一些ground truth label 这是deep learning 领域(machine learning 领域)和 logistic regression 差了十万八千里。。。。。不是所有binary prediction都叫logistic regression 或者意义和logistic regression 一样
m
miked
Cath226 发表于 2024-03-25 20:18
关键是,要回答的scientific问题是什么? 单从这个模型看,要研究的是这个risk level跟其他变量之间的关系。 given 这个risklevel是4个变量决定的,其实也就是研究这4个变量跟其他变量间的关系。我假设这个所谓risk level其实是某种疾病的risk level,那么这个模型的问题其实在于根本没有把任何疾病信息放进去。
这跟radiologist看图那个例子不是一回事。radiologist也许是AI想要替代的一个东西,那么当然就是用他们给的0,1来训练。

请问为何你觉得和radiologist那个不一样呢?
如果决定risklevel的四个变量中,有一个是来自于图像的,比如EEG, 你还会觉得这个risklevel的模型,没有把任何疾病信息放进去吗?
你会转而认为它是对的吗?
你还会认为radiologist的那个例子是正确的吗?
我们认为radiologist那个例子是正确的,无非是图像与是否癌症的关系是非线性的而已。不像risklevel那样,可能有个函数关系。



m
miked
千渔千寻 发表于 2024-03-25 20:20
现在cs的ai宗已经一统人工智能江湖了。传统统计真是没啥用了。

能展开讨论一下吗?
为啥AI一统江湖了?
AI这么牛了吗?为啥我觉得AI很笨呢?只有我一个人有如此想法?
咱们来点干货。
你用AI构建的股票投资模型,最终的预测盈利比是多少?
我先来回答。我构建的股票投资模型,最高的盈利比为49.8%

m
miked
kanon 发表于 2024-03-25 23:26
回复 7楼 miked 的帖子
我没看懂这个logistic regression 想干嘛 我觉得具体要看它的科学问题 但是你说的 y~图片参数 这是computer vision 意义是想教会机器代替人类来看mri图 所以需要一些ground truth label 这是deep learning 领域(machine learning 领域)和 logistic regression 差了十万八千里。。。。。不是所有binary prediction都叫logistic regression 或者意义和logistic regression 一样

我先回答“我没看懂这个logistic regression 想干嘛”
在现在的数据分析中,有很多牛实验室对某个问题进行研究。 比如糖尿病。 他们会得到一大堆变量。举个例子,就4个变量,BMI, stress levels, sex,age。
这些大牛脑子里就构想,这4个变量肯定与糖尿病有某种关联。于是就勾画出risk score 或者risk level这个玩意。
挑战是,如何获得这个变量呢?
于是大牛们又开始动脑筋。高薪聘请一个医生,请这个医生根据病人的病历来给糖尿病的risk score打分。
得到了这个5个变量后BMI, stress levels, sex,age, risklevel。
最后一步就请统计学大师 用risklevel ~ BMI + stress levels + sex + age 加上logistics regression。
最后发表在nature上。
而核心这个医生是如何根据病人的病历来给糖尿病的risk score打分的呢? 论文中很少提及。
有的实验室,由于经费紧张,干脆不聘用医生,直接博士后,根据一个自编的函数f,就打分了。 risklevel = f( BMI , stress levels , sex , age) 很多很多发表在nature上的论文都是这么做的。只是写的时候不这么写而已。
比如radiologist看癌症病人的片子。其实就是leisure size和count,这两个变量(图形分析软件自动提取这两个变量)的一个函数就来决定的。但是发表论文的时候,不这么写。写成的是”专业radiologist识别癌症”






w
wfmlover
miked 发表于 2024-03-26 11:14
能展开讨论一下吗?
为啥AI一统江湖了?
AI这么牛了吗?为啥我觉得AI很笨呢?只有我一个人有如此想法?
咱们来点干货。
你用AI构建的股票投资模型,最终的预测盈利比是多少?
我先来回答。我构建的股票投资模型,最高的盈利比为49.8%


AI统一江湖的意思是,现在CS毕业的 会Pytorch写Deep Learning是标配
传统ML的已经太落伍 传统统计的什么p-value更没啥意义了
m
miked
wdong 发表于 2024-03-25 17:48
我能想象有人这么做,类似的情况我遇到过,但是这么做水平真的很低。

请问为何你觉得这么做水平很低?
最近审阅的好几篇nature稿子,都是这么干的。
m
miked
wdong 发表于 2024-03-25 18:09
回复 7楼 miked 的帖子
因为统计还有一帮人在死守着他们的阵地不愿意向机器学习妥协。

不明白。统计和机器学习有啥区别?
它们俩不就是一个东西吗?
搞得神神秘秘的。其实就是个泡沫。
我有一万个理由,告诉大家,机器学习和统计,没有区别,它们的实质是一家。
m
miked
Cath226 发表于 2024-03-25 20:18
关键是,要回答的scientific问题是什么? 单从这个模型看,要研究的是这个risk level跟其他变量之间的关系。 given 这个risklevel是4个变量决定的,其实也就是研究这4个变量跟其他变量间的关系。我假设这个所谓risk level其实是某种疾病的risk level,那么这个模型的问题其实在于根本没有把任何疾病信息放进去。
这跟radiologist看图那个例子不是一回事。radiologist也许是AI想要替代的一个东西,那么当然就是用他们给的0,1来训练。

回答一下,“要回答的scientific问题是什么”
拿跌倒风险分析距离。
fall risk是由多种因素决定的。我们假定age, gender, bmi, body balance.
实验室一般容易收集到这些变量。
要研究的问题是,如果给定这4个变量,怎么知道这个人的跌倒风险。
最核心的问题,risk score,或者risk level (前者是连续变量,后者是离散变量),怎么去确定?
几乎所有的论文,都是这么描述的。physical therapist来决定这个risk related variable。 而具体怎么决定的,没有进一步的描述。
而很大概率的存在,其实就是编个函数或者逻辑规则来测定。 risk score = f(age, gender, bmi, body balance)


m
miked
wfmlover 发表于 2024-03-26 11:31
AI统一江湖的意思是,现在CS毕业的 会Pytorch写Deep Learning是标配
传统ML的已经太落伍 传统统计的什么p-value更没啥意义了

我审的几篇nature稿子,都是用deep learning来搞。这个往往不是我要审核的重点。
重点是, 这些稿件都出现了我本帖提出的这个问题。关键的参数 risk score是如何确定的?模棱两可。
m
mystmist
miked 发表于 2024-03-25 17:57
请大牛指点一二。如何解释这样做不对? 这个是一个著名学校的著名小组提出的模型。
当然,他们主要是做医学的。所以对统计学不懂。
我觉得从统计学上,这就是个骗子模型。
但是这个骗子模型几乎人人都在接受,人人都在用。比如 癌症患者的MRI图。找几个radiologist根据图像,判断一下是不是癌症 (0 vs 1) (设为目标变量 y)
然后以这个是否为癌症的目标变量y为gold standard。 图片为输入参数。 y ~ 图片参数
进行机器学习。
这个模型几乎人人用。没人说是错的。 但是y并不是真正的gold standard,因为识别图像的radiologist也会出错。
为什么大家都这么做,又都认为这么做没错呢?


别的不评价,只针对这个模型,为什么你认为它是不对的呢? 我理解,做这个模型模拟的就是radiologist,所以把radiologist的判断作为y是完全make sense的啊。这个模型的应用情景就是解决radiologist不available的情况下,机器学习模拟给出判断。
m
miked
mystmist 发表于 2024-03-26 11:45
别的不评价,只针对这个模型,为什么你认为它是不对的呢? 我理解,做这个模型模拟的就是radiologist,所以把radiologist的判断作为y是完全make sense的啊。这个模型的应用情景就是解决radiologist不available的情况下,机器学习模拟给出判断。

这个问题一直困惑着我。因为我隐约觉得不对,但是又说服不了说它对的人,比如你。
我把这个稍微改一下。
假设,五个变量x1, x2, x3,x4, z. x1,x2,x3,x4是从图像抽取来的变量, 如果radiologist在确定z的时候,是用的函数和规则(if else) z = f(x1,x2,x3,x4)
那么z~ x1 + x2 + x3 + x4 这个机器学习模型,你认为还有意义吗?
在什么样的情况下,我们认为一个radiologist不是利用函数和规则,来读取病人的片子呢?


C
Cath226
miked 发表于 2024-03-26 11:11
请问为何你觉得和radiologist那个不一样呢?
如果决定risklevel的四个变量中,有一个是来自于图像的,比如EEG, 你还会觉得这个risklevel的模型,没有把任何疾病信息放进去吗?
你会转而认为它是对的吗?
你还会认为radiologist的那个例子是正确的吗?
我们认为radiologist那个例子是正确的,无非是图像与是否癌症的关系是非线性的而已。不像risklevel那样,可能有个函数关系。




假设你X1-X4是放到risk level里的4个变量,X5-X20是另外的。 拿EEG的例子来说明其实挺合适的。就是你的目标到底是研究EEG和X5-X20的关系,还是癌症和X5-X20之间的关系呢?如果你的目标是用X5-X20做一个EEG的proxy,就没啥问题;但是如果目标是X5-X20预测疾病,就得放进去EEG和疾病之间的联系。这个联系如果是externally fit好的model(无论AI,还是有explicit form的形式),那你就是借用了这些external的信息,那其实还是有一定道理的。如果没有,那当然就不对劲。
Radiologist那个例子,我相信你的意思是,用一些水平特别次的radiologist(他们给的01跟实际的01有很大出入)的label,跟一些水平特别高的radiologist(他们给的01跟实际01非常接近)的label来训练模型,最后用来预测癌症的效果可能是差很多的。again,你要的是疾病的proxy还是radiologist的proxy,如果是后者,就没问题。
我没有觉得哪个对哪个不对。一切都取决于要回答的问题到底是什么。
m
miked
Cath226 发表于 2024-03-26 12:02
假设你X1-X4是放到risk level里的4个变量,X5-X20是另外的。 拿EEG的例子来说明其实挺合适的。就是你的目标到底是研究EEG和X5-X20的关系,还是癌症和X5-X20之间的关系呢?如果你的目标是用X5-X20做一个EEG的proxy,就没啥问题;但是如果目标是X5-X20预测疾病,就得放进去EEG和疾病之间的联系。这个联系如果是externally fit好的model(无论AI,还是有explicit form的形式),那你就是借用了这些external的信息,那其实还是有一定道理的。如果没有,那当然就不对劲。
Radiologist那个例子,我相信你的意思是,用一些水平特别次的radiologist(他们给的01跟实际的01有很大出入)的label,跟一些水平特别高的radiologist(他们给的01跟实际01非常接近)的label来训练模型,最后用来预测癌症的效果可能是差很多的。again,你要的是疾病的proxy还是radiologist的proxy,如果是后者,就没问题。
我没有觉得哪个对哪个不对。一切都取决于要回答的问题到底是什么。

“如果你的目标是用X5-X20做一个EEG的proxy,就没啥问题;”
我同意你的这个观点。
但是现在的稿件作者都非常狡猾,智商比我们都高。
1) 如果目标是用X5-X20做一个EEG的proxy,性能往往很低,不可能投高级杂志。
所以,有很多变形的欺诈。 你说它是欺诈,但又很难下结论。
举个例子。x1,x2,x3,x4中有一个变量其实和X5-X20的EEG存在高相关。 比如,让x4来标识是不是羊癫疯。这个其实和EEG有很高很高的相关。
我实际遇到过无数这样的欺诈。但又苦于驳斥。
今天,我又审了一篇稿子。居然用今天的股市参数来预测昨天的股市行情。预测精度86%。 里面的方法,都是现在时髦的,什么deep learning, convolution, transformer。我都看不懂。








s
shanggj
miked 发表于 2024-03-26 11:14
能展开讨论一下吗?
为啥AI一统江湖了?
AI这么牛了吗?为啥我觉得AI很笨呢?只有我一个人有如此想法?
咱们来点干货。
你用AI构建的股票投资模型,最终的预测盈利比是多少?
我先来回答。我构建的股票投资模型,最高的盈利比为49.8%


"最高“ 是什么意思?
s
shanggj
Cumberbitch 发表于 2024-03-25 18:56
这是gooog的另一个马甲吗

很像。 用 AI 分析一下 估计没跑。
a
allstar
Score card。 金融业的常见操作吧,把borrower, bond, loan 等等 打个分, 然后再predict default probability based on these ratings.
m
miked
Cath226 发表于 2024-03-26 12:02
假设你X1-X4是放到risk level里的4个变量,X5-X20是另外的。 拿EEG的例子来说明其实挺合适的。就是你的目标到底是研究EEG和X5-X20的关系,还是癌症和X5-X20之间的关系呢?如果你的目标是用X5-X20做一个EEG的proxy,就没啥问题;但是如果目标是X5-X20预测疾病,就得放进去EEG和疾病之间的联系。这个联系如果是externally fit好的model(无论AI,还是有explicit form的形式),那你就是借用了这些external的信息,那其实还是有一定道理的。如果没有,那当然就不对劲。
Radiologist那个例子,我相信你的意思是,用一些水平特别次的radiologist(他们给的01跟实际的01有很大出入)的label,跟一些水平特别高的radiologist(他们给的01跟实际01非常接近)的label来训练模型,最后用来预测癌症的效果可能是差很多的。again,你要的是疾病的proxy还是radiologist的proxy,如果是后者,就没问题。
我没有觉得哪个对哪个不对。一切都取决于要回答的问题到底是什么。

回答一下 “Radiologist那个例子,我相信你的意思是,用一些水平特别次的radiologist(他们给的01跟实际的01有很大出入)的label,跟一些水平特别高的radiologist(他们给的01跟实际01非常接近)的label来训练模型,最后用来预测癌症的效果可能是差很多的。again,你要的是疾病的proxy还是radiologist的proxy,如果是后者,就没问题。 ”
如果是水平特别次的radiologist来label,一眼就能看出问题。谁发表论文,都不会写, “我们聘用赤脚医生来诊断癌症病人”
而把赤脚二字去掉,作为一个reviewer,也根本无从考证这个label的实际效果。进而,无法考证整个机器学习模型的精度是不是如论文所吹的那么高。
但是,仍然一些论文的结论,“我们的机器学习模型的精度超越了radiologist” 这样的吹牛的很多,而且都接受发表了。
我就是不明白,这是如何做到的呢?
假设cancer_actual是真实的癌症病人的诊断。 cancer_radiologist是radiologist诊断。 cancer_radioloogist ~ . 如果用上面这个基于radiologist的诊断建立的机器学习模型,怎么可能就能超越radiologist呢?
这个问题等价于,“人工智能编程的水平,怎么可能超越编写它的程序员的水平呢?”
人工智能就是个泡沫,大家都在这个泡沫里吹牛。

m
miked
allstar 发表于 2024-03-26 12:21
Score card。 金融业的常见操作吧,把borrower, bond, loan 等等 打个分, 然后再predict default probability based on these ratings.

是的。这也是我的问题。为啥要这么操作呢?
有大牛出来,说说这么分析数据的科学性吗?
其实,final_score已经是个函数了。 final_score = f(borrower, bond, loan)
那么为啥还要用以此构建机器模型来预测呢? final_score ~ borrower + bond + loan
为什么就没有一个人出来说说,这么做是错误的呢?
今天的logitstic regression是这样的。大家说说有啥问题。
20个变量,其中的BMI, stress levels, sex,age这4个拿出来合成了一个新变量risk_level
然后这个risk_level做logistic regression, 来分析参数的系数等等。
模型是risk_level ~.
大家遇到过这类问题吗?你认为这个是有问题的吗? 如何解释这个不对呢?


miked 发表于 2024-03-25 17:31

我就回答头贴吧,首先是什么方面的risk_level你没有明说,糖尿病,寿命…等等。还有不管多少参数,对于你要算的结果如果这些参数的相关性太少了,就等于垃圾,没有任何统计或者预测作用。如果有些相关性,预测有些作用可是错误太大。参数太多,里面有太多不相关的参数,只是让计算时间拉长。20个参数,你硬要拿四个单独成为一个参数不太科学,因为里面4个不同参数和其他参数的相关性可能完全不同。
其实找multi variate regression也好,curve fitting也好,AI NN training也好,其实数学上来说差不多都是一个方向,不过目前NN现在更高效,都是找solution的工具而已。
x
xiaoqiu123
我们课上用机器学习model来预测radiologist读片的确得到很好的预测准确度。 我的理解是trainingdata足够多的话, 机器学习学到了足够多的radiologiest 的knowledge, 但是机器学习没有人的失误, 不会有疲劳或者别的因数干扰而且它能够综合大家的knowledge的精华。这可能就是大家认为AI可怕的地方
m
miked
睿 发表于 2024-03-26 12:39
我就回答头贴吧,首先是什么方面的risk_level你没有明说,糖尿病,寿命…等等。还有不管多少参数,对于你要算的结果如果这些参数的相关性太少了,就等于垃圾,没有任何统计或者预测作用。如果有些相关性,预测有些作用可是错误太大。参数太多,里面有太多不相关的参数,只是让计算时间拉长。20个参数,你硬要拿四个单独成为一个参数不太科学,因为里面4个不同参数和其他参数的相关性可能完全不同。
其实找multi variate regression也好,curve fitting也好,AI NN training也好,其实数学上来说差不多都是一个方向,不过目前NN现在更高效,都是找solution的工具而已。

你提供一套医学数据(tab delimited text格式)。然后我们俩PK一下。 你用NN,我用非NN。 然后看看,到底是你的NN牛,还是我的非NN牛。
我的结论:NN一点不高效,除了吹牛。
m
miked
xiaoqiu123 发表于 2024-03-26 12:42
我们课上用机器学习model来预测radiologist读片的确得到很好的预测准确度。 我的理解是trainingdata足够多的话, 机器学习学到了足够多的radiologiest 的knowledge, 但是机器学习没有人的失误, 不会有疲劳或者别的因数干扰而且它能够综合大家的knowledge的精华。这可能就是大家认为AI可怕的地方

这么理解,的确是正确的。
谢谢你。
miked 发表于 2024-03-26 12:42
你提供一套医学数据(tab delimited text格式)。然后我们俩PK一下。 你用NN,我用非NN。 然后看看,到底是你的NN牛,还是我的非NN牛。
我的结论:NN一点不高效,除了吹牛。

你如果理解NN数学原理的话,其实就是统计的一种。NN高效就是现在已经系统化,可以非常短的时间做training和test来看结果是不是满意。
现在NN能做到实时nuclear fusion稳定的预测能力,让它能继续工作下去,用NN可以慢慢的算出各种情况然后可以让它工作的时间慢慢延长,用传统的统计根本做不到。
d
danhuang7
LR不是用来model binary variable的吗,risk level这种ordinal variable 也能用 LR?
上面的层主把我拉黑了,radiologist的片子用NN来train后的能力已经发现比一般radiologist强,可以发现radiologist根本看不到的癌症区域。这个才是真正厉害的地方。
NN强大的数学分析加上现在硬件的速度结合起来已经远远超过人类自己做发现发明的能力了。
m
miked
睿 发表于 2024-03-26 12:48
你如果理解NN数学原理的话,其实就是统计的一种。NN高效就是现在已经系统化,可以非常短的时间做training和test来看结果是不是满意。
现在NN能做到实时nuclear fusion稳定的预测能力,让它能继续工作下去,用NN可以慢慢的算出各种情况然后可以让它工作的时间慢慢延长,用传统的统计根本做不到。

这么说,那就是高效。 real-time NN
我同意阿里的数据大师的观点,决定精度的可能不光是模型或者算法,而是: 数据 + 模型/算法
在医学大数据分析中,数据往往比模型/算法更重要。
这就是为何统计师往往做桌子腿,而医生往往做项目的领导者。
l
linziwen
miked 发表于 2024-03-25 17:57
请大牛指点一二。如何解释这样做不对? 这个是一个著名学校的著名小组提出的模型。
当然,他们主要是做医学的。所以对统计学不懂。
我觉得从统计学上,这就是个骗子模型。
但是这个骗子模型几乎人人都在接受,人人都在用。比如 癌症患者的MRI图。找几个radiologist根据图像,判断一下是不是癌症 (0 vs 1) (设为目标变量 y)
然后以这个是否为癌症的目标变量y为gold standard。 图片为输入参数。 y ~ 图片参数
进行机器学习。
这个模型几乎人人用。没人说是错的。 但是y并不是真正的gold standard,因为识别图像的radiologist也会出错。
为什么大家都这么做,又都认为这么做没错呢?


没有完美的数据,也没有完美的模型 统计能做的就是在有各种误差和个体偏差的情况下得出最好的无偏差的显著的结果
s
sweetapple123
observational study如果sample size足够大的话,这么做没毛病,但是有什么统计学意义和临床指导性?God knows!以前在大学医学院上班,被要求做过好多类似的model,也都发了各种paper。
l
linziwen
miked 发表于 2024-03-25 17:31
今天的logitstic regression是这样的。大家说说有啥问题。
20个变量,其中的BMI, stress levels, sex,age这4个拿出来合成了一个新变量risk_level
然后这个risk_level做logistic regression, 来分析参数的系数等等。
模型是risk_level ~.
大家遇到过这类问题吗?你认为这个是有问题的吗? 如何解释这个不对呢?


risk_level包含的都是客观变量啊,为啥是dependent variable?用这个risk_level做independent variable去解释疾病患病可能更有道理吧
l
linziwen
miked 发表于 2024-03-26 11:11
请问为何你觉得和radiologist那个不一样呢?
如果决定risklevel的四个变量中,有一个是来自于图像的,比如EEG, 你还会觉得这个risklevel的模型,没有把任何疾病信息放进去吗?
你会转而认为它是对的吗?
你还会认为radiologist的那个例子是正确的吗?
我们认为radiologist那个例子是正确的,无非是图像与是否癌症的关系是非线性的而已。不像risklevel那样,可能有个函数关系。




性别能被决定? BMI能靠饮食运动预测一下还可以理解,性别怎么预测😂
x
xiaoqiu123
training数据足够多,变量足够, 算法足够精确都是NN精确的基础。这就是个家都在攒GPU的原因。精确的weigh每个变量权重和变量与变量的关系已经大大超越了人脑的范畴
l
linziwen
miked 发表于 2024-03-26 11:41
回答一下,“要回答的scientific问题是什么”
拿跌倒风险分析距离。
fall risk是由多种因素决定的。我们假定age, gender, bmi, body balance.
实验室一般容易收集到这些变量。
要研究的问题是,如果给定这4个变量,怎么知道这个人的跌倒风险。
最核心的问题,risk score,或者risk level (前者是连续变量,后者是离散变量),怎么去确定?
几乎所有的论文,都是这么描述的。physical therapist来决定这个risk related variable。 而具体怎么决定的,没有进一步的描述。
而很大概率的存在,其实就是编个函数或者逻辑规则来测定。 risk score = f(age, gender, bmi, body balance)



risk score = f(age, gender, bmi, body balance)
就是这么算出来的啊,risk score的观测数据就是患病和不患病 0,1变量,用logistic regression算回归系数,然后predicted risk score就是患病的probability

l
linziwen
miked 发表于 2024-03-26 11:44
我审的几篇nature稿子,都是用deep learning来搞。这个往往不是我要审核的重点。
重点是, 这些稿件都出现了我本帖提出的这个问题。关键的参数 risk score是如何确定的?模棱两可。

失敬,看你的帖子真看不出能给nature审稿
你看到的论文没有写这部分是因为这部分知识太基础了,无需浪费篇幅。
t
thatisnotright
回复 1楼 miked 的帖子
为啥你啥都不懂还让你去审稿?
x
xiaoqiu123
risk score = f(age, gender, bmi, body balance)
这种打闷包没有给出具体函数的, 应该assum是机器深度学习给出的函数, 应该问作者机器学习的model, 如果没有就应该有人写的函数方程式, 可以这样理解吗
m
magnoliaceae
linziwen 发表于 2024-03-26 13:11
失敬,看你的帖子真看不出能给nature审稿
你看到的论文没有写这部分是因为这部分知识太基础了,无需浪费篇幅。

爬完全楼也想说这个,楼主你显然没明白人家那些论文在说什么,楼上Cath226和xiaoqiu123的回帖你看懂了就明白了,现在楼主连发表的论文里面说的“机器学习模型的精度超越了radiologist”这是什么意思都不明白,却说人家论文在吹牛,人家没有吹牛好不?
m
miked
linziwen 发表于 2024-03-26 13:11
失敬,看你的帖子真看不出能给nature审稿
你看到的论文没有写这部分是因为这部分知识太基础了,无需浪费篇幅。

我就是因为水平差,所以才上来发帖求问的。 我不是来打仗的。
另外,水平高的大牛太忙了,所以转给我了。就这么简单。
因为,同样的问题出现在好几篇nature稿件中,所以很迷茫,特来此请教学习。
h
hijklmn
miked 发表于 2024-03-26 16:03
我就是因为水平差,所以才上来发帖求问的。 我不是来打仗的。
另外,水平高的大牛太忙了,所以转给我了。就这么简单。
因为,同样的问题出现在好几篇nature稿件中,所以很迷茫,特来此请教学习。

问大牛啊。。。
m
miked
sweetapple123 发表于 2024-03-26 12:58
observational study如果sample size足够大的话,这么做没毛病,但是有什么统计学意义和临床指导性?God knows!以前在大学医学院上班,被要求做过好多类似的model,也都发了各种paper。

谢谢! 是的。太多了。 我都不知道怎么回复医生们。 这些医生都是业界大牛。薪金高,地位高。
当他们提出一种模型,而你疑惑这么做的意义时。 他们就会觉得你在无理取闹。无论你怎么解释,他们都不相信这么做毫无意义。 他们的原话,“虽然我不是statistician。我读的paper都是这么做的。你为什么说我的模型不可以实现呢?” 还有,“我的这个模型,是经过了大牛级的data scientist提出的。你个菜鸟说不对,就不对。who are you?”
m
miked
linziwen 发表于 2024-03-26 13:00
risk_level包含的都是客观变量啊,为啥是dependent variable?用这个risk_level做independent variable去解释疾病患病可能更有道理吧

能举个例子吗?详细展开你所说的risk_level,用一种疾病为例子。
m
miked
hijklmn 发表于 2024-03-26 16:07
问大牛啊。。。

这不上网来问大牛们了吗?
m
miked
linziwen 发表于 2024-03-26 13:11
失敬,看你的帖子真看不出能给nature审稿
你看到的论文没有写这部分是因为这部分知识太基础了,无需浪费篇幅。

补充一下。你可能误会了。 我审稿的期刊是"the science of nature". 我有时候把它说成是给nature审稿,有时候说成是给science 审稿。
c
coolcool
miked 发表于 2024-03-26 11:26
我先回答“我没看懂这个logistic regression 想干嘛”
在现在的数据分析中,有很多牛实验室对某个问题进行研究。 比如糖尿病。 他们会得到一大堆变量。举个例子,就4个变量,BMI, stress levels, sex,age。
这些大牛脑子里就构想,这4个变量肯定与糖尿病有某种关联。于是就勾画出risk score 或者risk level这个玩意。
挑战是,如何获得这个变量呢?
于是大牛们又开始动脑筋。高薪聘请一个医生,请这个医生根据病人的病历来给糖尿病的risk score打分。
得到了这个5个变量后BMI, stress levels, sex,age, risklevel。
最后一步就请统计学大师 用risklevel ~ BMI + stress levels + sex + age 加上logistics regression。
最后发表在nature上。
而核心这个医生是如何根据病人的病历来给糖尿病的risk score打分的呢? 论文中很少提及。
有的实验室,由于经费紧张,干脆不聘用医生,直接博士后,根据一个自编的函数f,就打分了。 risklevel = f( BMI , stress levels , sex , age) 很多很多发表在nature上的论文都是这么做的。只是写的时候不这么写而已。
比如radiologist看癌症病人的片子。其实就是leisure size和count,这两个变量(图形分析软件自动提取这两个变量)的一个函数就来决定的。但是发表论文的时候,不这么写。写成的是”专业radiologist识别癌症”







“有的实验室,由于经费紧张,干脆不聘用医生,直接博士后,根据一个自编的函数f,就打分了。 risklevel = f( BMI , stress levels , sex , age)”
自编函数f是怎么编出来的呢?医生打分的至少sample data里面有这个judgmental决定的risk level, 不用医生怎么得出这个f呢?
m
miked
“有的实验室,由于经费紧张,干脆不聘用医生,直接博士后,根据一个自编的函数f,就打分了。 risklevel = f( BMI , stress levels , sex , age)”
自编函数f是怎么编出来的呢?医生打分的至少sample data里面有这个judgmental决定的risk level, 不用医生怎么得出这个f呢?
coolcool 发表于 2024-03-26 16:22

也可以。就是那个医生是赤脚医生,或者那个医生,根本就不存在,是个虚拟的医生,假定存在的医生。 或者,就是个AI。
我昨天还和一个医生讨论呢。我问他,你是怎么给这个病人打分的呢?他支支吾吾,前后都对不上。一看就知道,他太忙了,根本没时间一个个病人看(打分),胡乱给的一个分值。 然后,他还提出了苛刻的要求,要求模型的精度高达90%。我反问他,你自己打分都做不到90%,你如何要求我设计出一个模型精度高达90%?
c
coolcool
miked 发表于 2024-03-26 11:41
回答一下,“要回答的scientific问题是什么”
拿跌倒风险分析距离。
fall risk是由多种因素决定的。我们假定age, gender, bmi, body balance.
实验室一般容易收集到这些变量。
要研究的问题是,如果给定这4个变量,怎么知道这个人的跌倒风险。
最核心的问题,risk score,或者risk level (前者是连续变量,后者是离散变量),怎么去确定?
几乎所有的论文,都是这么描述的。physical therapist来决定这个risk related variable。 而具体怎么决定的,没有进一步的描述。
而很大概率的存在,其实就是编个函数或者逻辑规则来测定。 risk score = f(age, gender, bmi, body balance)



“几乎所有的论文,都是这么描述的。physical therapist来决定这个risk related variable。 而具体怎么决定的,没有进一步的描述。
而很大概率的存在,其实就是编个函数或者逻辑规则来测定。 risk score = f(age, gender, bmi, body balance)”
我觉得如果有个PT决定这个score, 是合理的。用函数决定就是胡扯了。
m
miked
“几乎所有的论文,都是这么描述的。physical therapist来决定这个risk related variable。 而具体怎么决定的,没有进一步的描述。
而很大概率的存在,其实就是编个函数或者逻辑规则来测定。 risk score = f(age, gender, bmi, body balance)”
我觉得如果有个PT决定这个score, 是合理的。用函数决定就是胡扯了。
coolcool 发表于 2024-03-26 16:23

我说的这个函数,广义的定义,就是对应关系。 可以是你的PT 请问你的PT指的是什么?
c
coolcool
miked 发表于 2024-03-25 17:57
请大牛指点一二。如何解释这样做不对? 这个是一个著名学校的著名小组提出的模型。
当然,他们主要是做医学的。所以对统计学不懂。
我觉得从统计学上,这就是个骗子模型。
但是这个骗子模型几乎人人都在接受,人人都在用。比如 癌症患者的MRI图。找几个radiologist根据图像,判断一下是不是癌症 (0 vs 1) (设为目标变量 y)
然后以这个是否为癌症的目标变量y为gold standard。 图片为输入参数。 y ~ 图片参数
进行机器学习。
这个模型几乎人人用。没人说是错的。 但是y并不是真正的gold standard,因为识别图像的radiologist也会出错。
为什么大家都这么做,又都认为这么做没错呢?


虽然y不是gold standard, 但是可以作为一种proxy, 可以“假定”是可以得到的最好的proxy, 虽然精度值得推敲,但是逻辑上没问题。
前提是这样得出的y, 并不是统计学方法做出来的。
c
coolcool
miked 发表于 2024-03-26 12:33
是的。这也是我的问题。为啥要这么操作呢?
有大牛出来,说说这么分析数据的科学性吗?
其实,final_score已经是个函数了。 final_score = f(borrower, bond, loan)
那么为啥还要用以此构建机器模型来预测呢? final_score ~ borrower + bond + loan
为什么就没有一个人出来说说,这么做是错误的呢?

金融业需要的不是final score, 而是default probability. 从score 到probability需要统计模型进行转化。
m
miked
coolcool 发表于 2024-03-26 16:27
虽然y不是gold standard, 但是可以作为一种proxy, 可以“假定”是可以得到的最好的proxy, 虽然精度值得推敲,但是逻辑上没问题。
前提是这样得出的y, 并不是统计学方法做出来的。

同意你的“前提是这样得出的y, 并不是统计学方法做出来的。”
我读过很多例子,y就是统计学方法弄出来的。还发表在高水平期刊上。 我自己也审过。我拒稿了。但是另外两个reviewer却都同意发表。结果就是editor没有采纳我的建议,而同意发表那篇稿件。
具体说说这个稿件。希望更多牛人来讨论。 这篇论文的数据是音频文件。频率,振幅,等等参数,用来推导出这个人是不是bipolar。
论文很清晰的写着,根据音频文件中提出的3个参数(x11,x21,x31),用某某软件算法,来决定病人是不是bipolar。这个参数用作y。
然后这个音频文件中的另外3个参数(x12,x22,x32)和y一起机器学习。 y~ x12 + x22 + x32 结论:预测精度高。
我的评语是,(x11,x21,x31) 和(x12,x22,x32) 实质是同一个东西,他们高度相关。 我还举了个例子, height,weight, BMI中,BMI和height,weight是高度相关的。
但是,这篇稿子还是发表了。




propensity score?
c
coolcool
miked 发表于 2024-03-26 16:26
我说的这个函数,广义的定义,就是对应关系。 可以是你的PT 请问你的PT指的是什么?

我说的PT就是physical therapist, 反正他们打分水平决定最后模型的精度。但是逻辑上用他们打分去做模型,好像没啥问题。
问题是他们打分水平低,做出的模型质量也低。
c
coolcool
miked 发表于 2024-03-26 16:41
同意你的“前提是这样得出的y, 并不是统计学方法做出来的。”
我读过很多例子,y就是统计学方法弄出来的。还发表在高水平期刊上。 我自己也审过。我拒稿了。但是另外两个reviewer却都同意发表。结果就是editor没有采纳我的建议,而同意发表那篇稿件。
具体说说这个稿件。希望更多牛人来讨论。 这篇论文的数据是音频文件。频率,振幅,等等参数,用来推导出这个人是不是bipolar。
论文很清晰的写着,根据音频文件中提出的3个参数(x11,x21,x31),用某某软件算法,来决定病人是不是bipolar。这个参数用作y。
然后这个音频文件中的另外3个参数(x12,x22,x32)和y一起机器学习。 y~ x12 + x22 + x32 结论:预测精度高。
我的评语是,(x11,x21,x31) 和(x12,x22,x32) 实质是同一个东西,他们高度相关。 我还举了个例子, height,weight, BMI中,BMI和height,weight是高度相关的。
但是,这篇稿子还是发表了。





你这个例子,我还是真的和你想法一样。
唯一的意义在于,实际应用中((x11,x21,x31)不容易获得,而(x12,x22,x32) easily available. 所以模型帮助从(x12,x22,x32)的信息预测bipolar.
k
kanon
楼主大大 建议你去系统性的学习一下机器学习这个概念 学完后再学深度学习 我觉得你对基本的概念包括训练模型没有搞清楚 大牛是完全没有耐心和你认真解释这些的 建议还是先去看看mit 的课 他们有网上公开课 比如intro to machine learning啦之类的 如果真的对深度学习感兴趣可以报名一下他们对所有人开放的intro to deep learning (不过需要抽签) 还有 the science of nature 是一本水刊 还是尽量不要refer it as nature or science 会让科研人员破防的 呜呜 另外没有在喷楼主大大的意思 作为一名前researcher 我觉得上头随意把paper 丢给对某具体领域不太熟悉的人当reviewer 是一件对科研本身非常不负责任的事情 我觉得research中隔一个小field就像隔座山 除非各领域都自己做过科研了是挺难跨领域当reviewer的