推断概率论与对实际感染人数的推断

L
LingYuan
楼主 (文学峸)

昨天发表了对美国实际感染人数的一个推断。主要目的是提供一个信息。我认为知情是战胜疫情与心理安稳的一个重要因素,如同知己知彼与鞋子落地一样的效应。

发表之后,有网名“刁小山”与“山水一程歌”对此有些不适,不管用意如何,我想做一正面回答,更重要的是与众多网友做一沟通和探讨。同时介绍一下有关统计与概率知识。

推断统计学(INFERENCE STATISTICS)是统计学的一个重要分支。主要目的是依据可得的数据或统计实验结果来对整体特性做出某种概率判断。类似于我们日常生活中根据某些丝蛛马迹来推断事实真相的一种思维方法。但方法是基于严格的科学推断来进行的。

推断统计学发展于二战时期。当时,盟军召集了一批优秀的概率与统计大师,根据常常是不完全或模糊的情报来推断德军的军情或用于其它军事目的。例如前几年中国有个作文考试题提到的著名统计学家WALD提出在哪里加强飞机而使其不易被击落的例子就是其中一个例子。可能另一个更加著名的例子是所谓的“德国坦克车”的问题。当时,德国坦克非常厉害,联军非常想知道德国每月能生产多少坦克车。在一个战役里,缴获了若干辆坦克车,这样就可以知道这些坦克车的生产序列号(SERIAL NUMBERS)。根据这些不完全的数据,利用概率理论,成功地估计了德国当时坦克车的月产量,和后来解密数据有很好的吻合:

 

月份                     当时的统计推断      后来解密的数据

1940年6月                169辆/月                  122辆/月

1941年6月                244辆/月                  271辆/月

1942年8月                327辆/月                  342辆/月

 

除军事方面,目前推断统计学已经用于科学研究,生产实践,与日常生活中的方方面面。比如药物的双盲实验,生产中产品的合格率与质量验收和监控,民意调查等等方面。

我所作的统计估计就是依据这样的思路所做的。我们知道美国总人口的数目,知道做了多少检测,知道其中确诊人数是多少,问题是在总人口中感染人数是多少 (注意,这不是一个简单的比例问题)。利用统计概率的思路而做出的从已知到未知的统计推断。

下图中是对结果的一个总结。横坐标表示的是可能的感染人数,纵坐标是每个可能感染人数的可能性。在9.4M处可能性最大。也就是说,对美国的数据来说,当感染人数是9.4M才最可能有我们看到的确诊人数。作为一个例子,而当感染人数是6M或13M时候,他们的可信性是50%。我们取最可信的9.4M作为我们最佳判断。这一结果与其它方法得出的结果和我们基于常识的直觉判断基本吻合。

很可能某些机构有些复杂的模型,有个大程序来计算。我相信简明才是事务的本原与本质。一个复杂的大MODEL,连计算的人都不知道里面运行的是什么,太复杂了,不容易抓住事物的本质。一个简明的抓住问题本质的分析,会更加可靠。

吃与活
不知道是否考虑了去测的人是有症状或与确诊的患者密切接触的,不是随机抽查的。
吃与活
不知道是否考虑了去测的人是有症状或与确诊的患者密切接触的,不是随机抽查的。



L
LingYuan
你好,您所说的这两个特征同时也是绝大多数感染者的特征(除去极少数无症状感染者)。

例如,如果规定,只有某些ZIP CODE,或收入特征,年龄特征,性别特征等来筛选的话,那就破坏了随机性。

g
greennew
美国确诊数/测试数一直在20%,纽约达40%,这些数据比楼主计算出的2.85%要高得多

可以认为,测试的人群可能是疑似程度比较高的,有症状,或者密切接触关系。

那么楼主得出的预测2.85%随机性就更强一些。

我看到报道,美国有两家医院,因为发现个别孕妇有症状,测试了所有215名孕妇,除4名有发烧等症状患者阳性以为,还随机发现另外29人,无任何症状孕妇确诊阳性。这个测试应当算是比较随机的,阳性率在15%。

法国戴高乐航母现在测试发现40%的阳性率。她是1月21日就离开了法国,3月13日只在白俄罗斯的布列斯特停靠过数日。现在测试完成了90%以上。

 

L
LingYuan
要批评你了:),对最基本的数据没理解清楚。老张的帽子戴到老李的头上了:)))

2.85%是所有感染者在总人口中的比例。和确诊阳性比例是两回事。

g
greennew
谢谢纠正,我不懂。

希望能给你们这些懂行的提供素材。

接受你的纠正。

O
OceanSound
看不明白,我干脆自己做算术,

我想知道最后会死多少人, 啥时疫情结束。

看美国曲线, closed cases死亡率连续22天一直在35%~40%之间。现在active case s数字是59.5万, 过几个星期active会变closed, 要么活要么死。如果医疗水平和医疗资源维持不变的话,按closed case死亡率的低值35%计算, 将会有59.5x0.35=20.825万新增死亡。加上现在已经死了的3.6万, 等于24.5万死亡. 

接下来还会有新增确诊数, 所以最终的死亡数大于25万。

目测每日新增曲线用了一个月的时间,现在已经向下拐到三分之二的地方, 还需三分之一的时间, 也就是还有两周应该就没有新增了, 到五月上旬俺们就可以解放出门了。 留下那些老病人在医院慢慢治疗。

接下来两周新增确诊数会是多少呢?接下来两周的三角形面积大约是每天15000 cases  x 15天 = 22.5万, 再乘以35% = 7.875万死亡。

+ 上面算的24.5万 死亡数, 总死亡数将会是 32万。

 

我这算法不知对不对?请指正。

K
Katie06
total positive 不是total active cases ,所以不是59.5万中35%死亡。
O
OceanSound
Active cases 最终都要closed的吧?要么死要么活, 还有第三种选择吗?不过我看到数字就头疼, 很有可能想错了

h

L
LingYuan
你肯定就是想看看我是不是注意了,看来我是PASS了考验的:)
K
Katie06
active cases 只是test active, 不一定都住院。住院中的重症才是35%死亡
O
OceanSound
哦, 也就是我应该用重症住院数字来算。 不过那个数字在哪里查呢? 看到了, 是4%
致青春
看了你的预测

感觉我可能也有新冠病毒的抗体了

读研时最怕的两科是生物化学和统计学,佩服 

 

 

L
LingYuan
谢谢!
就事论事^*^
国内学的统计?这里科班学统计的多了去。Inferencial Statistics

 ( or Statistical inference) 是统计学的核心, 无人不学统计估计、统计检验。呵呵,国内30年前是分开的。

L
LingYuan
中学时候学的。科班出来的,能否把中国的推算一下。或者复原一下美国的
L
LingYuan
非常棒,以后共同研究!