MIT的Youyang Gu的新冠预测模型真这么牛吗?

florenced
楼主 (北美华人网)
年仅27岁的他,被彭博评价为“新冠病毒数据超级明星”。 为什么?凭一己之力,仅用一周时间打造的新冠预测模型,准确度方面碾压那些数十亿美元、数十年经验加持的专业机构。

他就是Youyang Gu,拥有 MIT 电气工程和计算机科学硕士学位,以及数学学位。
  但值得注意的是,他在医学和流行病学等方面却是一个小白。 他的模型,甚至被著名数据科学家、fast.ai创始人Jeremy Howard高度评价道: 唯一看起来合理的模型。 他是唯一一个真正查看数据,并且做得正确的人。 不仅如此,他的模型还被美国疾控中心采用。 到底是个怎样的预测模型? 时间点要追溯到去年年初。 当时疫情已然在全球蔓延开来,于是公众试图用建模的方式,来预测接下来疫情会带来的影响。 大多数的目光都将希望投向了2家专业机构打造的预测系统——伦敦帝国理工学院、总部位于西雅图的健康指标与评估研究所(IHME)。 但2家机构给出的预测结果却是天差地别: 伦敦帝国理工学院:到夏天,美国因新冠病毒而死亡的人数将达到200万。 IHME:预计到8月,死亡人数将达到6万。 (后来的事实证明,死亡人数是16万。) 2家专业机构给出的预测数据,差距为何能够如此之大? 这就让当时年仅26岁的Youyang Gu引起了注意。 虽然他没有任何医学或流行病方面的经验,但他坚信,数据预测在此时会派上大用场。 于是,大约在4月中旬,Youyang Gu便在家里仅花了一周时间,打造出了自己的预测器,以及一个可以显示相关信息的网站。
但Gu在这个过程中所用到的方法,并不是说有多么的高级,相反,恰恰是比较简单的那种。 他首先考虑的是新冠病毒检测数、住院人数和其他因素之间的关系,但在这个过程中,Gu却发现各个州和联邦政府所提供的数据是存在不一致的现象。 此时,问题就来了——什么样的数据才是靠谱的? Gu认为,最靠谱的数据,似乎就是每天的死亡人数: 其他的模型用到了很多数据源,但我决定用过去的死亡人数,来预测未来的死亡人数。 至于这样做的原因,Gu给出的解释是“将它作为唯一的输入,有助于在噪音中过滤信号”。 那么,预测结果如何? 可以说是相当的精准了。 在模型刚刚完成时,他预测在5月9日,美国将有8万人死亡,当天的实际死亡人数为79926。 而同样来自IHME的预测数据却是“2020年一整年的死亡人数将不超过8万”。 Gu还预测在5月18日,死亡人数将达到9万;5月27日,死亡人数将达到10万。 事实证明,他的这两次预测再次“押中”! 除了精准数字的预测外,Gu基于许多州从封锁状态逐步转变开放状态,预测将出现第二波大规模感染和死亡。 而在Gu发出这样的预测当天,特朗普所发表的言论却是“IHME所预测的6万死亡人数表明,疫情很快将结束”…… 或许正是因为Gu的模型预测之精准,越来越多人开始关注他的作品。 在Twitter上,Gu不仅@了各路记者,还给流行病学专家发邮件,让他们核实自己的数据。
去年4月底,华盛顿大学著名生物学家Carl Bergstrom便在Twitter上发布了Gu的模型。
不久之后,美国疾病控制和预防中心,也在其新冠预测网站上发布了Gu的数据。 不仅如此,随着疫情的发展,身为中国移民的Gu,还参与了由美国专家团队组织的定期会议,每个人都想更好的改善他的模型。 他的网站访问量也呈现出爆炸式增长,每天都有数百万人来看他的数据。 通常情况下,Gu的模型所预测的数据,基本在几周后便会达到,与实际的死亡人数非常接近。 随着类似的预测模型逐渐增多,阿默斯特马萨诸塞大学生物统计学和流行病学系的副教授Nicholas Reich,便统计了50个这样的模型: Gu的模型一直位居前列。 但到了去年11月,Gu却做出了令人意外的一个决定——结束他的预测任务。 对此,Reich这样评价道: Youyang Gu是一个非常谦卑的人,他看到其他人的模型也做得很好,便觉得自己的工作已经完成了。 而在Gu决定停止项目的前一个月,他预测11月1日死亡人数将达到231000人,而实际人数为230995人。 但IHME的Chris Murray认为: Gu使用的机器学习方法,在短期预测方面的效果比较良好,但不太理解“大局中发生了什么”。 对此,Gu没有针对模型的评价做出回应,相反,他这样表态: 我非常感谢 Chris Murray 医生和他的团队所做的工作;没有他们,我就不会有今天的成就。 在休息了一段时间之后,Gu重新投入到了这份事业当中。
这一次,他要做的预测是“美国有多少人感染了新冠病毒”、“疫苗推出的速度有多快”、“美国可能何时(如果可能的话)达到群体免疫”等。 他的预测表明,到今年6月,大约61%的美国人口应该获得某种形式的免疫力——无论是疫苗还是因过去的感染。 …… Gu一直希望能够找到一份能对社会产生巨大影响的工作,同时避免政治、偏见以及大型机构有时会带来的负担。他认为: 在这个领域,有很多缺点可以通过我这种背景的人来改善。 谁是Youyang Gu? Youyang Gu出身于美国华裔移民家庭,在伊利诺伊州和加州长大。 Gu从小喜欢数学和科学,直到高中毕业时,才真正接触计算机科学。而他能够进入这个行业得益于他的父亲,因为他的父亲是一名计算机从业者。
Gu本科和硕士都在MIT就读,在那里他获得了计算机科学与数学双学士学位,以及计算机科学的硕士学位。 毕业后他继续在MIT著名的CSAIL实验室的NLP组进行了一年的研究,同年在EMNLP 2016上发表了论文。
这也是他第一次接触大数据,并由此建立统计模型对数据进行预测。 不过他没有因此继续学术研究,而是进入产业界。从MIT离开后,他加入了金融行业,为高频交易系统编写算法。 在那里,他的数据建模能力得到了进一步磨练,因为在金融交易中,数据必须非常定量并尽可能地准确。 之后,他又进入了体育界,继续进行大数据方面的研究。这也为他提供了丰富的跨学科经验,使他能够成功应对新地领域,懂得如何更加准确地建模。
用他自己的话来说,他的专长是使用机器学习来理解数据,将信号与噪声分离并做出准确的预测。 在建立新冠死亡模型时,他起初考虑了确诊数量、住院数量和其他因素之间的关系。然后他发现各州和联邦政府报告的数据不一致,最可靠的数字是每天的死亡人数。 Gu认为,如果输入数据质量很低,那么数据越多,输出的性能就越差。 在一周的时间里,他就根据死亡数据便建立了一个简单模型,并将预测网站上线。 从去年4月以来,Gu已经自愿在这个项目中投入了几千个小时,而且是无偿的。 在接受医学网站Medscape主编Eric Topol采访时,Gu表示自己现在全职投入到新冠预测网站上,没有兼职、没有收入,他靠着过去的积蓄生活。
然而就是这样一个公益的项目却遭到了一些Twitter网友非议,但是他还是坚持了下来。 从12月开始,covid19-projections.com接受网友的捐赠帮助,现在已经完成了5万美元的筹款目标。
除了感染人数外,Gu的新冠网站又有了一个新的功能。从去年12月起,covid19-projections.com开始跟踪和模拟疫苗接种情况以及群体免疫的途径。 这个月,Gu又将“群体免疫”改成了“恢复常态”,因为他的模型预测表明,美国不太可能在2021年达到理论上的群体免疫。
未来的路怎么走?疫情结束后,Gu的职业规划如何? 他说现在还为时过早,虽然他现在的工作是预测疫情发展,但是他很难预测自己3个月或1年后要做什么。 因为这项工作,世界各地的高校和企业已经向他抛出了橄榄枝。
bluesunrise
感觉这个没什么好吹的
Aliciashuhao
佩服
keaidedabaicai
年青有为!后生可畏
emmachka
感觉这个没什么好吹的
bluesunrise 发表于 2021-02-22 23:00

嗯,都不如马工可吹
agathagu
小伙子可真的很棒
Pamper
很厉害
feo
回复 1楼florenced的帖子
真是好孩子啊,父母得多骄傲
Onetwothree123
一个ABC名字是拼音?
E
Eveyang
我思想觉悟太低,第一反应是,有这么强的能力去预测一下股市,赚钱不是分分钟的事情?
Carry_Wu
回复 10楼Eveyang的帖子
不能,因为疫情传播,尤其是死亡,是一个很少受外接影响因素改变的对象 而股市则无时无刻不受政策和情绪影响,是一个无规律的变化 所以股市的量化策略,就是单纯的量价关系,但是也不能保证准确率 而他的这个,则在流行病上起码是有先例可以遵照的
onetwo12
一个ABC名字是拼音?
Onetwothree123 发表于 2021-02-22 23:20

有什么问题吗?我给自己的孩子就不取英文名。
Carry_Wu
我昨天特意看了看,因为我本人也喜欢做预测模型,PhD期间也做了很多,疫苗我在之前投资的时候也做了大量的功课,希望不会误导大家
首先,我假设,他的一切模型,都只是调整了参数,且参数只影响后续变化,而不会改变前值。如果改变,那么我对于incidence和death的说明完全可以无视了。因为那预测模型就太失真了(等于无限依靠后面的内容对前面进行回溯,证据等级太低了)。 他incidence和death的模型,对未来某个区段内(比如1个月)如果是没有任何事后回修,那这个模型可以称得上是神了 甚至连去年中,周末漏报,周一加回来的的那种变化,他都做了平滑处理,画出了非常完美的spline curve,无论是拟合度还是真实性(很明显不 是那种照着数据抄的)都堪称完美。 2.但是后面的疫苗,以及群免数据,错的太厉害。起码从我的认知角度是这样的(当然,我从来不认为我一定是对的,我只是说我不认可他的这部 分结论)最简单的,咱们目前打一天大概是130k-140k,他的模型算出来只有70-80k,这个错误以及属于完全不可用了。如果只是看趋势的话,我也不能理解为何他认为后续无法达到群免
但是,有没有可能,是他掌握了未公开的信息呢?如果是,需要什么? 对于第一个问题,我无法回答。 但是如果是的话,需要知道中和抗体滴度,清零(或者说回到正常人)的时间。因为你从打完第二针,抗体到达峰值后(一般是一个月)大致需要几个月,才会回到正常人范围 从他的数据中,我认为,他的假设,是6个月 我认为这个假设,非常合理。 但是这个假设非常大胆,因为我问了我PhD同学,目前在某被骂部门工作,这个假设最大的问题在于,一旦新发减少到一个程度后,只要坚持戴口罩,那就很难继续大规模爆发。 因为第二次再爆发,无论是疫苗,还是lockdown,都会非常快的推行。 因此疫情是很难在短时间内,第三次爆发的
所以他认为不会群免,可能只是基于疫苗上的 但是从社会上来说,疫苗目前的有效性,足以证明今年疫情,起码美国范围内,会基本结束 最后,也感谢这位大神,无论他后面和我看法多大差异,或者有没有意义,前面的预测真的非常精准,厉害!
等待绽放
很厉害呀, MIT本硕, 应该是个学霸了
ConnieBear
一个ABC名字是拼音?
Onetwothree123 发表于 2021-02-22 23:20

少见多怪
noshock
回复 1楼florenced的帖子
He stated it eloquently two days ago,
“It''s popular to use the US as a punching bag these days, but I can not think of many other countries where the work of an untrained 27-year-old immigrant can garner the attention & respect of researchers and public alike. America isn''t perfect, but I am grateful to call it my home.”

xgq32
做预测的太多了 报道最准的没有意义 如果没有antifa和川普 他的模型应该很不准吧
lovehawaii
一个ABC名字是拼音?
Onetwothree123 发表于 2021-02-22 23:20

Why not?!我们家族每个孩子都是
Rickymom
回复 1楼florenced的帖子
He said it elegantly two days ago,
“It''s popular to use the US as a punching bag these days, but I can''t think of many other countries where the work of an untrained 27-year-old immigrant can garner the attention & respect of researchers and public alike. America isn''t perfect, but I''m grateful to call it my home.”

noshock 发表于 2021-02-22 23:39

well said!
还有NY那个花$50创建vaccine 预约网站的Huge Ma,都是亚裔之光,希望各华人网站都宣传。
q
qwerty_sun
一个ABC名字是拼音?
Onetwothree123 发表于 2021-02-22 23:20

你想说什么?
s
strawberrykiwi
他写作很棒,思路非常清楚,感觉既聪明又nice
shallpass
很厉害 听说了
大队书记
美国为什么总有这种事啊, 来个新手, 专业知识是0, 突然做出了比行业专家还NB的贡献, 难道美国的专家都是打酱油的?
d
doudou83
美国为什么总有这种事啊, 来个新手, 专业知识是0, 突然做出了比行业专家还NB的贡献, 难道美国的专家都是打酱油的?
大队书记 发表于 2021-02-23 00:45

这个其实他说的那几句话解释了部分的原因。我觉得一方面美国还是有一片相对公平的土壤,可以用数据,用事实说话。另一方面是ethics,有大量良性竞争和合作,就是大家的目标真的就是把一个东西做好,而不是说为了自己做出来去打压别人什么的,这样确实比较容易出成果。至于为什么新手做的比专家还好,可能新手看问题的角度不一样吧。专家反而容易被以往的经验条条框框的限制住。
Indulge
赞一下 很厉害的小伙
d
doudou83
我非常佩服他。 技术上的难度不讨论,我佩服的是他面对这样一个全新的问题,愿意尝试用自己的知识去找一个solution。勇敢的跨出第一步,这是其一。其次,他愿意为了这个目标坚持不懈的投入大量的时间和精力,而且是无偿的。我真的觉得他的成功不是偶然。 很多人可能会说他的结果哪里哪里不好啊,或者说他这个其实不难啊,blah blah blah。硅谷大厂的马公,数据科学家成千上万,有多少人做了与此类似的事情呢?如果我是他的父母我会感到非常骄傲。
Chowhound
很厉害的呀 之前就看到了
Presentgift
是个人才
Carry_Wu
美国为什么总有这种事啊, 来个新手, 专业知识是0, 突然做出了比行业专家还NB的贡献, 难道美国的专家都是打酱油的?
大队书记 发表于 2021-02-23 00:45

其实国内也是一样 这次疫情早期,连一个孩子都知道应该做什么,那就是公开数据,积极防疫 然而国内做了吗?没有 甚至现在还卡着武汉早期数据不放
我觉得这反而是这起疫情教给所有人的 那就是,自己一定要积极思考,不断改进自己对社会,对世界的认知 我以前觉得自己研究挺有意思,现在发现并不是,如果有想法,就要大胆的告诉别人,在和别人的讨论中,不断调整自己,真理越辩越明 不让说话,迷信权威,专家和政府,最终只会坑了自己
weiwei_ot2008
小伙子是个人才
l
louaci
小伙子真棒
b
bluecrab
我非常佩服他。 技术上的难度不讨论,我佩服的是他面对这样一个全新的问题,愿意尝试用自己的知识去找一个solution。勇敢的跨出第一步,这是其一。其次,他愿意为了这个目标坚持不懈的投入大量的时间和精力,而且是无偿的。我真的觉得他的成功不是偶然。 很多人可能会说他的结果哪里哪里不好啊,或者说他这个其实不难啊,blah blah blah。硅谷大厂的马公,数据科学家成千上万,有多少人做了与此类似的事情呢?如果我是他的父母我会感到非常骄傲。
doudou83 发表于 2021-02-23 01:35

是的,这孩子非常棒
kdsw2004
Summary The US will be near COVID-19 herd immunity by summer 2021 (Jun-Aug 2021). At a high level, herd immunity is a concept in which a population can be protected from a virus if enough people possess immunity. Current accepted estimates for the herd immunity threshold range from 60-90% of the population. Due to vaccine hesitancy and the later arrival of a children’s vaccine, it is possible that we do not reach the levels required for herd immunity in 2021. Nevertheless, herd immunity is not a hard threshold, and being close to herd immunity may be sufficient to prevent large outbreaks. At the time herd immunity is near, roughly half of the immunity will be achieved through natural infection, and the other half will be achieved through vaccination. New infections may become minimal before herd immunity is reached. But due to imported cases and localized clusters, it is unlikely that new infections will drop to zero until at least 2022. Deaths may drop to low levels even earlier (May-Jul 2021), in part due to a vaccine distribution strategy that initially prioritizes high-risk individuals. Once deaths fall to minimal levels, we may see a relaxation of restrictions. Summarizing the above findings, our best estimate of a “return to normal” in the US is mid-summer 2021 (June/July 2021). We estimate roughly 60-75% of the US population (~225 million) will receive at least one dose of the vaccine by the end of 2021, with children being the last group to receive it (starting in summer 2021 or later). We estimate around 30-35% of the US population (100-120 million) will have been infected by the SARS-CoV-2 virus by the end of 2021. That is an additional ~50 million infections since mid-December 2020. This translates to a final US COVID-19 death toll of roughly 600,000 (±100,000) reported deaths by end of 2021, or ~300,000 additional deaths since mid-December 2020.
twptwp
赞!
s
shoppingisfun
我思想觉悟太低,第一反应是,有这么强的能力去预测一下股市,赚钱不是分分钟的事情?
Eveyang 发表于 2021-02-22 23:22

的确是分分钟的事。 但是各种phd都挺鄙视毕业以后去花街的,觉得道德水准不行。。。。。 anyway,这小伙子现在不赚钱,但是以前赚了以后也能赚,这段时间就算take一个牛人的vacation吧。
vvdd
他的模型我从四月份就开始盯着,没这么神了,也就到六月份还算准,后来的不行,六月份那会他还估计八月份有个大爆发呢。而且他的模型实时调整,准确度一言难尽。

flipping
做这样的预测,需要的是对人性的洞察,不光是科学。
daysun
回复 36楼vvdd的帖子
这个准与不准,是个比较值,比其它的准度更高,那就算准。
COA
的确是分分钟的事。 但是各种phd都挺鄙视毕业以后去花街的,觉得道德水准不行。。。。。 anyway,这小伙子现在不赚钱,但是以前赚了以后也能赚,这段时间就算take一个牛人的vacation吧。
shoppingisfun 发表于 2021-02-23 07:59

。。。。。无语,还分分钟
COA
他有没有介绍自己model咋做的?只用死亡人数,是time series model arima啥的
算盘珠珠56789
他的模型我从四月份就开始盯着,没这么神了,也就到六月份还算准,后来的不行,六月份那会他还估计八月份有个大爆发呢。而且他的模型实时调整,准确度一言难尽。


vvdd 发表于 2021-02-23 08:11

八月红州是有大爆发啊
musella311
柠檬精真多
大队书记
回复 41楼算盘珠珠56789的帖子
他预测的是全美的数据, 不是红州。看首页的贴图, 预测自然感染6000万, 感觉严重低估了
大队书记
回复 42楼musella311的帖子
对一件事的不同看法就是柠檬精啊?
lilijing7
比起华尔街的精英用这些技术赚钱,我更佩服
幸福家园
很棒!
llz0336
感觉这个没什么好吹的
bluesunrise 发表于 2021-02-22 23:00

很厉害了,是我的孩子我会买个特大的喇叭吹。
C
Captaintoo
“他的预测表明,到今年6月,大约61%的美国人口应该获得某种形式的免疫力——无论是疫苗还是因过去的感染。” 为啥又说 “因为他的模型预测表明,美国不太可能在2021年达到理论上的群体免疫。”
61%免疫还不够吗?
C
Captaintoo
美国为什么总有这种事啊, 来个新手, 专业知识是0, 突然做出了比行业专家还NB的贡献, 难道美国的专家都是打酱油的?
大队书记 发表于 2021-02-23 00:45

想起昨天气候变暖那个帖子,有些ID气势汹汹的说必须要听专家的。
s
sagegreen
厉害👍🏻,华裔的骄傲
公用马甲2
大家支持了没有?
华裔之光啊。
我刚刚捐了$50.
VMC
回复 1楼florenced的帖子
He stated it eloquently two days ago,
“It''s popular to use the US as a punching bag these days, but I can not think of many other countries where the work of an untrained 27-year-old immigrant can garner the attention & respect of researchers and public alike. America isn''t perfect, but I am grateful to call it my home.”

noshock 发表于 2021-02-22 23:39

很会说话的孩子。至于他是不是真的这么想,无所谓,这话也说明不了啥 - 换成任何一个正常人在他的位置,也不会公开说些怪话。
sugeeamimi15
厉害,这样的孩子更多点美国才有希望。他这样的大公司都抢着要
k
kreaty
太厉害了!亚裔各方面的贡献不可忽视,还要aa亚裔,取消stem,以后自己摸黑玩?
mayday
其实国内也是一样 这次疫情早期,连一个孩子都知道应该做什么,那就是公开数据,积极防疫 然而国内做了吗?没有 甚至现在还卡着武汉早期数据不放
我觉得这反而是这起疫情教给所有人的 那就是,自己一定要积极思考,不断改进自己对社会,对世界的认知 我以前觉得自己研究挺有意思,现在发现并不是,如果有想法,就要大胆的告诉别人,在和别人的讨论中,不断调整自己,真理越辩越明 不让说话,迷信权威,专家和政府,最终只会坑了自己
Carry_Wu 发表于 2021-02-23 03:40

说得太好了!
seastarf
我思想觉悟太低,第一反应是,有这么强的能力去预测一下股市,赚钱不是分分钟的事情?
Eveyang 发表于 2021-02-22 23:22

人各有志 他之前就是在HFT做quant 志不在赚钱吧 quit去追求更impactful的道路了 还是很佩服他的
z
zhaopk
回复 13楼Carry_Wu的帖子
华人骄傲! 最重要的一点,做技术也要注重推广和影响力,这是我们学习的榜样
nicecool
跟我前些日子做的一个项目差不多。
ezsmiling
想起了前一阵大家对推娃爬藤的讨论。我觉得这才是推娃的正确方向啊,有技术,有眼光,有行动,关键是有热情与社会责任感。
这个孩子对于提升在美华裔的形象与社会影响力,比纯追求财富自由提前退休的矿工马工大多了。
颜即是正义
哇 这孩子长得就是一幅很聪明的样子
紫雨兰
厉害👍🏻,华裔的骄傲
sagegreen 发表于 2021-02-23 10:38

RE
e
evelyn417
回复 40楼COA的帖子
同求 好像不是时序 网站说是基于SEIR model GitHub 有全部介绍和py code 在 about model 里面 可以看看大神怎么做的😅
Microdisney
他有没有介绍自己model咋做的?只用死亡人数,是time series model arima啥的
COA 发表于 2021-02-23 08:37

我看介绍说是用了lag value
angel115520
厉害的这个小伙子
b
betterme
嗯 很棒的孩子
m
mouton
有思想,有社会责任感,又兼有能力的真正精英,后生可畏,希望未来发展更好,点赞
豆小萁
今天的热搜是兰大发明全球首个新冠预测模型
piggydudu
话说去年4-5月的时候我也用SEIR做了一个简单的新冠预测模型,做出来死亡人数20多万,把自己吓到了,说这绝对不可能,就丢哪儿不要了