首先你要有个概念,这一个个点,是从一个个患者身上提取的病毒的基因测序结果。病毒无时无刻不在变异,所以一个人身上提取的病毒,和另外一个人身上提取的病毒,会有区别。这种基因序列的区别会被自动比对,画出这种树形图。这个时候网站提供两种方法:一种是根据基因差距相比较,差距小的会相对离得比较近,差距比较大的会离得比较远;另一种是同时考虑取样时间。理论上你如果把世界上所有患者都进行一个基因测序,你就能清晰的把整个传染数画出来,知道是从谁那里开始分了叉。但是!你不可能把所有患者基因测序对不对?所以你要知道用有限样本画图来代表全世界那么多病毒,是一种有局限性的做法,最后出来的结果可能和你直觉不一样。比如说,伊朗学者从来不往这个数据库里上传新冠病毒基因测序结果,所以数据库里一个医疗的点都没有,只看这个图你会觉得伊朗没病人,但事实并非如此;再比如你会发现华盛顿州的学者巨爱基因测序上传数据库,意大利则很少这么干,只看图你会觉得华盛顿州的患者比意大利多得多,但事实并非如此;再比如你会发现怎么这一支也没有中国的点,那一支也没有中国的点,只看图你会觉得这几支病毒和中国一点关系都没有,但事实并非如此。然后这一个个点代表的患者之间,也不是谁传染谁的关系。理论上如果资料库里只有两个个样本,分别代表两个天南地北没见过面的患者,他们之间也会被线连起来。所以,比如说一个二月份的样本可以在分叉点上,而它分出的叉里可能有一月份的样本。因为并不是说二月这个人传染了一月这个人,而是二月这个人身上的病毒与当初那个分叉病毒更接近。 happlen 发表于 3/15/2020 12:13:37 PM
谢谢!
所谓的近,是左右距离还是上下距离呢?