不存在某人0.6%的白人基因 - 2019年10月6日未名空间存档

接近 6 年

楼主 (未名空间)

基因分析结果，不是这么解释的。

85% 中国人
10% 蒙古人
4.4% 越南人
0.6% 欧洲人

意思是根据大数据训练出来的分类模型，把你分在中国人的可能性是85%，分在欧洲人
的可能性是0.6%。

用神经网络来实现的话，输入是你的DNA数据，输出是一组节点，每个节点对应于一个
族群，中国人，日本人，英国人，等等。代表中国人的这个节点输出数据是0.85，代表欧洲人的几个节点的输出之和是0.6%。

并不是说你有0.6%的基因是欧洲人的。你就是弄只老鼠的基因放上去，也会给你算出来百分之多少中国人，百分之多少白人

LiuQiangDong

接近 6 年

2 楼

按你的理论那就是有可能100%白人，牛逼大了

F250

接近 6 年

3 楼

你丫懂个屁

是用某些人群的特征突变

某一条染色体上带了白人人群的一个特征突变

hillpao

接近 6 年

4 楼

错。训练数据做标记，样本可以定义为100%白人，甚至100%英国人。某个样本100%中
国人。模型训练好之后，即使把这写训练样本放进去，出来的结果也不会是100%白人，100%中国人。否则就是过拟合，泛化效果极差

【在 LiuQiangDong (qqq) 的大作中提到: 】
: 按你的理论那就是有可能100%白人，牛逼大了

HarvardThief

接近 6 年

5 楼

哎呀我去还在纠结这问题？让哈尔滨佛学院遗传学博士给解个惑

先在网上搜图，关键词population stratification principal component analysis，能看到一些散点图，每个个体在以主成分为轴的平面上是一个点，而且能发现这些点组成一些cluster，其反映人群结构，比如白人黄人黑人构成3个cluster。如果有个人是
白黄各50%混血，那么那个人的位置就大概在白黄两个cluster的中间。所以可以根据位置来计算祖先成分。同时这里回答个问题，混血就是混血，而不是有一半概率属于某个人群。

但这种人群分析都有一个问题就是统计不确定性。所谓0.6%的白人基因，这0.6%只是点估计，其还有置信区间，比如95%置信区间是0%白人祖先到0.8%，其中接进0%的可能性
是很大的。这种不确定性大小取决于你做这个人群分析所使用的参考人群的人数是否够多，或许更重要的，是你所选择分析的遗传位点是否足够多，包含足够的遗传信息。商业化的所谓人群测试讲究成本，肯定不会测很多的遗传位点，不确定性肯定不小，但他们只告诉你个点估计，不告诉你置信区间。

所以，总之别太当回事。人是什么种族的看就能看出个八九不离十，别被这种遗传测试mislead。

Nn2000

接近 6 年

6 楼

难道不是1000个祖先里，有六个欧洲人？
【在 hillpao (大山炮法广禅师) 的大作中提到: 】
: 基因分析结果，不是这么解释的。
: 85% 中国人
: 10% 蒙古人
: 4.4% 越南人
: 0.6% 欧洲人
: 意思是根据大数据训练出来的分类模型，把你分在中国人的可能性是85%，分在欧洲人
: 的可能性是0.6%。
: 用神经网络来实现的话，输入是你的DNA数据，输出是一组节点，每个节点对应于一个
: 族群，中国人，日本人，英国人，等等。代表中国人的这个节点输出数据是0.85，代表
: 欧洲人的几个节点的输出之和是0.6%。
: ...................

hillpao

接近 6 年

7 楼

不是。就是个黑盒子，解释性极差。

【在 Nn2000 (Nn2000) 的大作中提到: 】
: 难道不是1000个祖先里，有六个欧洲人？

hillpao

接近 6 年

8 楼

你这一套是90年代的流行做法，现在流行深度学习神经网络

【在 HarvardThief (博后肄业) 的大作中提到: 】
: 哎呀我去还在纠结这问题？让哈尔滨佛学院遗传学博士给解个惑
: 先在网上搜图，关键词population stratification principal component analysis，
: 能看到一些散点图，每个个体在以主成分为轴的平面上是一个点，而且能发现这些点组
: 成一些cluster，其反映人群结构，比如白人黄人黑人构成3个cluster。如果有个人是
: 白黄各50%混血，那么那个人的位置就大概在白黄两个cluster的中间。所以可以根据位
: 置来计算祖先成分。同时这里回答个问题，混血就是混血，而不是有一半概率属于某个
: 人群。
: 但这种人群分析都有一个问题就是统计不确定性。所谓0.6%的白人基因，这0.6%只是点
: 估计，其还有置信区间，比如95%置信区间是0%白人祖先到0.8%，其中接进0%的可能性
: 是很大的。这种不确定性大小取决于你做这个人群分析所使用的参考人群的人数是否够
: ...................

HarvardThief

接近 6 年

9 楼

菌斑老将无可救药啊。这问题关键是参考人群和遗传信息量，信息不够，什么model都
白扯。而且是越复杂model不确定性越大。bias variance trade off。

你要是告诉我你也是遗传学博士，提个高见，我接着跟你扯。不是的话我就走人了

【在 hillpao(大山炮法广禅师) 的大作中提到: 】

: 你这一套是90年代的流行做法，现在流行深度学习神经网络

hillpao

接近 6 年

10 楼

我学医学统计的

【在 HarvardThief (博后肄业) 的大作中提到: 】
: 菌斑老将无可救药啊。这问题关键是参考人群和遗传信息量，信息不够，什么model都
: 白扯。而且是越复杂model不确定性越大。bias variance trade off。
: 你要是告诉我你也是遗传学博士，提个高见，我接着跟你扯。不是的话我就走人了
:
: 你这一套是90年代的流行做法，现在流行深度学习神经网络
:

HarvardThief

接近 6 年

11 楼

那你知不知道现在商业化的人群检测用的是什么样的遗传位点，例如SNP？还是一些极
具种族代表性的遗传位点，每个都是种族特异的？

【在 hillpao(大山炮法广禅师) 的大作中提到: 】

: 我学医学统计的