(转载)美国房子都是华人在抢?这锅我们不背…

楼主 (北美华人网)
曾经作为2021年抢房大军当中的一员,经历了连续几周下的offer全被bid下去,也经历过一个房子被40多个offer抢的局面。 我非常好奇,到底是哪些人在和我们一起抢房。 也许大部分是国人?他们和我们一样亲眼目睹了这十多年国内房价的飞升,趁早买房的观念深入人心。 也许大部分是印度人?他们在微软亚麻等大厂势力庞大,人数众多。 也许大部分是老美?毕竟这里是他们土生土长的地方。 地里面也有很多人讨论到底都是谁在抢房子,不过好像没有看到比较有说服力的数据,所以这让我想自己上手研究一下。 我估计在MLS系统里面就能看到对于买家的各种统计信息了。不过我不是Agent,看不到这些信息,同时我也想自己写写代码爬爬这些数据玩,分析了一下2021年大西雅图地区的买家族裔分布。 思路: • King County的房屋交易信息是公开的,一旦交易完成被录入County的系统,就能够查询到买家卖家姓名,地址,交易时间,售价,地税信息等等。 • 既然我能够查询到买家的姓名,我就可以大致通过买家的姓名判断买家的族裔。 • 通过代码对数据进行处理,可以得到一个区域的买家族裔分布。 原始数据: • King County的Parcel信息 数据整理: • 我选取了交易记录时间在01/01/2021到05/14/2021之间的房产 • 选取的房产类型是Residential Building,理论上说就是SFH,有独立的地址 • 我估计County里面的信息都是手动录入的, 所以好多房子的地址不规范,比如没有Zip Code。为了补全这些地址,我用到了Google Geocoding API来把不规范的地址补全。 • 买家的姓名:由于很多房产的买家不止一个人(比如夫妻合买),我会选取第一个名字作为Primary Buyer,这样会更方便分类 分析姓名的起源或者族裔的Classifier: • NamSor (https://www.namsor.com/),免费版每个月只能classify 500个名字,收费版太贵了,pass • NamePrism (https://www.name-prism.com/api), 需要提交申请使用,限制每分钟60个api call,太慢了,pass • Ethnicolr (https://github.com/appeler/ethnicolr),免费并且是在本地运行,没有API calling rate的限制,最终选择了这个 分类: 买家主要是根据Ethnicolr得出的姓名族裔来进行分类的,不过除了族裔,我还加了"LLC"和"Trust"两个分类,因为我发现在数据当中要一定比例的买家不是个人,而是以公司或者是信托的名义买的。 下面是我对各个分类的简单概述: • Asian,GreaterEastAsian,EastAsian: 主要包括中国还有韩国的姓名。日本姓名不在此类因为有单独一个分类。查了一下越南姓名也不在此类,而是被归到了欧洲的名字。估计模型里面没有越南名字。所以这个分类基本代表国人或者华裔买家了 • Asian,GreaterEastAsian,Japanese: 日本姓名 • Asian,IndianSubContinent: 印度裔姓名 • GreaterAfrican,Africans: 非洲裔姓名,应该很大比例是黑人 • GreaterAfrican,Muslim:穆斯林姓名,应该大部分源于北非,阿拉伯地区 • GreaterEuropean,British, GreaterEuropean,WestEuropean,French, GreaterEuropean,WestEuropean,Germanic, GreaterEuropean,WestEuropean,Italian, GreaterEuropean,WestEuropean,Nordic, GreaterEuropean,EastEuropean: 这几个分类分别对应英国裔,法国裔,德国裔,意大利裔,北欧裔以及东欧裔,应该属于传统意义上的美国白人 • GreaterEuropean,Jewish: 犹太裔,应该也属于传统意义上的美国白人?? • GreaterEuropean,WestEuropean,Hispanic: 拉丁裔。应该比较能代表墨西哥移民 • LLC: 以公司名义的买家 • Trust:  以信托名义的买家 King County 统计: 下面是整个King County以及每个Zip code下面的买家族裔分布。为了数据更有代表性,我把卖出房屋低于10套的Zip Code过滤掉了。 从这幅图当中我们不难看出GreaterEuropean,British几乎在每一个区域(除了少数几个zip code)都占着主导地位,如果加上其他的欧裔,我们可以看出白人是King County买房的绝对主力。 我们可以细看在整个King County范围,东亚裔的买家的比例大概是13.6%,印度裔买家的比例大概是7.5%,英裔的的买家比例大概是43.2%,如果算上除开Hispanic的欧裔的话比例占到了将近60.7%。这个和King Couty Demographics给出的人口族裔分布非常接近,大致看出在整个King County范围,没有出现某个族裔特别突出的抢房情况。 而在东区的范围,东亚裔买家的比例大概是22.8%,印度裔买家的比例大概是12.9%,英裔的比例31.2%,整个欧裔除开Hispanic大概45.1%。可以看出东区中印的买家明显增大很多,但是白人还是买家当中的绝对主力。 各族裔的区域占比排名: 我整理了一下各个族裔在每个区域的买家比例排名如下图, 可以看出东亚裔买家买的最多的还是Bellevue地区,其中98006的占比高达42.5%,可以说是这个区域的绝对主力买家了。此外东亚裔买家在Issaquah的98029区域比例也极高,超过了三分之一。 而印度买家在今年霸占了Sammamish的榜首,在Redmond 98052的比例也很高。 白人买家因为在整个king county都很活跃,没有什么特别好说的。其中他们比例最高的地区都比较偏远,估计因为没有其他族裔的人会来,比如Mount Rainier北边那一片森林里面。 西雅图东区1M以下房屋 因为我们当时看房以及下offer的主要区域在西雅图东区,我们也知道有很多小伙伴也在东区看房,所以我们对东区也稍微详细的研究了一下。 首先是在东区范围内价格在1M以下的sell。 这个价位的买家族裔在King Couty或者东区的分布和所有成交的分布基本上没差,毕竟大区域的房价中位数还是低于1M的。 不过有意思的是具体的zip code的分布,首先这个价格在东区的好区买房基本只能当做买地,所以在一些区域比如98040,98033,98004,LLC的占比达到了30%以上,这些估计很多是开发商买的准备推倒重建。 而这个价位段东亚裔占比最高的区域变成了Issaquah 98029,达到了44.4%。而印度裔占比最高的变成了Sammamish 98075, 达到了35%。另外Redmond 98052东亚裔和印度裔的比例加起来高达67.2%,直接把白人比例挤到了20%以下,可以说是1M以下中印互抢主战场。 西雅图东区1M-1.5M房屋 98006直接东亚裔比例超过60%。98006和98029两个区域把白人的比例都挤到了20%以下。而Sammamish印度裔买家的的比例占到了约40%,成为绝对的主力。 西雅图东区1.5M-2M房屋 似乎华人在98052开始占了主导地位了,总体而言此时各个区域似乎都形成了华人,印度人,白人三分天下的局面。 西雅图东区2M-3M房屋 在2M到3M这个区间,似乎印度裔买家开始疲软了,华人买家还撑着,白人买家开始重新占据主导 西雅图东区3M+房屋 在3M+的Sell中, 华人似乎在Bellevue地区还比较坚挺,其他区域基本都是白人占了主导 总结: 首先,这个分析是基于Classifier对买家姓名的族裔进行分类,并不是一手的信息,并不能做到100%的准确,但是我认为已经足够具有代表性了。 其次,通过对数据的分析,在西雅图地区2021年年初开始的房价暴涨抢房大潮当中,在大的King County区域上甚至是整个东区范围来说并不是只有国人或者印度人在抢房,白人才是抢房的主力。 而细化到具体的Zip Code,可以看出国人和印度人对区域有一定的偏好,确实会出现某几个族裔主导的情况,比如国人主导的98006。不过即使如此,美国本土人的比例依旧不低。 热评@zhurouwzhOYQD:补充一个数据 - 整个king county 白人的占比是59%,亚裔18% (楼主的买房亚裔占比数据21%,白人43%) 和楼主分析出的买房人口占比是高度吻合的。可能可以得出的结论是,这17.8%的中印人口的买房偏好会更显著,购房能力也普遍比较强,而显然白人群体内部的买房倾向会弱很多(59% vs 43%)。其实这也解释了大家为什么会有房子都被同胞和印裔朋友们抢了的感受。但实际上整个市场依旧是由本地的白人主导着。@guoguovvv: 感谢楼主为华裔平反
墨染云烟
好坑先来占个位
A
AaronBush
作者的这个工具能给其他地方用就好了
m
mallow111
这不是2一亩三分地的帖子吗
C
CleverBeaver
哈 不错
名字的族裔分类我以前遇过 其实可以自己写一个
pytorch有个example 是个ok的思路
C
CleverBeaver
所以巨贵的房子并不是华人马工在抢
前些天抢5米房的还是少数
p
pops
太长了没看下去。不过这个作者也是神人,买个房能分析成这样,要能把这个劲放在正职上估计不得了。
C
CleverBeaver
太长了没看下去。不过这个作者也是神人,买个房能分析成这样,要能把这个劲放在正职上估计不得了。
pops 发表于 2021-05-23 13:30

正常工作的分析很多就是这样啊 就是把很多环节连起来 看之前的假设对不对啊
但是lz这个数据的准确度有点难讲
o
oldbear1
太长了没看下去。不过这个作者也是神人,买个房能分析成这样,要能把这个劲放在正职上估计不得了。
pops 发表于 2021-05-23 13:30

能力是相通的,说明作者在工作上也细致,系统,爱分析。
p
pythonrules
为什么第一张图里98004神秘的消失了,而在下面价格分段的图里又出现了,是不是放上去会得出和作者相反的结论?