晒两双昨天收获的ysl和Sandro 裙子

c
chatman
楼主 (未名空间)

先批评一下大家,人家把数据列出来了,不管对错,大家反驳可以指出哪里不对,以理服人,就像我这样啊。

首先,作者用的关键数据引用是permchecker.com,关于这个网站的权威性,我有所质
疑。首先我从来没有用过这个网站,而且我确定它肯定不是政府网站(.gov),关于这个网站的自我介绍部分如下:

ABOUT
Hello, My name is Dohdoh and currently live in Seattle, WA. Hope you find
the site useful. Here's my amazon wishlist if you are feeling generous :)

DISCLAIMER
The materials on PermChecker.com's web site are provided "as is".
PermChecker.com makes no warranties, expressed or implied, and hereby
disclaims and negates all other warranties, including without limitation,
implied warranties or conditions of merchantability, fitness for a
particular purpose, or non-infringement of intellectual property or other
violation of rights. Further, PermChecker.com does not warrant or make any
representations concerning the accuracy, likely results, or reliability of
the use of the materials on its Internet web site or otherwise relating to
such materials or on any sites linked to this site.

网站维护者没法保证数据准确。。。

其次,我们暂且假设permchecker.com数据完全准确(很强的假设哦),作者用的是10-01-2018/to/09-30-2019, 为什么可以仅仅用这一2018财年来当作唯一的training set
?是不是应该用更长几年的历史数据来evaluate一下稳定性和seasonality, 做做
robust analysis, 看看2018财年有没有outlier, 试试用时间序列来decompose成
trend, seasonality和white noise三部分,用几个常见的时间序列模型拟合一下,AR, MA, ARMA, ARIMA随便你选。或者至少看看过去不同财年数据相差多少,取个加权平均, 甚至加强一点的weighted moving average更准确些?EWMA就行。

再次,假设作者的模型可以这么建,我们现在来evaluate一下这个模型的准确性吧。作者没有经过任何cross validation, 仅仅用2018财年这很短的一个subset作为training set, 而没有任何test set, 怎么证明作者的模型多准确呢?作者至少应该选取不同
的财年作为training set, 用剩余的财年作为testing set, 用k out of n cross
validation来看看用您的模型的accuracy, precision, recall大概能多少,资深数据
科学家可以画画ROC curve来给大家展现一下啊。

现在EB2排期不是两三年,而是四五年。作者按照移民局公布的家属系数2.05,这个2.
05是整个世界的系数吧?能用这个complete set的拟合参数来单独应用到China subset上吗?有没有考虑印度weight很大而会inflate这个系数。老印排期10年交485的时候肯定有孩甚至多孩了,中国可能还是单身或只有夫妻二人世界。作者能不能通过印度和中国的比例做个加权平均来推测一下适用于中国的家庭系数?

接下来一个假设,按照NIW仅有PERM三分之一的数量(相当低估),作者有没有考虑很
多NIW的人都会冲击EB1,所以NIW的人没有那么多。而且就我个人经验来看,至少当年
我还在排期的时候,Perm数量远远大于NIW的,我感觉NIW仅有PERM十分之一到五分之一。就算我们感觉都不准确,您能否通过权威数据看看多少中国PhD,这些更容易成功申
请NIW的人来估算一下?

作者说,我们高估一下,夫妻双方都在这一年中办绿卡的高达70%。那有没有考虑多少
家庭都是夫妻一人办的perm,或者当初俩人分别办的但只有一人提交了485,大概各种
可能性的比例是多少?

EB23的总配额是5306张,这个数据从哪而来?是某一年的还是平均的?数据是否稳定可以推广到之后的每一年?

我很欣赏作者资深数据科学家,您做的Excel表格也非常fancy,但是您的数据来源不知多权威准确,您的模型基于太多的ideal assumptions,而且没有evaluate您模型的准
确性就简单推广,很多误差叠加在一起,不知最后结果如何。

我只是一个社区大学毕业的平凡的人,只能苟且于乱世以自保,一辈子想都不敢想有机会能跟资深数据科学家探讨,但今日有幸看到您的大作,死而无憾了。。。
p
pdxiaohan127
2 楼

哈哈,楼主你看他的的id就知道他是得要买药吃的。你还这么认真的跟他说这么多。结果你也看到了,对牛弹琴。人家资深数据科学家是不容别人质疑他的。我们这些社区大学的还是靠边站吧。
p
pharmacy
3 楼

我就奇了怪了,
你是眼睛不好使呢,还是脑子不好使.

这么明晃晃的就看不见,还是看不懂?
================================================
发信人: pharmacy (phamacy), 信区: EB23
标 题: 终于有人(chatman)来挑战了,好事
发信站: BBS 未名空间站 (Sun Oct 6 08:45:35 2019, 美东)

老夫等的花都谢了,终于有人来,好事

请回答一个问题
对中国这种被7%刚性约束条件下,绿卡排期是不是基本是排队打饭的队列问题?
请直接回答是还是不是,这个问题没有陷阱,而是对整个体系的理解。

我看你还拿历史上什么3年还是几年拿卡说事,你是认真的么?

回答你的问题
为什么查一年数据,你说为啥呢? 因为那是刚刚过去的一个财年。
你想看其他财年,没问题,你可以点菜,老夫应战。

你说PERM数据不可靠? 也没问题,我这里有中国各年份各类别批准历史数据,你想看
啥数据?
你觉得应该怎么算? 既然是数据科学家,你觉得应该怎么建立模型?

我可以告诉你对错, 你需要的数据哪里去找,如果没有,我可以告诉你怎么推算似乎
比较合理。

关于印度人的小孩,你是不是认为这10几年里,他们大多数人生小孩都是专门回印度生啊?
小伙子,思想挺天马行空啊。

最后说一句,数据科学家最大的困难是把如何向普通知识分子介绍结果。
【 在 pdxiaohan127 (Dr. Fu ManZhou) 的大作中提到: 】
: 哈哈,楼主你看他的的id就知道他是得要买药吃的。你还这么认真的跟他说这么多。结
: 果你也看到了,对牛弹琴。人家资深数据科学家是不容别人质疑他的。我们这些社区大
: 学的还是靠边站吧。

w
wishee
4 楼

支持你们讲道理讨论,总是越辩越明的。

只是,挑刺总是容易,任何文章总能挑出些不尽完美的地方。单纯挑刺说这儿那儿可能有误差,读者其实还是不知道真实情况会是什么样

我希望有没有反对pharmacy的朋友也能做出一张类似的图/分析,看看修正了pharmacy
错误后的各类别累计绿卡图长什么样。这样大伙就更明白了。
p
pharmacy
5 楼

其实所有类别,尤其是EB123我都用的保守估计.
EB23采用的中国长期队列占10.5%
但实际上,在H1B中老中的比例在14-15%, NIW部分老中比例更高.

也就是不按照保守估计,而完全按照数学期望,老中在EB23部分收益最少是翻倍14%(实际上应该在18%左右,因为老中NIW实在太多了) 我仅仅算了最底线10.5%

EB15部分更加不用说了.

这是移民局官方数据.
https://www.uscis.gov/sites/default/files/files/nativedocuments/
Characteristics_of_H-1B_Specialty_Occupation_Workers_FY17.pdf
Initial-Employment
Country-of-Birth FY-2016 FY-2017
Total 114,503 108,101
India 70,737 67,815
China 16,781 15,165
Canada 1,781 2,226
S.Korea 1,857 1,442
Philippines 1,226 1,295
Mexico 940 1,285
Taiwan 1,239 1,052
United-Kingdom 967 833
Iran 784 814
Brazil 842 786
France 879 721
Pakistan 725 694
Germany 732 633
Turkey 662 571
Italy 608 501
Nepal 603 462
Russia 542 463
Japan 560 459
Spain 539 450
Colombia 442 375
Venezuela 483 317
Other-countries 10,574 9,742

【 在 wishee (温顺的野猪) 的大作中提到: 】
: 支持你们讲道理讨论,总是越辩越明的。
: 只是,挑刺总是容易,任何文章总能挑出些不尽完美的地方。单纯挑刺说这儿那儿可能
: 有误差,读者其实还是不知道真实情况会是什么样
: 我希望有没有反对pharmacy的朋友也能做出一张类似的图/分析,看看修正了
pharmacy
: 错误后的各类别累计绿卡图长什么样。这样大伙就更明白了。

p
pdxiaohan127
6 楼

我想你眼睛肯定好使,脑子好不好使我就不知道了。。。

人家让你把18财年以前的数据也考虑进去,你问人家想看哪一年,让人家点菜。。。
人家质疑你数据来源的准确性。你说你那里啥都有,问人家想看啥。。。
人家让你做cross validation,验证一下你自己的预测模型,你问人家要怎么建模。。。
人家跟你讨论你一些系数的准确性,你说你知道对错,如果没有数据你也知道怎么推算。。。

自伸数据科学家。。。

【 在 pharmacy (phamacy) 的大作中提到: 】
: 我就奇了怪了,
: 你是眼睛不好使呢,还是脑子不好使.
: 这么明晃晃的就看不见,还是看不懂?
: ================================================
: 发信人: pharmacy (phamacy), 信区: EB23
: 标 题: 终于有人(chatman)来挑战了,好事
: 发信站: BBS 未名空间站 (Sun Oct 6 08:45:35 2019, 美东)
: 老夫等的花都谢了,终于有人来,好事
: 请回答一个问题
: 对中国这种被7%刚性约束条件下,绿卡排期是不是基本是排队打饭的队列问题?
: ...................

p
pharmacy
7 楼

有问题么?
19财年是刚过去的财年,只用一年的话,不用这个用哪个?
考虑全部队列的,老夫早就在这个版面发过文章,明确告诉你9年起步.

数据来源更加不用说了,
PERM不行, 那就H1B行不行?

还什么印度小孩,排队10几年,不在美国生公民,要出去生倒过来排队100年?
这就是你丫的逻辑?

cross-validation 废话, 老夫不但做了,而且完美符合.
这些有必要告诉你丫这种2么?

【 在 pdxiaohan127 (Dr. Fu ManZhou) 的大作中提到: 】
: 我想你眼睛肯定好使,脑子好不好使我就不知道了。。。
: 人家让你把18财年以前的数据也考虑进去,你问人家想看哪一年,让人家点菜。。。: 人家质疑你数据来源的准确性。你说你那里啥都有,问人家想看啥。。。
: 人家让你做cross validation,验证一下你自己的预测模型,你问人家要怎么建模。。。
: 人家跟你讨论你一些系数的准确性,你说你知道对错,如果没有数据你也知道怎么推算
: 。。。
: 自伸数据科学家。。。

p
pharmacy
8 楼

楼主好歹看过数据,
你丫到老夫面前,嘿嘿,
四个字,
自取其辱
【 在 pdxiaohan127 (Dr. Fu ManZhou) 的大作中提到: 】
: 我想你眼睛肯定好使,脑子好不好使我就不知道了。。。
: 人家让你把18财年以前的数据也考虑进去,你问人家想看哪一年,让人家点菜。。。: 人家质疑你数据来源的准确性。你说你那里啥都有,问人家想看啥。。。
: 人家让你做cross validation,验证一下你自己的预测模型,你问人家要怎么建模。。。
: 人家跟你讨论你一些系数的准确性,你说你知道对错,如果没有数据你也知道怎么推算
: 。。。
: 自伸数据科学家。。。

j
josephwangj
9 楼

高深的道理说多了却忘记了饭是怎么吃的。

烙印在美国生的孩子直接美国公民,怎么还会影响他们的家庭成员加权值

p
pdxiaohan127
10 楼

哈哈哈,“cross-validation 废话, 老夫不但做了,而且完美符合.”你这句话就让我
笑得蛋疼了一上午。醒醒吧,姿伸数据科学家。

【 在 pharmacy (phamacy) 的大作中提到: 】
: 有问题么?
: 19财年是刚过去的财年,只用一年的话,不用这个用哪个?
: 考虑全部队列的,老夫早就在这个版面发过文章,明确告诉你9年起步.
: 数据来源更加不用说了,
: PERM不行, 那就H1B行不行?
: 还什么印度小孩,排队10几年,不在美国生公民,要出去生倒过来排队100年?
: 这就是你丫的逻辑?
: cross-validation 废话, 老夫不但做了,而且完美符合.
: 这些有必要告诉你丫这种2么?
: 。。

c
cqwood
11 楼

看出来某些人的成色了,基本的概念都不懂,还想顺杆子往上爬不懂装懂
【 在 pdxiaohan127 (Dr. Fu ManZhou) 的大作中提到: 】
: 标 题: Re: 就pharmacy数据分析的科学探讨
: 发信站: BBS 未名空间站 (Mon Oct 7 12:27:06 2019, 美东)
:
: 哈哈哈,“cross-validation 废话, 老夫不但做了,而且完美符合.”你这句话就让我
: 笑得蛋疼了一上午。醒醒吧,姿伸数据科学家。
:
:
:
: 【 在 pharmacy (phamacy) 的大作中提到: 】
: : 有问题么?
: : 19财年是刚过去的财年,只用一年的话,不用这个用哪个?
: : 考虑全部队列的,老夫早就在这个版面发过文章,明确告诉你9年起步.
: : 数据来源更加不用说了,
: : PERM不行, 那就H1B行不行?
: : 还什么印度小孩,排队10几年,不在美国生公民,要出去生倒过来排队100年?
: : 这就是你丫的逻辑?
: : cross-validation 废话, 老夫不但做了,而且完美符合.
: : 这些有必要告诉你丫这种2么?
: : 。。
:
:
:
: --
p
pharmacy
12 楼

继续继续,
你丫多少文章了?
老夫创立了一个数据科学的应用领域,
就凭你,哈哈,

【 在 pdxiaohan127 (Dr. Fu ManZhou) 的大作中提到: 】
: 哈哈哈,“cross-validation 废话, 老夫不但做了,而且完美符合.”你这句话就让我
: 笑得蛋疼了一上午。醒醒吧,姿伸数据科学家。

p
pharmacy
13 楼

对了,
给老夫讲讲Cross-validation有几种?
loocv优缺点分别是啥?

【 在 pdxiaohan127 (Dr. Fu ManZhou) 的大作中提到: 】
: 哈哈哈,“cross-validation 废话, 老夫不但做了,而且完美符合.”你这句话就让我
: 笑得蛋疼了一上午。醒醒吧,姿伸数据科学家。

p
pharmacy
14 楼

人呢? 嘿嘿.
来跟老夫对对数据,
对了,烙印生,5,6,7,8个小孩千万别忘了
c
cqwood
15 楼

毛病又犯了,别动不动就向别人提问题来掩饰自己的无知
你不是建立model了,你不是还run了cv么
code放github上让大家瞻仰瞻仰呗
别告诉我你老人家是用计算器按出来的,哈哈
【 在 pharmacy (phamacy) 的大作中提到: 】
: 对了,
: 给老夫讲讲Cross-validation有几种?
: loocv优缺点分别是啥?

p
pdxiaohan127
16 楼

你这么牛b,那你就先告诉我你预测的是什么,用的什么方法吧。

【 在 pharmacy (phamacy) 的大作中提到: 】
: 继续继续,
: 你丫多少文章了?
: 老夫创立了一个数据科学的应用领域,
: 就凭你,哈哈,

p
pharmacy
17 楼

老夫是用未处理队列长度预测实际排队时间.

把时间段切成5份,做交叉验证即可.

还有什么问题,尽管问

【 在 pdxiaohan127 (Dr. Fu ManZhou) 的大作中提到: 】
: 你这么牛b,那你就先告诉我你预测的是什么,用的什么方法吧。

p
pdxiaohan127
18 楼

来来来,往细里说说,怎样用未处理队列长度预测排队时间的?把时间切成了哪5份?你每一个数据点是怎样的?

【 在 pharmacy (phamacy) 的大作中提到: 】
: 老夫是用未处理队列长度预测实际排队时间.
: 把时间段切成5份,做交叉验证即可.
: 还有什么问题,尽管问

p
pharmacy
19 楼

先回答老夫一个问题,
这可不可以用线性回归?

这个答案搞清楚了,老夫可以讲,老夫没那么多时间对牛弹琴.

c
cqwood
20 楼

按计算器的数据科学家,让我再笑一会儿
regression是吧,你老人家搜集了多少data points,搜集了哪些feature
赶紧google哈
【 在 pharmacy (phamacy) 的大作中提到: 】
: 嘿嘿,请问你妈贵姓?
: 老夫教你可以先交学费.
: 实际上这是一个线性回归,老夫就是用计算器做的,不服?
: 先把这个问题好好想明白
: 交叉验证很简单,切数据即可

p
pharmacy
21 楼

废话,数据科学家从来是看什么问题用什么工具

EXCEL,计算器老夫都常用.

c
cqwood
22 楼

按你老人家这说法,什么r,matlab,python都是不屑于用的对吧
【 在 pharmacy (phamacy) 的大作中提到: 】
: 废话,数据科学家从来是看什么问题用什么工具
: EXCEL,计算器老夫都常用.

p
pdxiaohan127
23 楼

你连自己单个数据点长啥样都说不清楚,还跑来问我可不可以用线性回归。。。我又不是你的老妈子

【 在 pharmacy (phamacy) 的大作中提到: 】
: 先回答老夫一个问题,
: 这可不可以用线性回归?
: 这个答案搞清楚了,老夫可以讲,老夫没那么多时间对牛弹琴.

i
investonly
24 楼

cross validation是用来比较model的好坏的
而且是随机把data切成n-fold然后用n-1做training,其他做testing
这时间切5份不是CV
【 在 pharmacy (phamacy) 的大作中提到: 】
: 老夫是用未处理队列长度预测实际排队时间.
: 把时间段切成5份,做交叉验证即可.
: 还有什么问题,尽管问

p
pharmacy
25 楼

切成多个数据点切,这些数据点再5份没啥问题
我自己喜欢的算法要么是LOOCV,
要么是切5份,但是切1000次. 这样出来的结果高度稳定
随机切5份的评价效果根本不行,极大的跳跃性
自己做过的一清二楚
【 在 investonly (我是朱坚强,不是范跑跑) 的大作中提到: 】
: cross validation是用来比较model的好坏的
: 而且是随机把data切成n-fold然后用n-1做training,其他做testing
: 这时间切5份不是CV

p
pharmacy
26 楼

这么高级的工具老夫哪里会用啊.
apply就分5种,
RSTUDIO-server能切换R版本的多少钱有数么?

吃饱了撑得,才会去和小硕讨论这种问题,
【 在 cqwood (遥远海边) 的大作中提到: 】
: 按你老人家这说法,什么r,matlab,python都是不屑于用的对吧

c
cqwood
27 楼

吹,继续吹,还切1000次,你给我编出来1000个数据点再说
【 在 pharmacy (phamacy) 的大作中提到: 】
: 切成多个数据点切,这些数据点再5份没啥问题
: 我自己喜欢的算法要么是LOOCV,
: 要么是切5份,但是切1000次. 这样出来的结果高度稳定
: 随机切5份的评价效果根本不行,极大的跳跃性
: 自己做过的一清二楚

p
pharmacy
28 楼

哈哈,这撒比无极限了.
老夫293个数据点做5倍CV, 做1000次随意5-fold-CV切割.
给老夫说说为啥不行.
老夫数学不好,不知道为啥不行.
审稿人也没教我
顺便告诉你,老夫就靠这篇文章创立了一个应用领域
【 在 cqwood (遥远海边) 的大作中提到: 】
: 吹,继续吹,还切1000次,你给我编出来1000个数据点再说

c
cqwood
29 楼

你不是按计算器按出来的么,293个数据你手不酸么
【 在 pharmacy (phamacy) 的大作中提到: 】
: 哈哈,这撒比无极限了.
: 老夫293个数据点做5倍CV, 做1000次随意5-fold-CV切割.
: 给老夫说说为啥不行.
: 老夫数学不好,不知道为啥不行.
: 审稿人也没教我
: 顺便告诉你,老夫就靠这篇文章创立了一个应用领域

p
pharmacy
30 楼

这种SPIN就算了,歇歇省省力气.

【 在 cqwood (遥远海边) 的大作中提到: 】
: 你不是按计算器按出来的么,293个数据你手不酸么

p
pharmacy
31 楼

就凭你的上面这个问题,
你连基础排列组合都没搞明白,
还来教老夫.

R
RCBala
32 楼

把你的大作贴上来让大伙膜拜一下。

【 在 pharmacy (phamacy) 的大作中提到: 】
: 哈哈,这撒比无极限了.
: 老夫293个数据点做5倍CV, 做1000次随意5-fold-CV切割.
: 给老夫说说为啥不行.
: 老夫数学不好,不知道为啥不行.
: 审稿人也没教我
: 顺便告诉你,老夫就靠这篇文章创立了一个应用领域

p
pharmacy
33 楼

老夫可没有兴趣让人人肉,多个人已经向我报信,
辛亏是在美国,不怕嫌警察太闲
【 在 RCBala (RCBala) 的大作中提到: 】
: 把你的大作贴上来让大伙膜拜一下。

R
RCBala
34 楼

你这‘老夫’ ‘老夫‘的,真是刺眼扎耳. 敢问您老高寿?

【 在 pharmacy (phamacy) 的大作中提到: 】
: 老夫可没有兴趣让人人肉,多个人已经向我报信,
: 辛亏是在美国,不怕嫌警察太闲

p
pharmacy
35 楼

53
【 在 RCBala (RCBala) 的大作中提到: 】
: 你这‘老夫’ ‘老夫‘的,真是刺眼扎耳. 敢问您老高寿?