分享一个转data scientist失败的经历

M
Mathilda
楼主 (未名空间)
交代一下背景,CS master, Bioinformatics PhD。三篇一作,引用量150+,其中两篇
是纯算法。
PhD期间做的是algorithm/pipeline development, classification/clustering 等等
machine learning 方法非常熟悉。ML方向的paper看过很多,书也看过不少,
statistics的书也看,自学了很多。coding能力不错,leetcode 前150道题刷了两遍,几次面试白板写题部分都过了。 python/R/matlab/java都会都用。
我自以为挺全面的了,找data scientist没问题。结果毕业第一年,提交简历基本没有回应,最后当了码农。第二年我接着申请,面试拿了不少,大概有十个吧。大部分一轮之后就没音信,有时候我觉得自己明明发挥得很好,我也不知道为啥没有二面。有几次二面甚至三面了,最后又挂了。
面试总结,其实很多manager或者director对算法没有啥深入和全面的了解,data
science department就相当于公司的service部门,解决各种data analysis的简单问题,画画图做做t-test,最多拿几个package/library 做做classification, 对于算法的
理解要求并不深。虽然如此,有的面试官就好像故意得瑟自己懂很多数据分析方面的知识一样,问一些很不实际的问题。我个人觉得在接触数据之前,这些问题根本没有标准答案的。一次一个director问我Bayesian network里面的markov blanket是什么,虽然这么刁钻的问题我都回答出来了,他也没要我。另一次一个从业多年的director级别问我一个算法问题,我回答了,他说不对应该怎样怎样,我当时觉得奇怪没有反驳,后来查了一下,我明明说的是对的,他说错了.....还有一个director,面了我三四十道题,涵盖面非常广,statistics, ML, recommender system ...都问到了,我大多数都回答出来了,以为有希望最后还是没要我。另外一些面试,coding和ML问题都过了,最后因为我没咋用过sql和hadoop ecosystem而挂。虽然我没有多少工作经验,这方面的课我
是上过的啊。
历经三个月,最后我被面试伤害的体无完肤生无可恋,已经放弃了,回归老本行了。
h
hayouyou
2 楼
有没有可能需要提高口语交流之类的?感觉ds对这方面要求比较高…
c
conge
3 楼
"三个月" "放弃了"

听过一句话,叫做人生没有失败,只有放弃。
c
changes
4 楼
你有没有试过金融公司?
M
Mathilda
5 楼
:( 没,金融公司都用SAS,做的不太一样

【 在 changes (changes) 的大作中提到: 】
你有没有试过金融公司?
d
daemonself
6 楼
冲你这个回答,基本能看出你的问题, no offense
【 在 Mathilda (Mathilda) 的大作中提到: 】
:( 没,金融公司都用SAS,做的不太一样
m
magliner
7 楼
其实楼主说的也在理: 工具不一样,思路确实不一样, no offense

再说了, 人家一眼看出了所谓'科学家'的本质: 就是个打杂的 ,其实地位很尴尬,
就是依赖于其它部门赏口饭吃。

及时退出做码工其实挺好。
【 在 daemonself (mit行为艺术专业博士后导师) 的大作中提到: 】
冲你这个回答,基本能看出你的问题, no offense
i
ilovqianqian
8 楼
echo这个回复。做data的工作两年,最大的感触就是soft skill很重要。

做SDE, 一般都是东西都做差不多了,决定要上线了,需要implement。 做data的,
好多时候是怎么communicate你的idea,说服别人你的model/feature有用或者可以解
决他们的问题,需要说服别人接受。所以communication还是挺重要,这个不光看口语
吧,我个人觉得有点像sales, 还是要有点技巧。最近也被老板要求improve了。

至于你说的那些做做t-test什么的,是data scientist的一种,主要是跟平时日常的
operations。 FB家大部分是干这个吧(除了Lecun那个core组),要求差不多就是
Python, SQL,一点统计和很强的business sense。

也有其他的做model的data scientist,如果很想develop model, 就要注重一下用
software算法挣钱的公司吧,比如Google, Microsoft, Apple之类的。

【 在 hayouyou (smile) 的大作中提到: 】
有没有可能需要提高口语交流之类的?感觉ds对这方面要求比较高…
c
cyx277
9 楼
同意softskill重要。
n
nowhere7
10 楼
我靠,这么nb都转不动啊
c
chaoz
11 楼
现在大公司都是工程师做ml

我都要转工程师了
d
daemonself
12 楼
金融公司都用sas?这是哪里的真理?lz既没有金融公司的background,呵呵一笑就把人都变成sas scripter了?
【 在 magliner (magliner) 的大作中提到: 】
其实楼主说的也在理: 工具不一样,思路确实不一样, no offense
再说了, 人家一眼看出了所谓'科学家'的本质: 就是个打杂的 ,其实地位很尴尬,
就是依赖于其它部门赏口饭吃。
及时退出做码工其实挺好。
X
XLblue
13 楼
谢谢分享,你很厉害啊!
t
timetodo
14 楼
这个怎么能说是失败呢 顶多算是暂时没成功 毕竟才几个月的时间
有时候面试考运气,即便你能力很强,可面试官跟你就是气场不合,或者职位不合适。以前我也有过类似经历,但运气来了,就若干offer。
不妨总结一下问题在哪,除了运气,比如表达能力等。
我感觉lz技术没问题,那么可以在表达上加强,比如如何吹自己过往经验,如何展示自己的自信,如何展示business sense等。
还有,多试试其他行业,比如你说的银行啥的,他们收不少DS。

回帖里不少打击的,不知为什么。
a
alvdena
15 楼
楼主是那种分分钟都会秒变钻石王老五的,没事的,多试试就行了
s
staftermath
16 楼
他说的是传统银行吧?不算trading hedge fund之类的。我觉得没什么问题啊

【 在 daemonself(mit行为艺术专业博士后导师) 的大作中提到: 】
金融公司都用sas?这是哪里的真理?lz既没有金融公司的background,呵呵一笑就把人
都变成sas scripter了?
D
DesertEagle
17 楼
这贴里好多大妞啊
d
dracodoc
18 楼
CS master 还叫转吗?
算法强就去找算法相关的就好了,搞什么data scientist.难道你找的data scientist
比你码农职位工资高很多?
d
danielocean
19 楼
没有多少工作经验...可能是原因
a
aa1343
20 楼
相信你技术上肯定是过关的,要多试,在面试中锻炼面试技巧。
还有象其他网友提到的,注意交流技巧,不要在乎面试问题的对错上,注意如何回答问题,如何和面试的人交流。
还要培养人脉,通过认识人介绍的一般都会有二面,还有通过猎头介绍。三个月太短,要继续找。介绍一本书 “Never Split the Difference: Negotiating as if Your
Life Depended on It" 有空可以看看。

【 在 Mathilda (Mathilda) 的大作中提到: 】
交代一下背景,CS master, Bioinformatics PhD。三篇一作,引用量150+,其中两篇
是纯算法。
PhD期间做的是algorithm/pipeline development, classification/clustering 等等
machine learning 方法非常熟悉。ML方向的paper看过很多,书也看过不少,
statistics的书也看,自学了很多。coding能力不错,leetcode 前150道题刷了两遍,
几次面试白板写题部分都过了。 python/R/matlab/java都会都用。
我自以为挺全面的了,找data scientist没问题。结果毕业第一年,提交简历基本没有
回应,最后当了码农。第二年我接着申请,面试拿了不少,大概有十个吧。大部分一轮
之后就没音信,有时候我觉得自己明明发挥得很好,我也不知道为啥没有二面。有几次
二面甚至三面了,最后又挂了。
...................
d
dynkin
21 楼
奇怪,你这个经历看着more than qualified,没理由可以据你啊。除非对方部门只要
招写paper不要编程的人,不然你这个做研究和写代码都可以啊。

【 在 Mathilda (Mathilda) 的大作中提到: 】
交代一下背景,CS master, Bioinformatics PhD。三篇一作,引用量150+,其中两篇
是纯算法。
PhD期间做的是algorithm/pipeline development, classification/clustering 等等
machine learning 方法非常熟悉。ML方向的paper看过很多,书也看过不少,
statistics的书也看,自学了很多。coding能力不错,leetcode 前150道题刷了两遍,
几次面试白板写题部分都过了。 python/R/matlab/java都会都用。
我自以为挺全面的了,找data scientist没问题。结果毕业第一年,提交简历基本没有
回应,最后当了码农。第二年我接着申请,面试拿了不少,大概有十个吧。大部分一轮
之后就没音信,有时候我觉得自己明明发挥得很好,我也不知道为啥没有二面。有几次
二面甚至三面了,最后又挂了。
...................
d
dynkin
22 楼
还有一点奇怪的是既然你说写代码,为啥sql和hadoop都没接触过呢?其实我发现很多
号称data science的人和数据打交道最多,所以用的sql, R, hive, spark之类的最多
。所以如果你说算法精通然后这些却不知道,难免会让人疑惑。

【 在 Mathilda (Mathilda) 的大作中提到: 】
交代一下背景,CS master, Bioinformatics PhD。三篇一作,引用量150+,其中两篇
是纯算法。
PhD期间做的是algorithm/pipeline development, classification/clustering 等等
machine learning 方法非常熟悉。ML方向的paper看过很多,书也看过不少,
statistics的书也看,自学了很多。coding能力不错,leetcode 前150道题刷了两遍,
几次面试白板写题部分都过了。 python/R/matlab/java都会都用。
我自以为挺全面的了,找data scientist没问题。结果毕业第一年,提交简历基本没有
回应,最后当了码农。第二年我接着申请,面试拿了不少,大概有十个吧。大部分一轮
之后就没音信,有时候我觉得自己明明发挥得很好,我也不知道为啥没有二面。有几次
二面甚至三面了,最后又挂了。
...................
l
lxuegsuwl
23 楼
看到你这么高的水平都能失败,终于找到心里平衡了。你是不是面的都是加州大公司。你这个水平来我们小地方找个DS应该没问题。至少我们公司99%都没你这么强。
M
Mathilda
24 楼
谢谢大家的回复,很受用。我准备面试的时候确实只关注技术问题,没想过要怎么表达。没有工作经验也是我的短板。另外没有工作签证可能也是个问题,我打算拿到绿卡再慢慢转。
还有可能就是面试官看到我是bioinformatics方向,发的paper title都有生物名词,
本科也不是cs出身,所以产生疑惑觉得方向不匹配。
还有就是phd的工作都是集中在某一个小方向,对找data scientist这种要求知识广泛
实用,胜于知识深度的职位来说,并没有优势。
面试后期有一次我问一个director他对这个职位,这个新人有什么具体的要求和期望,他说他希望这个人注重团队合作,而不是逞个人英雄,不要觉得自己很了不起...当时
心里觉得他在暗示我什么,可能对于找工作的fresh graduate来说,还是不要把自己吹得太牛太自信比较好。
M
Mathilda
25 楼
在学校,一般不用database,都用flat file了。做并行处理好像多数都用high
performance cluster,少用hadoop。
【 在 dynkin (化神奇为腐朽) 的大作中提到: 】
还有一点奇怪的是既然你说写代码,为啥sql和hadoop都没接触过呢?其实我发现很多
号称data science的人和数据打交道最多,所以用的sql, R, hive, spark之类的最多
。所以如果你说算法精通然后这些却不知道,难免会让人疑惑。
M
Mathilda
26 楼
好像没人觉得sas scripter不好吧。我看到的银行job requirement,确实都把SAS列成硬性要求。而且偏向统计、数学的PhD,这个我确实做不到啊。

【 在 daemonself (mit行为艺术专业博士后导师) 的大作中提到: 】
金融公司都用sas?这是哪里的真理?lz既没有金融公司的background,呵呵一笑就把人
都变成sas scripter了?
M
Mathilda
27 楼
没有面加州大公司,我都找的ecommerce, retailer 之类的,觉得他们data多,而且想做recommender system
【 在 lxuegsuwl (taxuewuhen) 的大作中提到: 】
看到你这么高的水平都能失败,终于找到心里平衡了。你是不是面的都是加州大公司。
你这个水平来我们小地方找个DS应该没问题。至少我们公司99%都没你这么强。
b
beanies
28 楼
听起来似乎是你present的技巧问题
你看了那么多ML的paper,都没学会它们的表达技巧吗?ML的paper基本都靠表达技巧取胜的。
说算法理解什么的,就要上数学了,推荐系统这种感觉大家都做了好多年了,研究发
paper可以,
招人的话,还是希望你数学超级牛的。
个人愚见
【 在 Mathilda (Mathilda) 的大作中提到: 】
交代一下背景,CS master, Bioinformatics PhD。三篇一作,引用量150+,其中两篇
是纯算法。
PhD期间做的是algorithm/pipeline development, classification/clustering 等等
machine learning 方法非常熟悉。ML方向的paper看过很多,书也看过不少,
statistics的书也看,自学了很多。coding能力不错,leetcode 前150道题刷了两遍,
几次面试白板写题部分都过了。 python/R/matlab/java都会都用。
我自以为挺全面的了,找data scientist没问题。结果毕业第一年,提交简历基本没有
回应,最后当了码农。第二年我接着申请,面试拿了不少,大概有十个吧。大部分一轮
之后就没音信,有时候我觉得自己明明发挥得很好,我也不知道为啥没有二面。有几次
二面甚至三面了,最后又挂了。
...................
h
hayouyou
29 楼
现在很多银行都开始要求用开源的软件做data了吧。。
用python hadoop的不要太多

【 在 Mathilda(Mathilda) 的大作中提到: 】
好像没人觉得sas scripter不好吧。我看到的银行job requirement,确实都把
SAS列成
硬性要求。而且偏向统计、数学的PhD,这个我确实做不到啊。
p
phuang1226
30 楼
数据科学家这种工作有泡沫化倾向。
d
dynkin
31 楼
据说老人说,宁可去加州公司重头学习也不要去传统公司倚老卖老。

传统公司也招data scientist也招machine learning,不过很多时候思维还是老的方式,例如可能觉得tableu加上hadoop处理买来的数据就够hard core了。而且传统公司的
缺点是不缺钱也不想稳扎稳打。

这样的公司一定要以中层以上的身份过去,或者就是能技术业务活学活用,要不然过几年就被带坏了。

【 在 Mathilda (Mathilda) 的大作中提到: 】
没有面加州大公司,我都找的ecommerce, retailer 之类的,觉得他们data多,而且想
做recommender system
d
dynkin
32 楼
现在看这种单向面试都觉得挺好玩的,就好像你是厨子对方是挑剔的顾客一样的,你巴不得把自己的拿手菜全给对方做一遍,最后连对方想吃甜的咸的都没搞清楚。

其实最理想的面试就像两人喝下午茶,各有所获。喝着喝着人家就说我来买单吧。

【 在 Mathilda (Mathilda) 的大作中提到: 】
没有面加州大公司,我都找的ecommerce, retailer 之类的,觉得他们data多,而且想
做recommender system
Z
Zer0
33 楼
Humble.
知道面试官想知道什么,和面试官想法一致才是面试成功的关键。不仅仅是你给出了正确的答案。
A
AshtonKutch
34 楼
恕我直言,lz这个首先不是转行,都是cs master了,只是换个方向了而已。再一个,
面了几次被拒了就算是失败了?
w
walkrandom
35 楼
我觉得CS里面做数据搬运工挺好的。
把data从这一头移到另一头。
控制了数据的流动,job security就好了。
不喜欢哪个搞数据的,就不给api。
NG andrew从来拿不到baidu的api,再牛逼也得走路了。
m
magliner
36 楼
能展开说说么 ,这是怎么回事 ? 做数据是不是等同于 data etl ? 不涉及什么高深
算法吧 ?
我觉得这是在‘食物链‘下方的工作,通常被人使唤来使唤去。
也许我理解有误。
【 在 walkrandom (walkrandom) 的大作中提到: 】
我觉得CS里面做数据搬运工挺好的。
把data从这一头移到另一头。
控制了数据的流动,job security就好了。
不喜欢哪个搞数据的,就不给api。
NG andrew从来拿不到baidu的api,再牛逼也得走路了。
s
shyzhx
37 楼
Good point.

【 在 dynkin (化神奇为腐朽) 的大作中提到: 】
现在看这种单向面试都觉得挺好玩的,就好像你是厨子对方是挑剔的顾客一样的,你巴
不得把自己的拿手菜全给对方做一遍,最后连对方想吃甜的咸的都没搞清楚。
其实最理想的面试就像两人喝下午茶,各有所获。喝着喝着人家就说我来买单吧。
A
AlphaNBeta
38 楼
Nowadays, there are few financial firms are still using SAS (except retail
banks and credit card companies). If you are pretty good at algorithms, know machining learning and good at programming, u should be easy to find a job at quant hedge funds and market makers, try Two Sigmas and Knight Capital,
or go to LinkedIn, search machine learning and limit the search to
investment management and financial services.

【 在 Mathilda (Mathilda) 的大作中提到: 】
:( 没,金融公司都用SAS,做的不太一样
a
aaddoo
39 楼
楼主是不是还需要H1B抽签? 如果需要新申请H1B的话,那么身份会是主要问题。即使
老板非常想要你,但是人事部门那一关不好过。

第二才是工作经验问题。公司倾向于招有直接经验的。这其实是个伪命题,因为任何一个人都是从没有经验到有经验的。不给新人机会,怎么获得经验?如果公司找不到最合适的人,或者有经验的人要价太高,自然会找经验差点,但是学习能力强的。

第三才是交流问题,或者老板和你投不投缘,做久了,交流能力就提上来了。

楼主不要轻易放弃。如果认准了方向,需要调整的只是技巧和策略。意识到自己的身份问题需要解决,工作经验要攒的话,要多撒网,从小公司开始。有些机会是转瞬即逝的,越早抓住越好。
w
walkrandom
40 楼
以前是做过data scientist还有statistician的。
工作不稳定,一年换一个工作。
年纪大了,操不动了。
现在做数据搬运工。就是你说的ETL,天天把几PB的数据拖来拖去。
的确是很low,用的都是leetcode的简单算法。LRU,LFU,merge interval,insert
interval,two sum,max in moving window什么的。
现在发现,就算把这些简单算法加到java data,mysql,elasticssearch,kafka,
spark这些大路货去以后,也是要求蛮高的。老板把我干掉,还得找个更贵的,刷过题
还得用过题的马公。否则就从头来过吧。
所以,干什么都得lock in data。
data是朕的,朕賜給你,才是你的,朕不給,你不能搶。

【 在 magliner (magliner) 的大作中提到: 】
能展开说说么 ,这是怎么回事 ? 做数据是不是等同于 data etl ? 不涉及什么高深
算法吧 ?
我觉得这是在‘食物链‘下方的工作,通常被人使唤来使唤去。
也许我理解有误。
m
magliner
41 楼
今天真是涨了知识了 原来做数据也需要如此高深算法。
估计你们部门也是挺有地位的部门。
thank you
【 在 walkrandom (walkrandom) 的大作中提到: 】
以前是做过data scientist还有statistician的。
工作不稳定,一年换一个工作。
年纪大了,操不动了。
现在做数据搬运工。就是你说的ETL,天天把几PB的数据拖来拖去。
的确是很low,用的都是leetcode的简单算法。LRU,LFU,merge interval,insert : interval,two sum,max in moving window什么的。
现在发现,就算把这些简单算法加到java data,mysql,elasticssearch,kafka,
spark这些大路货去以后,也是要求蛮高的。老板把我干掉,还得找个更贵的,刷过题
还得用过题的马公。否则就从头来过吧。
所以,干什么都得lock in data。
...................
N
Notalandlord
42 楼
Bioinformatics是污点。啥东沾上Bio就臭了
x
xxzhao
43 楼
能给的建议对于大多数人就是考虑先data analyst或者data engineer
参考这个课程
http://www.01training.com/slider/data_engineer_feb/

---
零点培训
快速帮助北美华人转行http://www.01training.com/