(帮忙内推FB)Data Scientist 跳槽经验总结帖+复习资料推荐

p
passedmemory
101 楼
想问下machine learning 考的深吗? 之前一直用SAS 和SQL 编程。没用过machine learning 的知识。谢谢
大菠萝小菠萝
102 楼
问个比较幼稚的问题,lz 觉得GPA 对于找DS 的影响大吗?对于第一份工作,和有工作经验之后跳槽,有什么不同程度的影响吗?谢谢:)
b
babybear23
103 楼
谢谢分享,请问自学DS的需要去考个什么certifcate或者degree吗?那些degree或者certificate有用?
c
carolyn2011
104 楼
mark~~
小马和小猴
105 楼
mark mark mark
其实不是马甲哦
106 楼
强帖mark,谢谢lz分享! ---发自Huaren 官方 iOS APP
s
susuemily
107 楼
恭喜楼主!祝楼主新工作一切顺利!赞大方分享!有空拜读。
B
BZH
108 楼

非常棒楼主!感谢分享。请问mle 接受fresh grad吗?大公司不都是统招?
h
happyvs
109 楼
mark......
f
ferretti
110 楼

来回报论坛了,说说自己近期面试data scientist 的经验。
背景:ms systems engineering + 2yr work experience in a small (not start-up) company, daily responsibility includes data analysis, modeling, machine learning, some text mining, some big data analysis. 不做任何reporting and visualization,也没有所谓的product analytics (experiment design),和flg要求的有较大差距。 Skill set (括号代表非常真实的工作时间分布): r (70%), sql(10%), python(10%), spark (specifically, pySpark, 10%). 坛里一定有很多比我牛的人啦,我只是新人一个。在这里我只想给出一个非牛人,但挺努力有目标的人会怎么准备。目标是想去湾区做ds。
先说结果: 投了40家左右 Offer: fb, google Rej: Linkedin and a startup (onsite rej) twitter (after 2 tech interview) Apple (不同组跟4个hm聊过,最终有被拒也有withdraw) Uber (failed first tech interview) Airbnb (failed on data challenge) 还有好多其他公司,有的跟hr聊聊发现不合适,有,有的默拒,有的好歹还告诉你一下被拒了。 总结下:就是太小的公司,投了也白投,直接简历悲剧。我大概投了25+小公司,只3个好歹给我电面。其他就是没消息。 所以觉得自己背景还不错的朋友,建议安排面试的时候,从不太想去的中/大公司开始,到自己最想去的大公司。找小公司成本很高, 投的时候麻烦而且又没面试。
【时间线】 17年2月,开始上JIUZHANG算法初级课,刷题,断断续续到6,7月吧。(***如果找ds,刷题没用,看后文) 期间,边玩边刷剧边复习,复习内容后面会说。 7月中,开始投简历,以小公司为主。开始断断续续的电面等等。 9月中,开始投最想去的一波公司(FLG等其他共10个左右吧)。 10月, 第一个onsite 小公司,fail。这段时间基本2周一个onsite,去了三次。 11月,确认offer,谈价钱,完事。
再说开始投简历之前的准备: 第一,  先搞明白自己到底想做什么。   最开始,在data scientist 和machine learning engineer 之间摇摆不定。MLE么,一来很火,钱多多了,还有也更偏技术点,我bf强推我走这条路。于是开始了刷题之路。 最后,没选择走mle,坚持了ds。一是虽然会编程,但是没上过正经的算法课,刷题基础不好,看题刷题很痛苦。二是,结合了自己的兴趣和能力,衡量下了之后觉得ds这种通才更适合我个人发展。个别公司给了面mle的机会,有的take了,结果发现自己水平也不够,有的就直接拒了。 小心提示下: linkedin的ds和mle不可以同时面,只能2选1。 Fb,apple可以同时面,面试结果互不影响。 第二,  列出公司列表,按自己想去不想去的程度,分出几个档次。然后倒着投。我还是建议把最想去的公司放倒最后。面试是一个学习进步的过程。前期不管是跟人聊自己的经历,proj也好,面tech聊ML的可以帮助自己找到知识点的查缺补漏等等,我觉得这对后来面大公司很有帮助。 第三,  心态调整。面试是个双向选择,互相平等选择的过程。表现在去面试的时候,要显得自信而不自傲。和面试官平等沟通。把面试当成去公司上班的一天,去和同事解决问题的一天就会轻松很多了。 【面试范围】 从简单到难,目前我观察ds面试主要有3块,一是处理数据的能力,flg都是靠考察sql能力为主;二是所谓的product analytics,这块比较虚了(很难复习),考察的内容很宽泛; 第三是统计,概率和machine learning,我复习的较少,认为基础还行吧,主要是上课学过。 根据我自己的情况,我花的时间大概是10% - 50% - 40% 吧。很多也在日常积累中。 【要不要刷题???】 我的回答,如果是面ds,真心不用。类似leetcode那种算法题,完全没考到! 如果你面的title是mle, 或者software engineer-data science/machine learning/data mining 这种的,一定一定要刷。
【Sql复习资料】 如果你连sql是啥都不知道,建议从这门课学起: https://lagunita.stanford.edu/courses/Engineering/db/2014_1/about 只看开头和relational database 两章足够。 https://community.modeanalytics.com/sql/tutorial/introduction-to-sql/
如果你已经很熟悉sql,日常工作中有用到,稍微复习下这些题目足够了: https://leetcode.com/problemset/database/
【product sense 复习资料】 1.       学习管理咨询那套解决问题的框架: 朋友推荐看的书是case in point, Case Interview Secrets (我都没看,没时间) 我推荐的是听后者作者的一个讲座,look over my shoulder,具体过8个case。每个case都有3个面试者,然后victor cheng分别点评,提出改进建议。这个我在喜马拉雅fm app上听的,免费: http://www.ximalaya.com/5269453/album/6414597/ 我一共听了3+次,开车听。 2.       Product design: 我看了这个: https://classroom.udacity.com/courses/ud509
3.       一定要复习的是ab test. 我对ab test 是完全没任何工作经验的,所以从0 开始学习。我看了以下材料 (按顺序): 首先,系统学习下什么是ab test(个人完整看了3次以上,认真写了笔记,每次去onsite的飞机上都是复习这个笔记) https://classroom.udacity.com/courses/ud257 然后,我看了这个:A/B Testing for Business Analysts https://classroom.udacity.com/courses/ud979 看一次,主要理解了randomize design and paired design, 第一个课里没仔细讲的。还有这个课非常短,适合短时间看一下的。
最后上这个https://community.modeanalytics.com/sql/tutorial/sql-business-analytics-training/ 因为学习了很久,我一直的疑惑就是实际工作中到底怎么展开研究一个问题? 到底什么是正确答案?这个系列training解答了我很多疑惑,而且也结合了sql的处理,一定建议对每个图,打开右上角的view query in Mode,建立从提出问题到数据处理之间的联系。
4.       补充的资料,时间不够可以不看了的 Model building and validation: 理解所谓的QMV process, questionè model è validation.  以下这个课我是加速看的前3章。 https://classroom.udacity.com/courses/ud919
【stats, probability, machine learning 复习资料】 Stats 我复习的少,主要针对tests, hypothesis testing 看了一下这些: 1.       Intro to Inferential Statistics:https://classroom.udacity.com/courses/ud201 主要看了estimate, hypo testing 这2个,其他也来不及了没看。 2.       Penn state university的stats 414, 415. https://onlinecourses.science.psu.edu/stat414/ 哪里知识缺了就来补看一下。 【Probability】 我看了2个: 1.       https://brilliant.org/courses/probability/ (强烈推荐) 我做了前面5个course的免费题目,看了解答。主要是Bayes rule, conditional probability, expection 这些概念的理解和灵活应用。 2.       https://www.amazon.com/Practical-Guide-Quantitative-Finance-Interviews/dp/1438236662 一般是推荐给面quant的人的,我看了其中概率题的那章。忘记是哪个了。。。
【machine learning】 这部分我主动复习的很少了,在学校上过课+我bf是做这个方向的,他帮我复习了各个算法的情况,优劣势等等。具体到面试中,考察的内容比如是,提出什么问题,收集那些数据,用什么feature,哪些transformation, 如何data cleaning, 如何选模型?如何evaluate model etc。。。我自己写了个笔记,就写面到的,错过的,想到的知识点等等。要面试前会复习的。 如果对ml完全没经验,参考别人的帖子吧。。。
Overall, ds跳槽的面经推荐阅读: 这个面经写的非常好!!有很多我没cover的点,比如怎么写简历,linkedin, network,如何安排时间等等,请一定看一下~
【我是刚毕业怎么办?】 建议第一份工作也许不能是dream job ,但一定要有一些值得你去的点,是和你的dream job 相关联的。衡量工作的内容,想想以后写在简历上会不会添彩?比如你想做ds,但如果现在一份工作要求你天天用sas,真心建议别去了。如果你想做MLE, 但现在一个工作要求你用tableau 做reporting?也别去了。
最后,有问题的话麻烦回帖,大家一起来讨论。不要私信。如果你非要私信我我也不回的,请尊重我的要求。

supermuyes 发表于 12/10/2017 11:03:18 PM

data scientist 面经 mark 恭喜lz
r
rollarrollar
111 楼
谢谢lz,mark
f
flyhope
112 楼

写的好详细,辛苦了!收藏起来马上学习。
g
greenygreen
113 楼
MArkmark
j
joeflacco
114 楼

来回报论坛了,说说自己近期面试data scientist 的经验。
背景:ms systems engineering + 2yr work experience in a small (not start-up) company, daily responsibility includes data analysis, modeling, machine learning, some text mining, some big data analysis. 不做任何reporting and visualization,也没有所谓的product analytics (experiment design),和flg要求的有较大差距。 Skill set (括号代表非常真实的工作时间分布): r (70%), sql(10%), python(10%), spark (specifically, pySpark, 10%). 坛里一定有很多比我牛的人啦,我只是新人一个。在这里我只想给出一个非牛人,但挺努力有目标的人会怎么准备。目标是想去湾区做ds。
先说结果: 投了40家左右 Offer: fb, google Rej: Linkedin and a startup (onsite rej) twitter (after 2 tech interview) Apple (不同组跟4个hm聊过,最终有被拒也有withdraw) Uber (failed first tech interview) Airbnb (failed on data challenge) 还有好多其他公司,有的跟hr聊聊发现不合适,有,有的默拒,有的好歹还告诉你一下被拒了。 总结下:就是太小的公司,投了也白投,直接简历悲剧。我大概投了25+小公司,只3个好歹给我电面。其他就是没消息。 所以觉得自己背景还不错的朋友,建议安排面试的时候,从不太想去的中/大公司开始,到自己最想去的大公司。找小公司成本很高, 投的时候麻烦而且又没面试。
【时间线】 17年2月,开始上JIUZHANG算法初级课,刷题,断断续续到6,7月吧。(***如果找ds,刷题没用,看后文) 期间,边玩边刷剧边复习,复习内容后面会说。 7月中,开始投简历,以小公司为主。开始断断续续的电面等等。 9月中,开始投最想去的一波公司(FLG等其他共10个左右吧)。 10月, 第一个onsite 小公司,fail。这段时间基本2周一个onsite,去了三次。 11月,确认offer,谈价钱,完事。
再说开始投简历之前的准备: 第一,  先搞明白自己到底想做什么。   最开始,在data scientist 和machine learning engineer 之间摇摆不定。MLE么,一来很火,钱多多了,还有也更偏技术点,我bf强推我走这条路。于是开始了刷题之路。 最后,没选择走mle,坚持了ds。一是虽然会编程,但是没上过正经的算法课,刷题基础不好,看题刷题很痛苦。二是,结合了自己的兴趣和能力,衡量下了之后觉得ds这种通才更适合我个人发展。个别公司给了面mle的机会,有的take了,结果发现自己水平也不够,有的就直接拒了。 小心提示下: linkedin的ds和mle不可以同时面,只能2选1。 Fb,apple可以同时面,面试结果互不影响。 第二,  列出公司列表,按自己想去不想去的程度,分出几个档次。然后倒着投。我还是建议把最想去的公司放倒最后。面试是一个学习进步的过程。前期不管是跟人聊自己的经历,proj也好,面tech聊ML的可以帮助自己找到知识点的查缺补漏等等,我觉得这对后来面大公司很有帮助。 第三,  心态调整。面试是个双向选择,互相平等选择的过程。表现在去面试的时候,要显得自信而不自傲。和面试官平等沟通。把面试当成去公司上班的一天,去和同事解决问题的一天就会轻松很多了。 【面试范围】 从简单到难,目前我观察ds面试主要有3块,一是处理数据的能力,flg都是靠考察sql能力为主;二是所谓的product analytics,这块比较虚了(很难复习),考察的内容很宽泛; 第三是统计,概率和machine learning,我复习的较少,认为基础还行吧,主要是上课学过。 根据我自己的情况,我花的时间大概是10% - 50% - 40% 吧。很多也在日常积累中。 【要不要刷题???】 我的回答,如果是面ds,真心不用。类似leetcode那种算法题,完全没考到! 如果你面的title是mle, 或者software engineer-data science/machine learning/data mining 这种的,一定一定要刷。
【Sql复习资料】 如果你连sql是啥都不知道,建议从这门课学起: https://lagunita.stanford.edu/courses/Engineering/db/2014_1/about 只看开头和relational database 两章足够。 https://community.modeanalytics.com/sql/tutorial/introduction-to-sql/
如果你已经很熟悉sql,日常工作中有用到,稍微复习下这些题目足够了: https://leetcode.com/problemset/database/
【product sense 复习资料】 1.       学习管理咨询那套解决问题的框架: 朋友推荐看的书是case in point, Case Interview Secrets (我都没看,没时间) 我推荐的是听后者作者的一个讲座,look over my shoulder,具体过8个case。每个case都有3个面试者,然后victor cheng分别点评,提出改进建议。这个我在喜马拉雅fm app上听的,免费: http://www.ximalaya.com/5269453/album/6414597/ 我一共听了3+次,开车听。 2.       Product design: 我看了这个: https://classroom.udacity.com/courses/ud509
3.       一定要复习的是ab test. 我对ab test 是完全没任何工作经验的,所以从0 开始学习。我看了以下材料 (按顺序): 首先,系统学习下什么是ab test(个人完整看了3次以上,认真写了笔记,每次去onsite的飞机上都是复习这个笔记) https://classroom.udacity.com/courses/ud257 然后,我看了这个:A/B Testing for Business Analysts https://classroom.udacity.com/courses/ud979 看一次,主要理解了randomize design and paired design, 第一个课里没仔细讲的。还有这个课非常短,适合短时间看一下的。
最后上这个https://community.modeanalytics.com/sql/tutorial/sql-business-analytics-training/ 因为学习了很久,我一直的疑惑就是实际工作中到底怎么展开研究一个问题? 到底什么是正确答案?这个系列training解答了我很多疑惑,而且也结合了sql的处理,一定建议对每个图,打开右上角的view query in Mode,建立从提出问题到数据处理之间的联系。
4.       补充的资料,时间不够可以不看了的 Model building and validation: 理解所谓的QMV process, questionè model è validation.  以下这个课我是加速看的前3章。 https://classroom.udacity.com/courses/ud919
【stats, probability, machine learning 复习资料】 Stats 我复习的少,主要针对tests, hypothesis testing 看了一下这些: 1.       Intro to Inferential Statistics:https://classroom.udacity.com/courses/ud201 主要看了estimate, hypo testing 这2个,其他也来不及了没看。 2.       Penn state university的stats 414, 415. https://onlinecourses.science.psu.edu/stat414/ 哪里知识缺了就来补看一下。 【Probability】 我看了2个: 1.       https://brilliant.org/courses/probability/ (强烈推荐) 我做了前面5个course的免费题目,看了解答。主要是Bayes rule, conditional probability, expection 这些概念的理解和灵活应用。 2.       https://www.amazon.com/Practical-Guide-Quantitative-Finance-Interviews/dp/1438236662 一般是推荐给面quant的人的,我看了其中概率题的那章。忘记是哪个了。。。
【machine learning】 这部分我主动复习的很少了,在学校上过课+我bf是做这个方向的,他帮我复习了各个算法的情况,优劣势等等。具体到面试中,考察的内容比如是,提出什么问题,收集那些数据,用什么feature,哪些transformation, 如何data cleaning, 如何选模型?如何evaluate model etc。。。我自己写了个笔记,就写面到的,错过的,想到的知识点等等。要面试前会复习的。 如果对ml完全没经验,参考别人的帖子吧。。。
Overall, ds跳槽的面经推荐阅读: 这个面经写的非常好!!有很多我没cover的点,比如怎么写简历,linkedin, network,如何安排时间等等,请一定看一下~
【我是刚毕业怎么办?】 建议第一份工作也许不能是dream job ,但一定要有一些值得你去的点,是和你的dream job 相关联的。衡量工作的内容,想想以后写在简历上会不会添彩?比如你想做ds,但如果现在一份工作要求你天天用sas,真心建议别去了。如果你想做MLE, 但现在一个工作要求你用tableau 做reporting?也别去了。
最后,有问题的话麻烦回帖,大家一起来讨论。不要私信。如果你非要私信我我也不回的,请尊重我的要求。

supermuyes 发表于 12/10/2017 11:03:18 PM
mark.
T
TitanicZz
115 楼

来回报论坛了,说说自己近期面试data scientist 的经验。
背景:ms systems engineering + 2yr work experience in a small (not start-up) company, daily responsibility includes data analysis, modeling, machine learning, some text mining, some big data analysis. 不做任何reporting and visualization,也没有所谓的product analytics (experiment design),和flg要求的有较大差距。 Skill set (括号代表非常真实的工作时间分布): r (70%), sql(10%), python(10%), spark (specifically, pySpark, 10%). 坛里一定有很多比我牛的人啦,我只是新人一个。在这里我只想给出一个非牛人,但挺努力有目标的人会怎么准备。目标是想去湾区做ds。
先说结果: 投了40家左右 Offer: fb, google Rej: Linkedin and a startup (onsite rej) twitter (after 2 tech interview) Apple (不同组跟4个hm聊过,最终有被拒也有withdraw) Uber (failed first tech interview) Airbnb (failed on data challenge) 还有好多其他公司,有的跟hr聊聊发现不合适,有,有的默拒,有的好歹还告诉你一下被拒了。 总结下:就是太小的公司,投了也白投,直接简历悲剧。我大概投了25+小公司,只3个好歹给我电面。其他就是没消息。 所以觉得自己背景还不错的朋友,建议安排面试的时候,从不太想去的中/大公司开始,到自己最想去的大公司。找小公司成本很高, 投的时候麻烦而且又没面试。
【时间线】 17年2月,开始上JIUZHANG算法初级课,刷题,断断续续到6,7月吧。(***如果找ds,刷题没用,看后文) 期间,边玩边刷剧边复习,复习内容后面会说。 7月中,开始投简历,以小公司为主。开始断断续续的电面等等。 9月中,开始投最想去的一波公司(FLG等其他共10个左右吧)。 10月, 第一个onsite 小公司,fail。这段时间基本2周一个onsite,去了三次。 11月,确认offer,谈价钱,完事。
再说开始投简历之前的准备: 第一,  先搞明白自己到底想做什么。   最开始,在data scientist 和machine learning engineer 之间摇摆不定。MLE么,一来很火,钱多多了,还有也更偏技术点,我bf强推我走这条路。于是开始了刷题之路。 最后,没选择走mle,坚持了ds。一是虽然会编程,但是没上过正经的算法课,刷题基础不好,看题刷题很痛苦。二是,结合了自己的兴趣和能力,衡量下了之后觉得ds这种通才更适合我个人发展。个别公司给了面mle的机会,有的take了,结果发现自己水平也不够,有的就直接拒了。 小心提示下: linkedin的ds和mle不可以同时面,只能2选1。 Fb,apple可以同时面,面试结果互不影响。 第二,  列出公司列表,按自己想去不想去的程度,分出几个档次。然后倒着投。我还是建议把最想去的公司放倒最后。面试是一个学习进步的过程。前期不管是跟人聊自己的经历,proj也好,面tech聊ML的可以帮助自己找到知识点的查缺补漏等等,我觉得这对后来面大公司很有帮助。 第三,  心态调整。面试是个双向选择,互相平等选择的过程。表现在去面试的时候,要显得自信而不自傲。和面试官平等沟通。把面试当成去公司上班的一天,去和同事解决问题的一天就会轻松很多了。 【面试范围】 从简单到难,目前我观察ds面试主要有3块,一是处理数据的能力,flg都是靠考察sql能力为主;二是所谓的product analytics,这块比较虚了(很难复习),考察的内容很宽泛; 第三是统计,概率和machine learning,我复习的较少,认为基础还行吧,主要是上课学过。 根据我自己的情况,我花的时间大概是10% - 50% - 40% 吧。很多也在日常积累中。 【要不要刷题???】 我的回答,如果是面ds,真心不用。类似leetcode那种算法题,完全没考到! 如果你面的title是mle, 或者software engineer-data science/machine learning/data mining 这种的,一定一定要刷。
【Sql复习资料】 如果你连sql是啥都不知道,建议从这门课学起: https://lagunita.stanford.edu/courses/Engineering/db/2014_1/about 只看开头和relational database 两章足够。 https://community.modeanalytics.com/sql/tutorial/introduction-to-sql/
如果你已经很熟悉sql,日常工作中有用到,稍微复习下这些题目足够了: https://leetcode.com/problemset/database/
【product sense 复习资料】 1.       学习管理咨询那套解决问题的框架: 朋友推荐看的书是case in point, Case Interview Secrets (我都没看,没时间) 我推荐的是听后者作者的一个讲座,look over my shoulder,具体过8个case。每个case都有3个面试者,然后victor cheng分别点评,提出改进建议。这个我在喜马拉雅fm app上听的,免费: http://www.ximalaya.com/5269453/album/6414597/ 我一共听了3+次,开车听。 2.       Product design: 我看了这个: https://classroom.udacity.com/courses/ud509
3.       一定要复习的是ab test. 我对ab test 是完全没任何工作经验的,所以从0 开始学习。我看了以下材料 (按顺序): 首先,系统学习下什么是ab test(个人完整看了3次以上,认真写了笔记,每次去onsite的飞机上都是复习这个笔记) https://classroom.udacity.com/courses/ud257 然后,我看了这个:A/B Testing for Business Analysts https://classroom.udacity.com/courses/ud979 看一次,主要理解了randomize design and paired design, 第一个课里没仔细讲的。还有这个课非常短,适合短时间看一下的。
最后上这个https://community.modeanalytics.com/sql/tutorial/sql-business-analytics-training/ 因为学习了很久,我一直的疑惑就是实际工作中到底怎么展开研究一个问题? 到底什么是正确答案?这个系列training解答了我很多疑惑,而且也结合了sql的处理,一定建议对每个图,打开右上角的view query in Mode,建立从提出问题到数据处理之间的联系。
4.       补充的资料,时间不够可以不看了的 Model building and validation: 理解所谓的QMV process, questionè model è validation.  以下这个课我是加速看的前3章。 https://classroom.udacity.com/courses/ud919
【stats, probability, machine learning 复习资料】 Stats 我复习的少,主要针对tests, hypothesis testing 看了一下这些: 1.       Intro to Inferential Statistics:https://classroom.udacity.com/courses/ud201 主要看了estimate, hypo testing 这2个,其他也来不及了没看。 2.       Penn state university的stats 414, 415. https://onlinecourses.science.psu.edu/stat414/ 哪里知识缺了就来补看一下。 【Probability】 我看了2个: 1.       https://brilliant.org/courses/probability/ (强烈推荐) 我做了前面5个course的免费题目,看了解答。主要是Bayes rule, conditional probability, expection 这些概念的理解和灵活应用。 2.       https://www.amazon.com/Practical-Guide-Quantitative-Finance-Interviews/dp/1438236662 一般是推荐给面quant的人的,我看了其中概率题的那章。忘记是哪个了。。。
【machine learning】 这部分我主动复习的很少了,在学校上过课+我bf是做这个方向的,他帮我复习了各个算法的情况,优劣势等等。具体到面试中,考察的内容比如是,提出什么问题,收集那些数据,用什么feature,哪些transformation, 如何data cleaning, 如何选模型?如何evaluate model etc。。。我自己写了个笔记,就写面到的,错过的,想到的知识点等等。要面试前会复习的。 如果对ml完全没经验,参考别人的帖子吧。。。
Overall, ds跳槽的面经推荐阅读: 这个面经写的非常好!!有很多我没cover的点,比如怎么写简历,linkedin, network,如何安排时间等等,请一定看一下~
【我是刚毕业怎么办?】 建议第一份工作也许不能是dream job ,但一定要有一些值得你去的点,是和你的dream job 相关联的。衡量工作的内容,想想以后写在简历上会不会添彩?比如你想做ds,但如果现在一份工作要求你天天用sas,真心建议别去了。如果你想做MLE, 但现在一个工作要求你用tableau 做reporting?也别去了。
最后,有问题的话麻烦回帖,大家一起来讨论。不要私信。如果你非要私信我我也不回的,请尊重我的要求。

supermuyes 发表于 12/10/2017 11:03:18 PM mark thanks
r
ruuuyi
116 楼
太厉害了 给mm点赞
t
tsingyang2010
117 楼
mark,谢谢分享
a
acoring
118 楼
ds mark!!!
t
ttnao
119 楼

mark.
C
CPA
120 楼
谢谢楼主分享
p
pyl_hr
121 楼
DS, 这个贴要强RE
a
anyme
122 楼
THANks lz
t
tearofish
123 楼
mark.谢谢lz推荐。我也在找这方面的工作,发现没有工作经验,工作好难找。
g
guoruijiao
124 楼
谢谢分享!
r
rocinante2
125 楼
多谢总结分享,楼主思路清晰,非常 organized ---发自Huaren 官方 iOS APP
m
msluck
126 楼
markkkkkkkkkkk
i
ivy_best
127 楼
Mark mark, 写得真好
i
izz.ling
128 楼

来回报论坛了,说说自己近期面试data scientist 的经验。
背景:ms systems engineering + 2yr work experience in a small (not start-up) company, daily responsibility includes data analysis, modeling, machine learning, some text mining, some big data analysis. 不做任何reporting and visualization,也没有所谓的product analytics (experiment design),和flg要求的有较大差距。 Skill set (括号代表非常真实的工作时间分布): r (70%), sql(10%), python(10%), spark (specifically, pySpark, 10%). 坛里一定有很多比我牛的人啦,我只是新人一个。在这里我只想给出一个非牛人,但挺努力有目标的人会怎么准备。目标是想去湾区做ds。
先说结果: 投了40家左右 Offer: fb, google Rej: Linkedin and a startup (onsite rej) twitter (after 2 tech interview) Apple (不同组跟4个hm聊过,最终有被拒也有withdraw) Uber (failed first tech interview) Airbnb (failed on data challenge) 还有好多其他公司,有的跟hr聊聊发现不合适,有,有的默拒,有的好歹还告诉你一下被拒了。 总结下:就是太小的公司,投了也白投,直接简历悲剧。我大概投了25+小公司,只3个好歹给我电面。其他就是没消息。 所以觉得自己背景还不错的朋友,建议安排面试的时候,从不太想去的中/大公司开始,到自己最想去的大公司。找小公司成本很高, 投的时候麻烦而且又没面试。
【时间线】 17年2月,开始上JIUZHANG算法初级课,刷题,断断续续到6,7月吧。(***如果找ds,刷题没用,看后文) 期间,边玩边刷剧边复习,复习内容后面会说。 7月中,开始投简历,以小公司为主。开始断断续续的电面等等。 9月中,开始投最想去的一波公司(FLG等其他共10个左右吧)。 10月, 第一个onsite 小公司,fail。这段时间基本2周一个onsite,去了三次。 11月,确认offer,谈价钱,完事。
再说开始投简历之前的准备: 第一,  先搞明白自己到底想做什么。   最开始,在data scientist 和machine learning engineer 之间摇摆不定。MLE么,一来很火,钱多多了,还有也更偏技术点,我bf强推我走这条路。于是开始了刷题之路。 最后,没选择走mle,坚持了ds。一是虽然会编程,但是没上过正经的算法课,刷题基础不好,看题刷题很痛苦。二是,结合了自己的兴趣和能力,衡量下了之后觉得ds这种通才更适合我个人发展。个别公司给了面mle的机会,有的take了,结果发现自己水平也不够,有的就直接拒了。 小心提示下: linkedin的ds和mle不可以同时面,只能2选1。 Fb,apple可以同时面,面试结果互不影响。 第二,  列出公司列表,按自己想去不想去的程度,分出几个档次。然后倒着投。我还是建议把最想去的公司放倒最后。面试是一个学习进步的过程。前期不管是跟人聊自己的经历,proj也好,面tech聊ML的可以帮助自己找到知识点的查缺补漏等等,我觉得这对后来面大公司很有帮助。 第三,  心态调整。面试是个双向选择,互相平等选择的过程。表现在去面试的时候,要显得自信而不自傲。和面试官平等沟通。把面试当成去公司上班的一天,去和同事解决问题的一天就会轻松很多了。 【面试范围】 从简单到难,目前我观察ds面试主要有3块,一是处理数据的能力,flg都是靠考察sql能力为主;二是所谓的product analytics,这块比较虚了(很难复习),考察的内容很宽泛; 第三是统计,概率和machine learning,我复习的较少,认为基础还行吧,主要是上课学过。 根据我自己的情况,我花的时间大概是10% - 50% - 40% 吧。很多也在日常积累中。 【要不要刷题???】 我的回答,如果是面ds,真心不用。类似leetcode那种算法题,完全没考到! 如果你面的title是mle, 或者software engineer-data science/machine learning/data mining 这种的,一定一定要刷。
【Sql复习资料】 如果你连sql是啥都不知道,建议从这门课学起: https://lagunita.stanford.edu/courses/Engineering/db/2014_1/about 只看开头和relational database 两章足够。 https://community.modeanalytics.com/sql/tutorial/introduction-to-sql/
如果你已经很熟悉sql,日常工作中有用到,稍微复习下这些题目足够了: https://leetcode.com/problemset/database/
【product sense 复习资料】 1.       学习管理咨询那套解决问题的框架: 朋友推荐看的书是case in point, Case Interview Secrets (我都没看,没时间) 我推荐的是听后者作者的一个讲座,look over my shoulder,具体过8个case。每个case都有3个面试者,然后victor cheng分别点评,提出改进建议。这个我在喜马拉雅fm app上听的,免费: http://www.ximalaya.com/5269453/album/6414597/ 我一共听了3+次,开车听。 2.       Product design: 我看了这个: https://classroom.udacity.com/courses/ud509
3.       一定要复习的是ab test. 我对ab test 是完全没任何工作经验的,所以从0 开始学习。我看了以下材料 (按顺序): 首先,系统学习下什么是ab test(个人完整看了3次以上,认真写了笔记,每次去onsite的飞机上都是复习这个笔记) https://classroom.udacity.com/courses/ud257 然后,我看了这个:A/B Testing for Business Analysts https://classroom.udacity.com/courses/ud979 看一次,主要理解了randomize design and paired design, 第一个课里没仔细讲的。还有这个课非常短,适合短时间看一下的。
最后上这个https://community.modeanalytics.com/sql/tutorial/sql-business-analytics-training/ 因为学习了很久,我一直的疑惑就是实际工作中到底怎么展开研究一个问题? 到底什么是正确答案?这个系列training解答了我很多疑惑,而且也结合了sql的处理,一定建议对每个图,打开右上角的view query in Mode,建立从提出问题到数据处理之间的联系。
4.       补充的资料,时间不够可以不看了的 Model building and validation: 理解所谓的QMV process, questionè model è validation.  以下这个课我是加速看的前3章。 https://classroom.udacity.com/courses/ud919
【stats, probability, machine learning 复习资料】 Stats 我复习的少,主要针对tests, hypothesis testing 看了一下这些: 1.       Intro to Inferential Statistics:https://classroom.udacity.com/courses/ud201 主要看了estimate, hypo testing 这2个,其他也来不及了没看。 2.       Penn state university的stats 414, 415. https://onlinecourses.science.psu.edu/stat414/ 哪里知识缺了就来补看一下。 【Probability】 我看了2个: 1.       https://brilliant.org/courses/probability/ (强烈推荐) 我做了前面5个course的免费题目,看了解答。主要是Bayes rule, conditional probability, expection 这些概念的理解和灵活应用。 2.       https://www.amazon.com/Practical-Guide-Quantitative-Finance-Interviews/dp/1438236662 一般是推荐给面quant的人的,我看了其中概率题的那章。忘记是哪个了。。。
【machine learning】 这部分我主动复习的很少了,在学校上过课+我bf是做这个方向的,他帮我复习了各个算法的情况,优劣势等等。具体到面试中,考察的内容比如是,提出什么问题,收集那些数据,用什么feature,哪些transformation, 如何data cleaning, 如何选模型?如何evaluate model etc。。。我自己写了个笔记,就写面到的,错过的,想到的知识点等等。要面试前会复习的。 如果对ml完全没经验,参考别人的帖子吧。。。
Overall, ds跳槽的面经推荐阅读: 这个面经写的非常好!!有很多我没cover的点,比如怎么写简历,linkedin, network,如何安排时间等等,请一定看一下~
【我是刚毕业怎么办?】 建议第一份工作也许不能是dream job ,但一定要有一些值得你去的点,是和你的dream job 相关联的。衡量工作的内容,想想以后写在简历上会不会添彩?比如你想做ds,但如果现在一份工作要求你天天用sas,真心建议别去了。如果你想做MLE, 但现在一个工作要求你用tableau 做reporting?也别去了。
最后,有问题的话麻烦回帖,大家一起来讨论。不要私信。如果你非要私信我我也不回的,请尊重我的要求。

supermuyes 发表于 12/10/2017 11:03:18 PM
q
qnqnlin
129 楼

来回报论坛了,说说自己近期面试data scientist 的经验。 背景:ms systems engineering + 2yr work experience in a small (not start-up) company, daily responsibility includes data analysis, modeling, machine learning, some text mining, some big data analysis. 不做任何reporting and visualization,也没有所谓的product analytics (experiment design),和flg要求的有较大差距。 Skill set (括号代表非常真实的工作时间分布): r (70%), sql(10%), python(10%), spark (specifically, pySpark, 10%). 坛里一定有很多比我牛的人啦,我只是新人一个。在这里我只想给出一个非牛人,但挺努力有目标的人会怎么准备。目标是想去湾区做ds。 先说结果: 投了40家左右 Offer: fb, google Rej: Linkedin and a startup (onsite rej) twitter (after 2 tech interview) Apple (不同组跟4个hm聊过,最终有被拒也有withdraw) Uber (failed first tech interview) Airbnb (failed on data challenge) 还有好多其他公司,有的跟hr聊聊发现不合适,有,有的默拒,有的好歹还告诉你一下被拒了。 总结下:就是太小的公司,投了也白投,直接简历悲剧。我大概投了25+小公司,只3个好歹给我电面。其他就是没消息。 所以觉得自己背景还不错的朋友,建议安排面试的时候,从不太想去的中/大公司开始,到自己最想去的大公司。找小公司成本很高, 投的时候麻烦而且又没面试。 【时间线】 17年2月,开始上JIUZHANG算法初级课,刷题,断断续续到6,7月吧。(***如果找ds,刷题没用,看后文) 期间,边玩边刷剧边复习,复习内容后面会说。 7月中,开始投简历,以小公司为主。开始断断续续的电面等等。 9月中,开始投最想去的一波公司(FLG等其他共10个左右吧)。 10月, 第一个onsite 小公司,fail。这段时间基本2周一个onsite,去了三次。 11月,确认offer,谈价钱,完事。 再说开始投简历之前的准备: 第一,  先搞明白自己到底想做什么。   最开始,在data scientist 和machine learning engineer 之间摇摆不定。MLE么,一来很火,钱多多了,还有也更偏技术点,我bf强推我走这条路。于是开始了刷题之路。 最后,没选择走mle,坚持了ds。一是虽然会编程,但是没上过正经的算法课,刷题基础不好,看题刷题很痛苦。二是,结合了自己的兴趣和能力,衡量下了之后觉得ds这种通才更适合我个人发展。个别公司给了面mle的机会,有的take了,结果发现自己水平也不够,有的就直接拒了。 小心提示下: linkedin的ds和mle不可以同时面,只能2选1。 Fb,apple可以同时面,面试结果互不影响。 第二,  列出公司列表,按自己想去不想去的程度,分出几个档次。然后倒着投。我还是建议把最想去的公司放倒最后。面试是一个学习进步的过程。前期不管是跟人聊自己的经历,proj也好,面tech聊ML的可以帮助自己找到知识点的查缺补漏等等,我觉得这对后来面大公司很有帮助。 第三,  心态调整。面试是个双向选择,互相平等选择的过程。表现在去面试的时候,要显得自信而不自傲。和面试官平等沟通。把面试当成去公司上班的一天,去和同事解决问题的一天就会轻松很多了。 【面试范围】 从简单到难,目前我观察ds面试主要有3块,一是处理数据的能力,flg都是靠考察sql能力为主;二是所谓的product analytics,这块比较虚了(很难复习),考察的内容很宽泛; 第三是统计,概率和machine learning,我复习的较少,认为基础还行吧,主要是上课学过。 根据我自己的情况,我花的时间大概是10% - 50% - 40% 吧。很多也在日常积累中。 【要不要刷题???】 我的回答,如果是面ds,真心不用。类似leetcode那种算法题,完全没考到! 如果你面的title是mle, 或者software engineer-data science/machine learning/data mining 这种的,一定一定要刷。 【Sql复习资料】 如果你连sql是啥都不知道,建议从这门课学起: https://lagunita.stanford.edu/courses/Engineering/db/2014_1/about 只看开头和relational database 两章足够。 https://community.modeanalytics.com/sql/tutorial/introduction-to-sql/ 如果你已经很熟悉sql,日常工作中有用到,稍微复习下这些题目足够了: https://leetcode.com/problemset/database/ 【product sense 复习资料】 1.       学习管理咨询那套解决问题的框架: 朋友推荐看的书是case in point, Case Interview Secrets (我都没看,没时间) 我推荐的是听后者作者的一个讲座,look over my shoulder,具体过8个case。每个case都有3个面试者,然后victor cheng分别点评,提出改进建议。这个我在喜马拉雅fm app上听的,免费: http://www.ximalaya.com/5269453/album/6414597/ 我一共听了3+次,开车听。 2.       Product design: 我看了这个: https://classroom.udacity.com/courses/ud509 3.       一定要复习的是ab test. 我对ab test 是完全没任何工作经验的,所以从0 开始学习。我看了以下材料 (按顺序): 首先,系统学习下什么是ab test(个人完整看了3次以上,认真写了笔记,每次去onsite的飞机上都是复习这个笔记) https://classroom.udacity.com/courses/ud257 然后,我看了这个:A/B Testing for Business Analysts https://classroom.udacity.com/courses/ud979 看一次,主要理解了randomize design and paired design, 第一个课里没仔细讲的。还有这个课非常短,适合短时间看一下的。 最后上这个https://community.modeanalytics.com/sql/tutorial/sql-business-analytics-training/ 因为学习了很久,我一直的疑惑就是实际工作中到底怎么展开研究一个问题? 到底什么是正确答案?这个系列training解答了我很多疑惑,而且也结合了sql的处理,一定建议对每个图,打开右上角的view query in Mode,建立从提出问题到数据处理之间的联系。 4.       补充的资料,时间不够可以不看了的 Model building and validation: 理解所谓的QMV process, questionè model è validation.  以下这个课我是加速看的前3章。 https://classroom.udacity.com/courses/ud919 【stats, probability, machine learning 复习资料】 Stats 我复习的少,主要针对tests, hypothesis testing 看了一下这些: 1.       Intro to Inferential Statistics:https://classroom.udacity.com/courses/ud201 主要看了estimate, hypo testing 这2个,其他也来不及了没看。 2.       Penn state university的stats 414, 415. https://onlinecourses.science.psu.edu/stat414/ 哪里知识缺了就来补看一下。 【Probability】 我看了2个: 1.       https://brilliant.org/courses/probability/ (强烈推荐) 我做了前面5个course的免费题目,看了解答。主要是Bayes rule, conditional probability, expection 这些概念的理解和灵活应用。 2.       https://www.amazon.com/Practical-Guide-Quantitative-Finance-Interviews/dp/1438236662 一般是推荐给面quant的人的,我看了其中概率题的那章。忘记是哪个了。。。
【machine learning】 这部分我主动复习的很少了,在学校上过课+我bf是做这个方向的,他帮我复习了各个算法的情况,优劣势等等。具体到面试中,考察的内容比如是,提出什么问题,收集那些数据,用什么feature,哪些transformation, 如何data cleaning, 如何选模型?如何evaluate model etc。。。我自己写了个笔记,就写面到的,错过的,想到的知识点等等。要面试前会复习的。 如果对ml完全没经验,参考别人的帖子吧。。。 Overall, ds跳槽的面经推荐阅读: 这个面经写的非常好!!有很多我没cover的点,比如怎么写简历,linkedin, network,如何安排时间等等,请一定看一下~ 【我是刚毕业怎么办?】 建议第一份工作也许不能是dream job ,但一定要有一些值得你去的点,是和你的dream job 相关联的。衡量工作的内容,想想以后写在简历上会不会添彩?比如你想做ds,但如果现在一份工作要求你天天用sas,真心建议别去了。如果你想做MLE, 但现在一个工作要求你用tableau 做reporting?也别去了。 最后,有问题的话麻烦回帖,大家一起来讨论。不要私信。如果你非要私信我我也不回的,请尊重我的要求。

supermuyes 发表于 12/10/2017 11:03:18 PM
强re,谢谢分享 ---发自Huaren 官方 iOS APP
L
Lcynthia500
130 楼
回复 1楼supermuyes的帖子

多谢分享. 请教一个小白的问题, 楼主说的ds是不是专门针对tech公司的ds, 为啥最后说SAS没用呢, 很多healthcare领域的公司和大银行啥的不都用SAS吗.
C
Chengzi1128
131 楼
赞!谢谢🙏
d
duanran25
132 楼
mm,我想提个问题,data scientist 和 MLE的工作内容有什么不同呢?
u
ultraviolet
133 楼
mark...恭喜恭喜!
e
ephemeron
134 楼
mm,我想提个问题,data scientist 和 MLE的工作内容有什么不同呢?
duanran25 发表于 12/11/2017 2:53:09 PM
同问!另外想问问这两个职位的收入差别有多大?
y
yeziyu
135 楼
谢谢分享!写得好!
p
pxqteam
136 楼
恭喜恭喜🎊🎈🍾️ ---发自Huaren 官方 iOS APP
h
hongri
137 楼
Mark mark mark
f
flypeter
138 楼
楼主好人,太详细了,谢谢!
m
mastmyy
139 楼
Mark mark! 谢谢楼主!
c
cclmm
140 楼
markmark
l
littleding
141 楼
mark,正在同统计转过去。。。。
s
susancoffee
142 楼
mark~谢谢lz~都是干货~
k
kaneweng
143 楼
mark mark
小蛇盘兔
144 楼
写的真好 喜欢看这样的贴子
w
wjymay
145 楼
Mark........
p
pinpin2009
146 楼
thanks for sharing
w
wojiuaihuaban
147 楼
满满的干货,赞一个
m
mellowpiano
148 楼
thanks for sharing
潇潇love
149 楼
Markmark
走走看看吧
150 楼
谢谢,好详细!
o
ouneo
151 楼
太棒的帖子了,都是干货,谢谢lz
w
williamzwly
152 楼
thx for sharing!!!
l
llqivy
153 楼
Thx mark
l
lilimarah
154 楼
很棒,无奈我stats background也没进去tech company,惭愧惭愧,向你学习
f
fmsunshine
155 楼

来回报论坛了,说说自己近期面试data scientist 的经验。
背景:ms systems engineering + 2yr work experience in a small (not start-up) company, daily responsibility includes data analysis, modeling, machine learning, some text mining, some big data analysis. 不做任何reporting and visualization,也没有所谓的product analytics (experiment design),和flg要求的有较大差距。 Skill set (括号代表非常真实的工作时间分布): r (70%), sql(10%), python(10%), spark (specifically, pySpark, 10%). 坛里一定有很多比我牛的人啦,我只是新人一个。在这里我只想给出一个非牛人,但挺努力有目标的人会怎么准备。目标是想去湾区做ds。
先说结果: 投了40家左右 Offer: fb, google Rej: Linkedin and a startup (onsite rej) twitter (after 2 tech interview) Apple (不同组跟4个hm聊过,最终有被拒也有withdraw) Uber (failed first tech interview) Airbnb (failed on data challenge) 还有好多其他公司,有的跟hr聊聊发现不合适,有,有的默拒,有的好歹还告诉你一下被拒了。 总结下:就是太小的公司,投了也白投,直接简历悲剧。我大概投了25+小公司,只3个好歹给我电面。其他就是没消息。 所以觉得自己背景还不错的朋友,建议安排面试的时候,从不太想去的中/大公司开始,到自己最想去的大公司。找小公司成本很高, 投的时候麻烦而且又没面试。
【时间线】 17年2月,开始上JIUZHANG算法初级课,刷题,断断续续到6,7月吧。(***如果找ds,刷题没用,看后文) 期间,边玩边刷剧边复习,复习内容后面会说。 7月中,开始投简历,以小公司为主。开始断断续续的电面等等。 9月中,开始投最想去的一波公司(FLG等其他共10个左右吧)。 10月, 第一个onsite 小公司,fail。这段时间基本2周一个onsite,去了三次。 11月,确认offer,谈价钱,完事。
再说开始投简历之前的准备: 第一,  先搞明白自己到底想做什么。   最开始,在data scientist 和machine learning engineer 之间摇摆不定。MLE么,一来很火,钱多多了,还有也更偏技术点,我bf强推我走这条路。于是开始了刷题之路。 最后,没选择走mle,坚持了ds。一是虽然会编程,但是没上过正经的算法课,刷题基础不好,看题刷题很痛苦。二是,结合了自己的兴趣和能力,衡量下了之后觉得ds这种通才更适合我个人发展。个别公司给了面mle的机会,有的take了,结果发现自己水平也不够,有的就直接拒了。 小心提示下: linkedin的ds和mle不可以同时面,只能2选1。 Fb,apple可以同时面,面试结果互不影响。 第二,  列出公司列表,按自己想去不想去的程度,分出几个档次。然后倒着投。我还是建议把最想去的公司放倒最后。面试是一个学习进步的过程。前期不管是跟人聊自己的经历,proj也好,面tech聊ML的可以帮助自己找到知识点的查缺补漏等等,我觉得这对后来面大公司很有帮助。 第三,  心态调整。面试是个双向选择,互相平等选择的过程。表现在去面试的时候,要显得自信而不自傲。和面试官平等沟通。把面试当成去公司上班的一天,去和同事解决问题的一天就会轻松很多了。 【面试范围】 从简单到难,目前我观察ds面试主要有3块,一是处理数据的能力,flg都是靠考察sql能力为主;二是所谓的product analytics,这块比较虚了(很难复习),考察的内容很宽泛; 第三是统计,概率和machine learning,我复习的较少,认为基础还行吧,主要是上课学过。 根据我自己的情况,我花的时间大概是10% - 50% - 40% 吧。很多也在日常积累中。 【要不要刷题???】 我的回答,如果是面ds,真心不用。类似leetcode那种算法题,完全没考到! 如果你面的title是mle, 或者software engineer-data science/machine learning/data mining 这种的,一定一定要刷。
【Sql复习资料】 如果你连sql是啥都不知道,建议从这门课学起: https://lagunita.stanford.edu/courses/Engineering/db/2014_1/about 只看开头和relational database 两章足够。 https://community.modeanalytics.com/sql/tutorial/introduction-to-sql/
如果你已经很熟悉sql,日常工作中有用到,稍微复习下这些题目足够了: https://leetcode.com/problemset/database/
【product sense 复习资料】 1.       学习管理咨询那套解决问题的框架: 朋友推荐看的书是case in point, Case Interview Secrets (我都没看,没时间) 我推荐的是听后者作者的一个讲座,look over my shoulder,具体过8个case。每个case都有3个面试者,然后victor cheng分别点评,提出改进建议。这个我在喜马拉雅fm app上听的,免费: http://www.ximalaya.com/5269453/album/6414597/ 我一共听了3+次,开车听。 2.       Product design: 我看了这个: https://classroom.udacity.com/courses/ud509
3.       一定要复习的是ab test. 我对ab test 是完全没任何工作经验的,所以从0 开始学习。我看了以下材料 (按顺序): 首先,系统学习下什么是ab test(个人完整看了3次以上,认真写了笔记,每次去onsite的飞机上都是复习这个笔记) https://classroom.udacity.com/courses/ud257 然后,我看了这个:A/B Testing for Business Analysts https://classroom.udacity.com/courses/ud979 看一次,主要理解了randomize design and paired design, 第一个课里没仔细讲的。还有这个课非常短,适合短时间看一下的。
最后上这个https://community.modeanalytics.com/sql/tutorial/sql-business-analytics-training/ 因为学习了很久,我一直的疑惑就是实际工作中到底怎么展开研究一个问题? 到底什么是正确答案?这个系列training解答了我很多疑惑,而且也结合了sql的处理,一定建议对每个图,打开右上角的view query in Mode,建立从提出问题到数据处理之间的联系。
4.       补充的资料,时间不够可以不看了的 Model building and validation: 理解所谓的QMV process, questionè model è validation.  以下这个课我是加速看的前3章。 https://classroom.udacity.com/courses/ud919
【stats, probability, machine learning 复习资料】 Stats 我复习的少,主要针对tests, hypothesis testing 看了一下这些: 1.       Intro to Inferential Statistics:https://classroom.udacity.com/courses/ud201 主要看了estimate, hypo testing 这2个,其他也来不及了没看。 2.       Penn state university的stats 414, 415. https://onlinecourses.science.psu.edu/stat414/ 哪里知识缺了就来补看一下。 【Probability】 我看了2个: 1.       https://brilliant.org/courses/probability/ (强烈推荐) 我做了前面5个course的免费题目,看了解答。主要是Bayes rule, conditional probability, expection 这些概念的理解和灵活应用。 2.       https://www.amazon.com/Practical-Guide-Quantitative-Finance-Interviews/dp/1438236662 一般是推荐给面quant的人的,我看了其中概率题的那章。忘记是哪个了。。。
【machine learning】 这部分我主动复习的很少了,在学校上过课+我bf是做这个方向的,他帮我复习了各个算法的情况,优劣势等等。具体到面试中,考察的内容比如是,提出什么问题,收集那些数据,用什么feature,哪些transformation, 如何data cleaning, 如何选模型?如何evaluate model etc。。。我自己写了个笔记,就写面到的,错过的,想到的知识点等等。要面试前会复习的。 如果对ml完全没经验,参考别人的帖子吧。。。
Overall, ds跳槽的面经推荐阅读: 这个面经写的非常好!!有很多我没cover的点,比如怎么写简历,linkedin, network,如何安排时间等等,请一定看一下~
【我是刚毕业怎么办?】 建议第一份工作也许不能是dream job ,但一定要有一些值得你去的点,是和你的dream job 相关联的。衡量工作的内容,想想以后写在简历上会不会添彩?比如你想做ds,但如果现在一份工作要求你天天用sas,真心建议别去了。如果你想做MLE, 但现在一个工作要求你用tableau 做reporting?也别去了。
最后,有问题的话麻烦回帖,大家一起来讨论。不要私信。如果你非要私信我我也不回的,请尊重我的要求。

supermuyes 发表于 12/10/2017 11:03:18 PM
Thanks so much for sharing
s
shuihuo
156 楼
mark, 谢谢楼主
s
sisi2001401
157 楼
先mark住!
c
crappie
158 楼
Thanks for sharing.
m
macancan
159 楼
太感谢了!!!
R
Raine_v
160 楼
马克!谢谢mm分享 ---发自Huaren 官方 iOS APP
t
tulipdream
161 楼
Thanks for sharing!
s
sphinxmao
162 楼
赞!希望自己也能成功
路人甲的马甲
163 楼
Thanks! Mark!
J
Joziezz
164 楼
太良心了!大大的赞!!!
s
smilexiaoxiao
165 楼
强mark! ---发自Huaren 官方 iOS APP
j
jessie329958
166 楼
mark....good tiezi
z
zhainv
167 楼
🙏分享
J
JeanDan
168 楼
mark,谢谢楼主分享
a
amelialily1
169 楼
Thanks for sharing!
来回报论坛了,说说自己近期面试data scientist 的经验。
背景:ms systems engineering + 2yr work experience in a small (not start-up) company, daily responsibility includes data analysis, modeling, machine learning, some text mining, some big data analysis. 不做任何reporting and visualization,也没有所谓的product analytics (experiment design),和flg要求的有较大差距。 Skill set (括号代表非常真实的工作时间分布): r (70%), sql(10%), python(10%), spark (specifically, pySpark, 10%). 坛里一定有很多比我牛的人啦,我只是新人一个。在这里我只想给出一个非牛人,但挺努力有目标的人会怎么准备。目标是想去湾区做ds。
先说结果: 投了40家左右 Offer: fb, google Rej: Linkedin and a startup (onsite rej) twitter (after 2 tech interview) Apple (不同组跟4个hm聊过,最终有被拒也有withdraw) Uber (failed first tech interview) Airbnb (failed on data challenge) 还有好多其他公司,有的跟hr聊聊发现不合适,有,有的默拒,有的好歹还告诉你一下被拒了。 总结下:就是太小的公司,投了也白投,直接简历悲剧。我大概投了25+小公司,只3个好歹给我电面。其他就是没消息。 所以觉得自己背景还不错的朋友,建议安排面试的时候,从不太想去的中/大公司开始,到自己最想去的大公司。找小公司成本很高, 投的时候麻烦而且又没面试。
【时间线】 17年2月,开始上JIUZHANG算法初级课,刷题,断断续续到6,7月吧。(***如果找ds,刷题没用,看后文) 期间,边玩边刷剧边复习,复习内容后面会说。 7月中,开始投简历,以小公司为主。开始断断续续的电面等等。 9月中,开始投最想去的一波公司(FLG等其他共10个左右吧)。 10月, 第一个onsite 小公司,fail。这段时间基本2周一个onsite,去了三次。 11月,确认offer,谈价钱,完事。
再说开始投简历之前的准备: 第一,  先搞明白自己到底想做什么。   最开始,在data scientist 和machine learning engineer 之间摇摆不定。MLE么,一来很火,钱多多了,还有也更偏技术点,我bf强推我走这条路。于是开始了刷题之路。 最后,没选择走mle,坚持了ds。一是虽然会编程,但是没上过正经的算法课,刷题基础不好,看题刷题很痛苦。二是,结合了自己的兴趣和能力,衡量下了之后觉得ds这种通才更适合我个人发展。个别公司给了面mle的机会,有的take了,结果发现自己水平也不够,有的就直接拒了。 小心提示下: linkedin的ds和mle不可以同时面,只能2选1。 Fb,apple可以同时面,面试结果互不影响。 第二,  列出公司列表,按自己想去不想去的程度,分出几个档次。然后倒着投。我还是建议把最想去的公司放倒最后。面试是一个学习进步的过程。前期不管是跟人聊自己的经历,proj也好,面tech聊ML的可以帮助自己找到知识点的查缺补漏等等,我觉得这对后来面大公司很有帮助。 第三,  心态调整。面试是个双向选择,互相平等选择的过程。表现在去面试的时候,要显得自信而不自傲。和面试官平等沟通。把面试当成去公司上班的一天,去和同事解决问题的一天就会轻松很多了。 【面试范围】 从简单到难,目前我观察ds面试主要有3块,一是处理数据的能力,flg都是靠考察sql能力为主;二是所谓的product analytics,这块比较虚了(很难复习),考察的内容很宽泛; 第三是统计,概率和machine learning,我复习的较少,认为基础还行吧,主要是上课学过。 根据我自己的情况,我花的时间大概是10% - 50% - 40% 吧。很多也在日常积累中。 【要不要刷题???】 我的回答,如果是面ds,真心不用。类似leetcode那种算法题,完全没考到! 如果你面的title是mle, 或者software engineer-data science/machine learning/data mining 这种的,一定一定要刷。
【Sql复习资料】 如果你连sql是啥都不知道,建议从这门课学起: https://lagunita.stanford.edu/courses/Engineering/db/2014_1/about 只看开头和relational database 两章足够。 https://community.modeanalytics.com/sql/tutorial/introduction-to-sql/
如果你已经很熟悉sql,日常工作中有用到,稍微复习下这些题目足够了: https://leetcode.com/problemset/database/
【product sense 复习资料】 1.       学习管理咨询那套解决问题的框架: 朋友推荐看的书是case in point, Case Interview Secrets (我都没看,没时间) 我推荐的是听后者作者的一个讲座,look over my shoulder,具体过8个case。每个case都有3个面试者,然后victor cheng分别点评,提出改进建议。这个我在喜马拉雅fm app上听的,免费: http://www.ximalaya.com/5269453/album/6414597/ 我一共听了3+次,开车听。 2.       Product design: 我看了这个: https://classroom.udacity.com/courses/ud509
3.       一定要复习的是ab test. 我对ab test 是完全没任何工作经验的,所以从0 开始学习。我看了以下材料 (按顺序): 首先,系统学习下什么是ab test(个人完整看了3次以上,认真写了笔记,每次去onsite的飞机上都是复习这个笔记) https://classroom.udacity.com/courses/ud257 然后,我看了这个:A/B Testing for Business Analysts https://classroom.udacity.com/courses/ud979 看一次,主要理解了randomize design and paired design, 第一个课里没仔细讲的。还有这个课非常短,适合短时间看一下的。
最后上这个https://community.modeanalytics.com/sql/tutorial/sql-business-analytics-training/ 因为学习了很久,我一直的疑惑就是实际工作中到底怎么展开研究一个问题? 到底什么是正确答案?这个系列training解答了我很多疑惑,而且也结合了sql的处理,一定建议对每个图,打开右上角的view query in Mode,建立从提出问题到数据处理之间的联系。
4.       补充的资料,时间不够可以不看了的 Model building and validation: 理解所谓的QMV process, questionè model è validation.  以下这个课我是加速看的前3章。 https://classroom.udacity.com/courses/ud919
【stats, probability, machine learning 复习资料】 Stats 我复习的少,主要针对tests, hypothesis testing 看了一下这些: 1.       Intro to Inferential Statistics:https://classroom.udacity.com/courses/ud201 主要看了estimate, hypo testing 这2个,其他也来不及了没看。 2.       Penn state university的stats 414, 415. https://onlinecourses.science.psu.edu/stat414/ 哪里知识缺了就来补看一下。 【Probability】 我看了2个: 1.       https://brilliant.org/courses/probability/ (强烈推荐) 我做了前面5个course的免费题目,看了解答。主要是Bayes rule, conditional probability, expection 这些概念的理解和灵活应用。 2.       https://www.amazon.com/Practical-Guide-Quantitative-Finance-Interviews/dp/1438236662 一般是推荐给面quant的人的,我看了其中概率题的那章。忘记是哪个了。。。
【machine learning】 这部分我主动复习的很少了,在学校上过课+我bf是做这个方向的,他帮我复习了各个算法的情况,优劣势等等。具体到面试中,考察的内容比如是,提出什么问题,收集那些数据,用什么feature,哪些transformation, 如何data cleaning, 如何选模型?如何evaluate model etc。。。我自己写了个笔记,就写面到的,错过的,想到的知识点等等。要面试前会复习的。 如果对ml完全没经验,参考别人的帖子吧。。。
Overall, ds跳槽的面经推荐阅读: 这个面经写的非常好!!有很多我没cover的点,比如怎么写简历,linkedin, network,如何安排时间等等,请一定看一下~
【我是刚毕业怎么办?】 建议第一份工作也许不能是dream job ,但一定要有一些值得你去的点,是和你的dream job 相关联的。衡量工作的内容,想想以后写在简历上会不会添彩?比如你想做ds,但如果现在一份工作要求你天天用sas,真心建议别去了。如果你想做MLE, 但现在一个工作要求你用tableau 做reporting?也别去了。
最后,有问题的话麻烦回帖,大家一起来讨论。不要私信。如果你非要私信我我也不回的,请尊重我的要求。

supermuyes 发表于 12/10/2017 11:03:18 PM
苹果兔
170 楼
mark~~~~~~~~~~~~~~~~~~~~~~
H
Highgirl
171 楼
谢谢分享
H
Happypig
172 楼
mark,谢谢楼主
s
spindrifter
173 楼
赞lz👍
i
iamnancy07
174 楼
mark!
未注册
175 楼
谢谢楼主分享,好帖
l
loliloli
176 楼
Mark 谢谢楼主分享!!
w
whitesides
177 楼
Mark, data science
b
brokegirl
178 楼
太赞了!准备转行了好久一直犹犹豫豫,好好像楼主学习!
兔兔_猪猪
179 楼
恭喜楼主~Mark~~
a
amberg0330
180 楼
wow~ very helpful!
r
rebeccaxuyi
181 楼
mark
l
luckyaya
182 楼
Zanzan!
r
rabbitonbear
183 楼
好帖,收藏了!
n
nacule
184 楼
马克!谢谢楼主大好人!
t
teriyakitty
185 楼
Mark
紫缄
186 楼
虽然和我没关系,但是很欣赏mm的认真和分享,手动点赞
t
tommo
187 楼
lz好棒 mark ds面试复习
h
hellomynini
188 楼
mark!
Thanks for sharing
s
sijiziwayiz66
189 楼
非常感谢lz的好帖子,我也打算明年三四月的时候开始跳槽,现在先准备着,lz的帖子实在是太及时了,我想问一下很傻的问题,lz是怎么瞒着现在的公司老板跳槽面试的呢?直接请假吗?
f
fight2015
190 楼
Markmark
e
exlboy
191 楼
Mark data scientist
t
tinifwife
192 楼
赞一下 写的好详细 ---发自Huaren 官方 iOS APP
l
little512
193 楼
mark! ds job
L
LiliSchugh
194 楼
太牛了~ 沾喜气。
e
everything
195 楼
又来看了一遍。感觉lz分享的都是干货。狂赞
t
tiaopi
196 楼
mark. 太赞了!
s
supermuyes
197 楼
非常好的帖子,辛苦楼主了! 想了解DS专业需要什么基础,大概几年能读下来?谢谢
Stefanie2015 发表于 12/10/2017 11:47:11 PM


我看到各种背景(数学统计政治商科精算物理还有当然很多工科的)的人都来学ds, business analytics 类似的ms学位,一般1-2年吧,看是me还是ms了。一般来说修过大学的数学课程是必须的吧。
s
supermuyes
198 楼
楼主说的DS和MLE的区别是什么?怎么感觉这些公司对DS的定义很狭窄,好像和以前的modeler, statistician 似的?真正的DS也是要做大量工作,包括清理数据,整合数据,还要控制模型如何在大数据平台上最高效的运行的。要不然只能等米下锅,完全被data engineer 牵着鼻子走了。
Yuanxi 发表于 12/11/2017 1:11:50 AM

我觉得在面试上区别是要不要考算法题,对coding能力的要求是完全不同的。 mle的面试基本电面全是算法题, onsite一半算法题,45分钟2个leedcode median or 1 median +1hard这种难度(我指的是FLG这种公司。小公司不清楚)。 ds对coding的能力要求就很简单了,清理,整合数据,flg 至少我看到的要求就是会用sql足够。
ds比mle更惨的点是,每个公司定义非常非常不一样!!!一定要了解清楚。尤其小公司,网上资料面经少,不按套路出牌,路子更野。
我觉得你说的真正的ds,也看公司怎么定义了。做模型控制模型的,至少fg的ds 不做。f里面是mle做点ml的模型,g里面是quantitative analyst做。uber, airbnb的ds据说模型做的多。
s
supermuyes
199 楼
多谢lz!
能问一下package 范围吗?被弯曲贫困线吓倒。另外你说到mle好像比ds有明显差异?能具体解释下吗?
面试过程中感觉对过往项目经验要求高吗?
kebler 发表于 12/11/2017 1:26:30 AM

pkg自己去glassdoor上看。还有这里: http://www.1point3acres.com/bbs/forum-237-1.html
都是很真实的信息。
ds和mle我认为base差别不大,但equity差很多。 mle= 码农。哪怕fresh的人进去,ds的股票大概是码农的一半甚至更少。
有经验后,我想那差异就更大了(但我不知道具体!)

面试过程中感觉对过往项目经验要求高吗?当然有的。 像数据处理我工作天天做,很熟悉,应该算很有经验的了。但也不要太害怕,仅对fg来说,我工作中几乎不做product analytics, 但是我能准备的出来,应付的面试,我觉得足够。面试过程自己感觉有进步。
s
supermuyes
200 楼

lz之前的工作,需要的技术data analysis 、modelling. 是不是已经大部分算是可以胜任ds工作了 (是的!) ,还是说你面试准备时学了很多新的技术,比如说an test.

chenbao 发表于 12/11/2017 12:56:38 PM

如果说新学,只是学了ab testing这套思路,还有产品分析的思路。别的对ds的要求,我觉得基本我的背景能match 70%以上吧。看jd如果差别大于自己的背景50% 以上就不要投了