看隔壁贴data scientist有感,说说自己对这行的理解(有更新)

a
aipple
101 楼
写得真好。第一种感觉挺轻松啊。还可以坐做到老
s
scootie
102 楼
chatbot 只是AI 的一部分,你从这个新闻就看出来fb的AI research 不行也是牛人,不过看你也不是做machine learning 的人,跟你说也是浪费生命...

熊熊ABC 发表于 3/22/2017 5:13:51 PM

笑死了,你要脸吗?谁跟你说fb的ai不行。。。我明明说的是fb已经开始砍ai spending了,也就是ai in general就是不行。真是无理也要辩三分。。。
你知道为什么ai in general 就是不行吗。你是刚入行的吧?这个说法十年前就有了,那时候还没big data什么事呢
人脑的学习过程分为理解,记忆,创造性三步。ai研究了几十年,早前就发现,单纯靠机器学习,永远也不能做到第三步。这就是为什么有过生物和机器结合做ai的理论
像你这种被骗入行蒙在鼓里的ds,本质上就跟生物千老没啥两样
f
fl1709319
103 楼
关注关注关注
m
majia20140808
104 楼
学习一下~
a
august婷婷
105 楼
谢谢楼主的分享,我也在考虑要不要改到data analyst去,因为只有这个专业和我苦逼的专业相关
M
Momokohime
106 楼
第三种这个,机会应该很少吧,估计要去研究所或者大公司的research center,都是牛人教授之类,比如IBM的watson, 微软研究中心...
y
youyouqiuqiu
107 楼
Mark mark 其实ds并不是什么新兴专业,本身就是大杂烩,某些ML的算法也存在好几十年了,对人的要求很高基本上要面面具到。
b
biubiubiubiubiu
108 楼
mark 正在转行DA的道路上 来学习经验
m
miss_cheerful
109 楼
mark~好贴~多谢
你什么你
110 楼
第一种有前途吗?竞争激烈的话待遇是不是也一般般,不好跳槽呢?
c
chryct
111 楼
赞总结。很同意lz的观点
c
chryct
112 楼
还有补充一下,data scientists 这个行头也是最近一两年才兴起的,一部分的人虽然叫ds,其实也就是data analyst而已,也就是lz说的第一类,工作性质类似,只是换了个名字。
s
sheryl
113 楼
楼主能写写怎么找工作吗?ld找了好几个月了,没有什么盼头呀,哭
x
xiaomaomiaomiao
114 楼

AI 没有大数据的技术支持,基本是不可能玩得转。deep learning也是NN的进阶版。60年代就有了。如果不是计算机技术的发展,还是科学幻想。我不明白怎么叫转人工智能,领域内只是越玩越高级了。人生三大梦想,无人驾驶,AI, 时光机,一个个都要实现了吗?

yangwendy 发表于 3/22/2017 5:14:12 PM
前两个和后一个不是一个量级的。因为前两个起码不违反物理定律,只是需要很多人的努力。sad news is时光机目前理论上都不支持,更不要说付诸实践了。所以mm的梦想在有生之年最多只能实现2/3,不过也很多了。
w
whiterocklake
115 楼
Thanks for sharing!
m
maxminicherry
116 楼
mark

☆ 发自 iPhone 华人一网 1.11.08
s
schrodingerh
117 楼
楼主能写写怎么找工作吗?ld找了好几个月了,没有什么盼头呀,哭
sheryl 发表于 3/22/2017 6:57:57 PM

同问
丁丁牛皮糖
118 楼
赞好文 顶
a
aimoyao
119 楼
mark
G
GTAgal
120 楼
我从IT reporting转到lz所谓的第一/二种结合部,本来想往编程走,但是觉得偏business的更有意思,也觉得会越老越吃香,外包机会也少。当然挣的不如编程多,不过年纪大了动不了脑子了 :)
小香鱼儿
121 楼
好贴,谢谢楼主的分享!
k
kengdie
122 楼
mark mark
i
igutn
123 楼
楼主等你等你等你
少艾007
124 楼
楼主请教一下, 如果CPA+ 某种语言 这种在您说的第一类发展前景如何呢, 谢谢
l
louka
125 楼
mark thanks
x
xiazheteng
126 楼
总结的很好。我第一和第二都做过。现在主要是第一个。在这个domain 已经很多年了,觉得很合适自己,工作也相对比较轻松。
s
sunny988
127 楼
先简单说一下自己的情况,lz苦逼专业转行过来,大龄,花了一年半时间准备,快两年的时候找到了第一份工作,期间换过一份工作,现在湾区某大公司任data scientist

data scientist 这个行业在大数据时代很火,很多学校也陆续开设了相关的数据专业项目,特点都是培训时间短,强度大,就业率高,所以这学费也是一涨再涨,我之前也研究过各个学校的数据项目,分析过利弊,也申请成功一个,不过各种原因没有读下去。关于数据专业的项目,以后有空再来讲,今天先讲这个行业是怎么回事吧

data scientist其实在每个公司的定位不一样,有些偏business,也就是所谓的data analyst, business intelligent, 有些偏技术,在偏技术的职位里,有偏统计的:比如做实验设计(ab test),做模型的prototype; 有些偏CS的,比如 machine learning in big data framework,现在很火的deep learning.

从收入来讲,基本偏编程的data scientist薪水最高,在编程的data scientist里, 做deep learning算法的薪水最高。某土豪公司的搞machine learning算法的薪水差不多平均half million

但是,咱们也得看自己是哪块料,对哪行感兴趣是不。下面我就慢慢分析每种data scientist是干啥的,以及skill set

偏business的:对技术要求最低,基本会个sql就行,如果再会个基本的语言,比如r, python甚至sas就可以了。对soft skill要求很高,因为要经常跟marketing team, pm team 打交道。日常工作就是pull data, data cleaning, data manipulation,看看有什么insights, 最后的结果有时候做个dash board, 有时候就是excel里弄个pivot table就行。但是一个好的data analyst是可以从这些数据里总结出有价值的insights,如果上面决定take action of your insights,对公司的business还是影响挺大的。其实这个是data analyst工作中最难的一点,真的需要一定的经验才可以培养出来。但是一旦做个1-2年上手了,工作会比较轻松。

偏技术的:先说偏统计的吧。这部分人介于data analyst跟machine learning engineer之间,对技术要求比较全面,既要会sql,也要会用编程语言写一些模型的prototype,比如predict churn rate,用最简单的logistic regression就可以解决,但是你的code不是用一次就行,要每个月,甚至每周都用,所以要搭建一些pipeline可以让这个过程automate一下。所以对编程还是有一定要求的。有些公司用的大数据框架,你可能就得用spark。python的同学都在用pyspark。另外还要有一定的business sense,知道你做的模型能够解决什么business 问题,有什么impact。另外还有一部分人专门做实验设计,这块我不是很懂,所以不多说了。我觉得这部分人其实是个full stack的要求。但是如果你是技术类型的,即便不是统计cs科班出身,努努力还是可以入行的。

偏machine learning的,这些一般都是计算机专业的人在做,需要很懂什么是分布式系统,他们的作用是把模型在大数据框架下impletement出来,或者在原有的模型构建好的pipeline里如何去优化一下这个过程。更高端一些的研究machine learning算法的,这部分人基本都是cs phd们在做。不是科班出身的很难混进去。

先说这么多了,我也是转行过来,可能对行业的理解还不是很透彻,希望对想转行的,或者还在迷茫中的姐妹们有些帮助。欢迎大家补充~~

今晚回来讲一下ds面试准备,还有入行后的发展方向吧, 先去上班了,又是忙碌的一天

whats_up 发表于 3/22/2017 2:45:25 AM
谢谢分享,LZ是什么专业转的?
s
suani
128 楼
赞科普
c
cjlmxbt
129 楼
先简单说一下自己的情况,lz苦逼专业转行过来,大龄,花了一年半时间准备,快两年的时候找到了第一份工作,期间换过一份工作,现在湾区某大公司任data scientist

data scientist 这个行业在大数据时代很火,很多学校也陆续开设了相关的数据专业项目,特点都是培训时间短,强度大,就业率高,所以这学费也是一涨再涨,我之前也研究过各个学校的数据项目,分析过利弊,也申请成功一个,不过各种原因没有读下去。关于数据专业的项目,以后有空再来讲,今天先讲这个行业是怎么回事吧

data scientist其实在每个公司的定位不一样,有些偏business,也就是所谓的data analyst, business intelligent, 有些偏技术,在偏技术的职位里,有偏统计的:比如做实验设计(ab test),做模型的prototype; 有些偏CS的,比如 machine learning in big data framework,现在很火的deep learning.

从收入来讲,基本偏编程的data scientist薪水最高,在编程的data scientist里, 做deep learning算法的薪水最高。某土豪公司的搞machine learning算法的薪水差不多平均half million

但是,咱们也得看自己是哪块料,对哪行感兴趣是不。下面我就慢慢分析每种data scientist是干啥的,以及skill set

偏business的:对技术要求最低,基本会个sql就行,如果再会个基本的语言,比如r, python甚至sas就可以了。对soft skill要求很高,因为要经常跟marketing team, pm team 打交道。日常工作就是pull data, data cleaning, data manipulation,看看有什么insights, 最后的结果有时候做个dash board, 有时候就是excel里弄个pivot table就行。但是一个好的data analyst是可以从这些数据里总结出有价值的insights,如果上面决定take action of your insights,对公司的business还是影响挺大的。其实这个是data analyst工作中最难的一点,真的需要一定的经验才可以培养出来。但是一旦做个1-2年上手了,工作会比较轻松。

偏技术的:先说偏统计的吧。这部分人介于data analyst跟machine learning engineer之间,对技术要求比较全面,既要会sql,也要会用编程语言写一些模型的prototype,比如predict churn rate,用最简单的logistic regression就可以解决,但是你的code不是用一次就行,要每个月,甚至每周都用,所以要搭建一些pipeline可以让这个过程automate一下。所以对编程还是有一定要求的。有些公司用的大数据框架,你可能就得用spark。python的同学都在用pyspark。另外还要有一定的business sense,知道你做的模型能够解决什么business 问题,有什么impact。另外还有一部分人专门做实验设计,这块我不是很懂,所以不多说了。我觉得这部分人其实是个full stack的要求。但是如果你是技术类型的,即便不是统计cs科班出身,努努力还是可以入行的。

偏machine learning的,这些一般都是计算机专业的人在做,需要很懂什么是分布式系统,他们的作用是把模型在大数据框架下impletement出来,或者在原有的模型构建好的pipeline里如何去优化一下这个过程。更高端一些的研究machine learning算法的,这部分人基本都是cs phd们在做。不是科班出身的很难混进去。

先说这么多了,我也是转行过来,可能对行业的理解还不是很透彻,希望对想转行的,或者还在迷茫中的姐妹们有些帮助。欢迎大家补充~~

今晚回来讲一下ds面试准备,还有入行后的发展方向吧, 先去上班了,又是忙碌的一天

whats_up 发表于 3/22/2017 2:45:25 AM

mark
p
peachpie
130 楼
mark mark
w
whats_up
131 楼
收到不少短信,实在没有时间一一回复,大家有问题都放在楼里吧,我有时间就帮着回答下
r
rebaccadan
132 楼
谢谢lz热心分享,赞!
l
lyxlyx
133 楼
跟我想法一样
盈盈红烛三生约
134 楼
生物坑跳出来的,做Data analyst,差不多就是r programming,偶尔一丢丢Python。
公司有专门的specialist根据数据结果写分析。 出什么数据也是比较八股的。
比起博后来,工资高了一截,轻松很多,家里有事就wfk,只有urgent request时候有点压力。
感觉太简单了,没有安全感,还在自学Data scientist的课,有机会换个技术要求高点的。
l
lovewriting123
135 楼

data scientist是干啥的

先简单说一下自己的情况,lz苦逼专业转行过来,大龄,花了一年半时间准备,快两年的时候找到了第一份工作,期间换过一份工作,现在湾区某大公司任data scientist

data scientist 这个行业在大数据时代很火,很多学校也陆续开设了相关的数据专业项目,特点都是培训时间短,强度大,就业率高,所以这学费也是一涨再涨,我之前也研究过各个学校的数据项目,分析过利弊,也申请成功一个,不过各种原因没有读下去。关于数据专业的项目,以后有空再来讲,今天先讲这个行业是怎么回事吧

data scientist其实在每个公司的定位不一样,有些偏business,也就是所谓的data analyst, business intelligent, 有些偏技术,在偏技术的职位里,有偏统计的:比如做实验设计(ab test),做模型的prototype; 有些偏CS的,比如 machine learning in big data framework,现在很火的deep learning.

从收入来讲,基本偏编程的data scientist薪水最高,在编程的data scientist里, 做deep learning算法的薪水最高。某土豪公司的搞machine learning算法的薪水差不多平均half million

但是,咱们也得看自己是哪块料,对哪行感兴趣是不。下面我就慢慢分析每种data scientist是干啥的,以及skill set

偏business的:对技术要求最低,基本会个sql就行,如果再会个基本的语言,比如r, python甚至sas就可以了。对soft skill要求很高,因为要经常跟marketing team, pm team 打交道。日常工作就是pull data, data cleaning, data manipulation,看看有什么insights, 最后的结果有时候做个dash board, 有时候就是excel里弄个pivot table就行。但是一个好的data analyst是可以从这些数据里总结出有价值的insights,如果上面决定take action of your insights,对公司的business还是影响挺大的。其实这个是data analyst工作中最难的一点,真的需要一定的经验才可以培养出来。但是一旦做个1-2年上手了,工作会比较轻松。

偏技术的:先说偏统计的吧。这部分人介于data analyst跟machine learning engineer之间,对技术要求比较全面,既要会sql,也要会用编程语言写一些模型的prototype,比如predict churn rate,用最简单的logistic regression就可以解决,但是你的code不是用一次就行,要每个月,甚至每周都用,所以要搭建一些pipeline可以让这个过程automate一下。所以对编程还是有一定要求的。有些公司用的大数据框架,你可能就得用spark。python的同学都在用pyspark。另外还要有一定的business sense,知道你做的模型能够解决什么business 问题,有什么impact。另外还有一部分人专门做实验设计,这块我不是很懂,所以不多说了。我觉得这部分人其实是个full stack的要求。但是如果你是技术类型的,即便不是统计cs科班出身,努努力还是可以入行的。

偏machine learning的,这些一般都是计算机专业的人在做,需要很懂什么是分布式系统,他们的作用是把模型在大数据框架下impletement出来,或者在原有的模型构建好的pipeline里如何去优化一下这个过程。更高端一些的研究machine learning算法的,这部分人基本都是cs phd们在做。不是科班出身的很难混进去。

先说这么多了,我也是转行过来,可能对行业的理解还不是很透彻,希望对想转行的,或者还在迷茫中的姐妹们有些帮助。欢迎大家补充~~

今晚回来讲一下ds面试准备,还有入行后的发展方向吧, 先去上班了,又是忙碌的一天

入行后data scientist的发展

忙了一天,娃又生病,刚把娃哄好,准备睡觉前更新下,今天的内容不会太多,主要是说一下入行以后的发展方向,其实很多人刚入行做某个方向,后面越做要么越偏码工,要么越偏business。这次从我上面说的第二种,也就是full stack的data scientist说起吧。

其实第二种的,地位有点略尴尬,因为很多时候大家都是在为business服务,大家刚入行的时候都报着想做个fancy的machine learning模型出来,然后给公司带来多么多么大的impact,但是你到了公司就知道,基本所有公司的数据都“不怎么地”,太多的bad data,首先就要花大量的时间去做data clearning,你数据不好,不论做什么分析,都是trash in trash out,毫无价值。数据整理好以后,也不是就生搬硬套弄个模型进来就完事。不像我们在学校写作业,甚至kaggle里面的数据竞赛,objective都很明确。很多时候我们其实并不了解business的需要,都不知道这些数据能干啥,所以即便你会用deep learning的工具包,不了解business的需要,也做不出啥有价值的东西。即便你找到一个很值得去用模型预测的变量,你的模型预测准确率非常好,但是你只能准备预测出很小一部分人的行为,也是白搭。举个最简单的例子:某公司想target一部分客户,那么我们把客户的profile数据弄出来,去预测这个客户会不会购买我们的产品,我们希望去target那些更有可能购买我们产品的客户。我们用random forest去预测,准确率高达95%,但是其实我们预测出来的购买产品的不到population的10%,你这个模型对于marketing的人来说是没有价值的。他们会觉得,你只有这么点人可以target,那么这个campaign也不用去做了。当然了,你可以调整模型预测的阈值来获取更多的可以target的客户,这里就不讨论技术了,只是举个简单的例子。

所以做第二种的,大多数人最后都要么朝着business 方向发展,变成了data/product analyst,如果痛恨business,讨厌跟marketing人打交道,就喜欢安安静静写写code,这部分人最后都成了data engineer甚至software engineer。有那么一小部分人(反正我没见过),真心热爱machine learning,都去做算法了,他们的title大部分是research scientist。

当然了,我也见过第一种最后变成了data engineer/software engineer的。

最后,我想说的是,对于刚入行的人,如果你的工作内容是第一种跟第二种,还是多花些时间去了解下你们行业的business,不要太盲目追求那些buzz words。干了一段时间后,应该就知道自己的兴趣所在了。

关于面试准备,如何转行,等我慢慢更新吧,谢谢大家的关注

whats_up 发表于 3/22/2017 2:45:25 AM


HAO TIE MARK!!!!!!!!!!!
y
yangwendy
136 楼

data scientist是干啥的

先简单说一下自己的情况,lz苦逼专业转行过来,大龄,花了一年半时间准备,快两年的时候找到了第一份工作,期间换过一份工作,现在湾区某大公司任data scientist

data scientist 这个行业在大数据时代很火,很多学校也陆续开设了相关的数据专业项目,特点都是培训时间短,强度大,就业率高,所以这学费也是一涨再涨,我之前也研究过各个学校的数据项目,分析过利弊,也申请成功一个,不过各种原因没有读下去。关于数据专业的项目,以后有空再来讲,今天先讲这个行业是怎么回事吧

data scientist其实在每个公司的定位不一样,有些偏business,也就是所谓的data analyst, business intelligent, 有些偏技术,在偏技术的职位里,有偏统计的:比如做实验设计(ab test),做模型的prototype; 有些偏CS的,比如 machine learning in big data framework,现在很火的deep learning.

从收入来讲,基本偏编程的data scientist薪水最高,在编程的data scientist里, 做deep learning算法的薪水最高。某土豪公司的搞machine learning算法的薪水差不多平均half million

但是,咱们也得看自己是哪块料,对哪行感兴趣是不。下面我就慢慢分析每种data scientist是干啥的,以及skill set

偏business的:对技术要求最低,基本会个sql就行,如果再会个基本的语言,比如r, python甚至sas就可以了。对soft skill要求很高,因为要经常跟marketing team, pm team 打交道。日常工作就是pull data, data cleaning, data manipulation,看看有什么insights, 最后的结果有时候做个dash board, 有时候就是excel里弄个pivot table就行。但是一个好的data analyst是可以从这些数据里总结出有价值的insights,如果上面决定take action of your insights,对公司的business还是影响挺大的。其实这个是data analyst工作中最难的一点,真的需要一定的经验才可以培养出来。但是一旦做个1-2年上手了,工作会比较轻松。

偏技术的:先说偏统计的吧。这部分人介于data analyst跟machine learning engineer之间,对技术要求比较全面,既要会sql,也要会用编程语言写一些模型的prototype,比如predict churn rate,用最简单的logistic regression就可以解决,但是你的code不是用一次就行,要每个月,甚至每周都用,所以要搭建一些pipeline可以让这个过程automate一下。所以对编程还是有一定要求的。有些公司用的大数据框架,你可能就得用spark。python的同学都在用pyspark。另外还要有一定的business sense,知道你做的模型能够解决什么business 问题,有什么impact。另外还有一部分人专门做实验设计,这块我不是很懂,所以不多说了。我觉得这部分人其实是个full stack的要求。但是如果你是技术类型的,即便不是统计cs科班出身,努努力还是可以入行的。

偏machine learning的,这些一般都是计算机专业的人在做,需要很懂什么是分布式系统,他们的作用是把模型在大数据框架下impletement出来,或者在原有的模型构建好的pipeline里如何去优化一下这个过程。更高端一些的研究machine learning算法的,这部分人基本都是cs phd们在做。不是科班出身的很难混进去。

先说这么多了,我也是转行过来,可能对行业的理解还不是很透彻,希望对想转行的,或者还在迷茫中的姐妹们有些帮助。欢迎大家补充~~

今晚回来讲一下ds面试准备,还有入行后的发展方向吧, 先去上班了,又是忙碌的一天

入行后data scientist的发展

忙了一天,娃又生病,刚把娃哄好,准备睡觉前更新下,今天的内容不会太多,主要是说一下入行以后的发展方向,其实很多人刚入行做某个方向,后面越做要么越偏码工,要么越偏business。这次从我上面说的第二种,也就是full stack的data scientist说起吧。

其实第二种的,地位有点略尴尬,因为很多时候大家都是在为business服务,大家刚入行的时候都报着想做个fancy的machine learning模型出来,然后给公司带来多么多么大的impact,但是你到了公司就知道,基本所有公司的数据都“不怎么地”,太多的bad data,首先就要花大量的时间去做data clearning,你数据不好,不论做什么分析,都是trash in trash out,毫无价值。数据整理好以后,也不是就生搬硬套弄个模型进来就完事。不像我们在学校写作业,甚至kaggle里面的数据竞赛,objective都很明确。很多时候我们其实并不了解business的需要,都不知道这些数据能干啥,所以即便你会用deep learning的工具包,不了解business的需要,也做不出啥有价值的东西。即便你找到一个很值得去用模型预测的变量,你的模型预测准确率非常好,但是你只能准备预测出很小一部分人的行为,也是白搭。举个最简单的例子:某公司想target一部分客户,那么我们把客户的profile数据弄出来,去预测这个客户会不会购买我们的产品,我们希望去target那些更有可能购买我们产品的客户。我们用random forest去预测,准确率高达95%,但是其实我们预测出来的购买产品的不到population的10%,你这个模型对于marketing的人来说是没有价值的。他们会觉得,你只有这么点人可以target,那么这个campaign也不用去做了。当然了,你可以调整模型预测的阈值来获取更多的可以target的客户,这里就不讨论技术了,只是举个简单的例子。

所以做第二种的,大多数人最后都要么朝着business 方向发展,变成了data/product analyst,如果痛恨business,讨厌跟marketing人打交道,就喜欢安安静静写写code,这部分人最后都成了data engineer甚至software engineer。有那么一小部分人(反正我没见过),真心热爱machine learning,都去做算法了,他们的title大部分是research scientist。

当然了,我也见过第一种最后变成了data engineer/software engineer的。

最后,我想说的是,对于刚入行的人,如果你的工作内容是第一种跟第二种,还是多花些时间去了解下你们行业的business,不要太盲目追求那些buzz words。干了一段时间后,应该就知道自己的兴趣所在了。

关于面试准备,如何转行,等我慢慢更新吧,谢谢大家的关注

whats_up 发表于 3/22/2017 2:45:25 AM

LZ妹子,我觉得你们组不能只盯着internal client, 毕竟DS是给公司制造新的效益的。只服务marketing真的好窄,而且那些人还挺难相处。

我这儿DS工作要求写project/product proposal, 找business partner,帮我找客户。外面客户给钱再做事。pivot partner一开始不给钱也行,但是没有钱景的项目,最后都是死。公司很现实。跟sale/marketing合作,他们可以帮忙和客户沟通,但是做决定和demo还要自己上啊。有好的项目,sale都想过来帮忙的,

DS工作内容好像差别很大,我公司是DS管DE和DA。DS转行做DA的可能性不大。工资少一半啊。我觉得做DE不错,性价比高。

开发算法?I wish。我们组的计划里面有发表文章,申请专利这些。但是公司做事,第一目标永远是钱钱钱。
w
whats_up
137 楼

LZ妹子,我觉得你们组不能只盯着internal client, 毕竟DS是给公司制造新的效益的。只服务marketing真的好窄,而且那些人还挺难相处。

我这儿DS工作要求写project/product proposal, 找business partner,帮我找客户。外面客户给钱再做事。pivot partner一开始不给钱也行,但是没有钱景的项目,最后都是死。公司很现实。跟sale/marketing合作,他们可以帮忙和客户沟通,但是做决定和demo还要自己上啊。有好的项目,sale都想过来帮忙的,

DS工作内容好像差别很大,我公司是DS管DE和DA。DS转行做DA的可能性不大。工资少一半啊。我觉得做DE不错,性价比高。

开发算法?I wish。我们组的计划里面有发表文章,申请专利这些。但是公司做事,第一目标永远是钱钱钱。

yangwendy 发表于 3/23/2017 10:15:17 AM

其实我的职位就是marketing data scientist,所以基本就是服务marketing的,我自己的工作是做一些automation,加analytics,因为产品比价新,所以压力还是挺大的。另外真的是看公司了,有些da不是单纯的就pull data, clean data,报告个结果就完事。她们会做很多有价值的分析,有了几年经验后对领域了解的很好,还是挺值钱的,我老板就是这样子。不过我个人兴趣还是更想往data engineer发展
O
Orangetabby
138 楼

其实我的职位就是marketing data scientist,所以基本就是服务marketing的,我自己的工作是做一些automation,加analytics,因为产品比价新,所以压力还是挺大的。另外真的是看公司了,有些da不是单纯的就pull data, clean data,报告个结果就完事。她们会做很多有价值的分析,有了几年经验后对领域了解的很好,还是挺值钱的,我老板就是这样子。不过我个人兴趣还是更想往data engineer发展

whats_up 发表于 3/23/2017 10:53:09 AM
lz总结的真好,你们那里是大数据平台吗
L
Lindaleo
139 楼
太好了,谢谢
f
flyerx
140 楼
好贴,等楼主更新
r
rpsrps
141 楼
第三种公司招的很少,第一种和第二种需求量 大一些。 最好先做第二种, 有经验了再做第一种。
阿咩咩咩咩
142 楼
mark
p
pantwelve
143 楼
干货帖!!马克一下慢慢读。。
g
guonianhao
144 楼
Mark data scientist
e
eileenby
145 楼
期待面试准备部分
C
Cath226
146 楼
lz说得很好。在公司里真的挖数据,绝大多数数据都是非常dirty的。要么培养自己的business insight,要么往纯马工靠。大热的cs算法跟实际business问题的结合是非常大的空白,有这种能力的人不多。如果做得好非常有前途,至于title叫啥,不重要。

我觉得应该有学校开个类似的专业,现在的大多数BI还是不够cs。
y
yezihai
147 楼
mm写的很好,谢谢分享。也有考虑过转行ds,但是一直觉的定位不够明确犹豫。看mm的介绍觉得很有启发。
C
Cath226
148 楼
https://www.fool.com/investing/2017/02/28/facebook-incs-chatbots-hit-a-70-failure-rate.aspx

看来你很擅长张嘴就来,表演起来驾轻就熟

scootie 发表于 3/22/2017 4:40:01 PM
“Despite those missteps, Facebook probably won't stop investing in chatbots anytime soon. ”这个news最后并没有说cut AI spending啊。事实上这说明AI还有很长的路要走,还有很多问题待解决啊。Problems occurring doesn't mean it's a deadlock, it's just a road never taken.
C
Cath226
149 楼
老公第三种,本科学历,10年工作经历一直做的这领域。最近在转人工智能,他说大数据已经不火了
dadele 发表于 3/22/2017 4:34:09 PM
big data在不同setting下的概念很不一样。一开始出现big data,带来了很多计算问题,当时的计算机性能有限,有很多人研究efficient的算法。现在计算机性能高多了,这方面需求低了。但是现在的big data又有新的问题出现。AI前进的动力之一就是big data。Feifei的数据库为什么对AI的贡献如此大?因为是big data。
v
veggie2013
150 楼
外行帮顶
c
catherinezhu
151 楼
赞好文
M
MMclaire
152 楼
data science mark
m
mangotango
153 楼
回复 1楼whats_up的帖子

谢谢分享。
蛋糕上的公主
154 楼
楼主写的好
g
guoxiang
155 楼
mak ds
l
lianqiao
156 楼
生物坑跳出来的,做Data analyst,差不多就是r programming,偶尔一丢丢Python。
公司有专门的specialist根据数据结果写分析。 出什么数据也是比较八股的。
比起博后来,工资高了一截,轻松很多,家里有事就wfk,只有urgent request时候有点压力。
感觉太简单了,没有安全感,还在自学Data scientist的课,有机会换个技术要求高点的。
盈盈红烛三生约 发表于 3/23/2017 8:54:47 AM
跟薄厚比当然收入高了。那要是生物类找到工作的人比呢?我火坑专业硕士一枚,一直有工作,但是也很有危机感,觉得吃青春饭,怕再老点被雷了找不到下家。不知道要不要转 。
C
Cath226
157 楼
跟薄厚比当然收入高了。那要是生物类找到工作的人比呢?我火坑专业硕士一枚,一直有工作,但是也很有危机感,觉得吃青春饭,怕再老点被雷了找不到下家。不知道要不要转 。

lianqiao 发表于 3/24/2017 2:29:33 AM
我身边的case其实data analyst跟生化类的research scientist(硕士毕业的)收入差不多。生化类的真的找到了工作,工资并不差。但是如果被雷,data类的想重新找,比生化类的强多了。大公司可能layoff的可能性低一些,但假如遇到另一半要跳槽relocate这样的事情呢?另一个就是看兴趣吧。真的喜欢做实验,没必要非逼着自己搞data。我当年做个project天天clean data都想吐了。
M
Mnmmeng
158 楼
赞楼主~学习啦
I
Irene1314
159 楼
呼唤楼主快来更新啊!!!
a
amberliu
160 楼
感谢分享!
z
ziyi99
161 楼
多谢lz分享
g
gamiugamiu
162 楼
多谢lz分享 mark DS
I
Irene1314
163 楼
楼主,我又来催更了。 你要是忙完了就来更新帖子哈,真的很想看你的面试准备!!谢谢拉
p
phoenix2002
164 楼
Mark, mark..........
l
llts
165 楼
赞,多谢总结分享。。。。。。。。。。。。。。。。。。。。
c
chinacreek
166 楼
我们部门有过2个博士、一个统计、一个信息技术、都是被年底review 低的、2个都自动走人了、偏商业、确实eq需要高一些、发现好多技术大拿都有适应商业环境的困扰、不太会沟通结果、不太会沟通、因为商业4环境常常自己要去琢磨数据在那儿、项目结果是不是于企业利益挂钩、与老板利益挂钩、如何与不同级别、团队合作、 项目结果付出与汇报的比例、这些在商业环境里对 做分析的要求很高、而且如何用非技术语言解析数据也重要
c
chinacreek
167 楼
我从IT reporting转到lz所谓的第一/二种结合部,本来想往编程走,但是觉得偏business的更有意思,也觉得会越老越吃香,外包机会也少。当然挣的不如编程多,不过年纪大了动不了脑子了 :)
GTAgal 发表于 3/22/2017 7:59:36 PM
也是觉得#1、越老越吃香、但是基本是soft skill和 business experience 越来越抢、对从数据里看出insight的能力越来越强、就是说白了、从数据里看出东西的明感度越来越强
3
33lisa
168 楼
马克一下!期待楼主讲讲面试找工作
b
biozhj
169 楼
我身边的case其实data analyst跟生化类的research scientist(硕士毕业的)收入差不多。生化类的真的找到了工作,工资并不差。但是如果被雷,data类的想重新找,比生化类的强多了。大公司可能layoff的可能性低一些,但假如遇到另一半要跳槽relocate这样的事情呢?另一个就是看兴趣吧。真的喜欢做实验,没必要非逼着自己搞data。我当年做个project天天clean data都想吐了。

Cath226 发表于 3/24/2017 9:18:18 AM
da的工资就是六七万的样子,确实跟生化硕士差不多,但现在工作虽然好找,将来也不好讲,毕竟读的人太太多了,周围全是,学校每年扩招20%,还有很多速成班,很多转行的
w
wishwatersf
170 楼
多谢lz分享 ~~
c
cavine747
171 楼
我们部门有过2个博士、一个统计、一个信息技术、都是被年底review 低的、2个都自动走人了、偏商业、确实eq需要高一些、发现好多技术大拿都有适应商业环境的困扰、不太会沟通结果、不太会沟通、因为商业4环境常常自己要去琢磨数据在那儿、项目结果是不是于企业利益挂钩、与老板利益挂钩、如何与不同级别、团队合作、 项目结果付出与汇报的比例、这些在商业环境里对 做分析的要求很高、而且如何用非技术语言解析数据也重要
chinacreek 发表于 3/28/2017 10:45:20 PM

确实。有的business还有production的deadline,到时间要publish数据报告给client,那真是一天也不能耽误,压力蛮大的。
鲤鱼
172 楼
顶 大三狗学习一下
s
starryxy
173 楼
回复 1楼whats_up的帖子

谢谢楼主分享!!!
l
lovewriting123
174 楼
mark 学习一下
s
snowpenguin
175 楼
马克一下,新手现在正在刷sql,多学习学习~  data science
s
stranger1999
176 楼
感谢分享
u
ultraviolet
177 楼
我是纯粹来膜拜mm的, mm大牛!
b
bigbigworld
178 楼
mark 一下。
b
brownsugar
179 楼
写的不错
l
lala_2009
180 楼

data scientist是干啥的

先简单说一下自己的情况,lz苦逼专业转行过来,大龄,花了一年半时间准备,快两年的时候找到了第一份工作,期间换过一份工作,现在湾区某大公司任data scientist

data scientist 这个行业在大数据时代很火,很多学校也陆续开设了相关的数据专业项目,特点都是培训时间短,强度大,就业率高,所以这学费也是一涨再涨,我之前也研究过各个学校的数据项目,分析过利弊,也申请成功一个,不过各种原因没有读下去。关于数据专业的项目,以后有空再来讲,今天先讲这个行业是怎么回事吧

data scientist其实在每个公司的定位不一样,有些偏business,也就是所谓的data analyst, business intelligent, 有些偏技术,在偏技术的职位里,有偏统计的:比如做实验设计(ab test),做模型的prototype; 有些偏CS的,比如 machine learning in big data framework,现在很火的deep learning.

从收入来讲,基本偏编程的data scientist薪水最高,在编程的data scientist里, 做deep learning算法的薪水最高。某土豪公司的搞machine learning算法的薪水差不多平均half million

但是,咱们也得看自己是哪块料,对哪行感兴趣是不。下面我就慢慢分析每种data scientist是干啥的,以及skill set

偏business的:对技术要求最低,基本会个sql就行,如果再会个基本的语言,比如r, python甚至sas就可以了。对soft skill要求很高,因为要经常跟marketing team, pm team 打交道。日常工作就是pull data, data cleaning, data manipulation,看看有什么insights, 最后的结果有时候做个dash board, 有时候就是excel里弄个pivot table就行。但是一个好的data analyst是可以从这些数据里总结出有价值的insights,如果上面决定take action of your insights,对公司的business还是影响挺大的。其实这个是data analyst工作中最难的一点,真的需要一定的经验才可以培养出来。但是一旦做个1-2年上手了,工作会比较轻松。

偏技术的:先说偏统计的吧。这部分人介于data analyst跟machine learning engineer之间,对技术要求比较全面,既要会sql,也要会用编程语言写一些模型的prototype,比如predict churn rate,用最简单的logistic regression就可以解决,但是你的code不是用一次就行,要每个月,甚至每周都用,所以要搭建一些pipeline可以让这个过程automate一下。所以对编程还是有一定要求的。有些公司用的大数据框架,你可能就得用spark。python的同学都在用pyspark。另外还要有一定的business sense,知道你做的模型能够解决什么business 问题,有什么impact。另外还有一部分人专门做实验设计,这块我不是很懂,所以不多说了。我觉得这部分人其实是个full stack的要求。但是如果你是技术类型的,即便不是统计cs科班出身,努努力还是可以入行的。

偏machine learning的,这些一般都是计算机专业的人在做,需要很懂什么是分布式系统,他们的作用是把模型在大数据框架下impletement出来,或者在原有的模型构建好的pipeline里如何去优化一下这个过程。更高端一些的研究machine learning算法的,这部分人基本都是cs phd们在做。不是科班出身的很难混进去。

先说这么多了,我也是转行过来,可能对行业的理解还不是很透彻,希望对想转行的,或者还在迷茫中的姐妹们有些帮助。欢迎大家补充~~

今晚回来讲一下ds面试准备,还有入行后的发展方向吧, 先去上班了,又是忙碌的一天

入行后data scientist的发展

忙了一天,娃又生病,刚把娃哄好,准备睡觉前更新下,今天的内容不会太多,主要是说一下入行以后的发展方向,其实很多人刚入行做某个方向,后面越做要么越偏码工,要么越偏business。这次从我上面说的第二种,也就是full stack的data scientist说起吧。

其实第二种的,地位有点略尴尬,因为很多时候大家都是在为business服务,大家刚入行的时候都报着想做个fancy的machine learning模型出来,然后给公司带来多么多么大的impact,但是你到了公司就知道,基本所有公司的数据都“不怎么地”,太多的bad data,首先就要花大量的时间去做data clearning,你数据不好,不论做什么分析,都是trash in trash out,毫无价值。数据整理好以后,也不是就生搬硬套弄个模型进来就完事。不像我们在学校写作业,甚至kaggle里面的数据竞赛,objective都很明确。很多时候我们其实并不了解business的需要,都不知道这些数据能干啥,所以即便你会用deep learning的工具包,不了解business的需要,也做不出啥有价值的东西。即便你找到一个很值得去用模型预测的变量,你的模型预测准确率非常好,但是你只能准备预测出很小一部分人的行为,也是白搭。举个最简单的例子:某公司想target一部分客户,那么我们把客户的profile数据弄出来,去预测这个客户会不会购买我们的产品,我们希望去target那些更有可能购买我们产品的客户。我们用random forest去预测,准确率高达95%,但是其实我们预测出来的购买产品的不到population的10%,你这个模型对于marketing的人来说是没有价值的。他们会觉得,你只有这么点人可以target,那么这个campaign也不用去做了。当然了,你可以调整模型预测的阈值来获取更多的可以target的客户,这里就不讨论技术了,只是举个简单的例子。

所以做第二种的,大多数人最后都要么朝着business 方向发展,变成了data/product analyst,如果痛恨business,讨厌跟marketing人打交道,就喜欢安安静静写写code,这部分人最后都成了data engineer甚至software engineer。有那么一小部分人(反正我没见过),真心热爱machine learning,都去做算法了,他们的title大部分是research scientist。

当然了,我也见过第一种最后变成了data engineer/software engineer的。

最后,我想说的是,对于刚入行的人,如果你的工作内容是第一种跟第二种,还是多花些时间去了解下你们行业的business,不要太盲目追求那些buzz words。干了一段时间后,应该就知道自己的兴趣所在了。

关于面试准备,如何转行,等我慢慢更新吧,谢谢大家的关注

whats_up 发表于 3/22/2017 2:45:25 AM
写得真好!谢谢分享!
l
lovewriting123
181 楼

data scientist是干啥的

先简单说一下自己的情况,lz苦逼专业转行过来,大龄,花了一年半时间准备,快两年的时候找到了第一份工作,期间换过一份工作,现在湾区某大公司任data scientist

data scientist 这个行业在大数据时代很火,很多学校也陆续开设了相关的数据专业项目,特点都是培训时间短,强度大,就业率高,所以这学费也是一涨再涨,我之前也研究过各个学校的数据项目,分析过利弊,也申请成功一个,不过各种原因没有读下去。关于数据专业的项目,以后有空再来讲,今天先讲这个行业是怎么回事吧

data scientist其实在每个公司的定位不一样,有些偏business,也就是所谓的data analyst, business intelligent, 有些偏技术,在偏技术的职位里,有偏统计的:比如做实验设计(ab test),做模型的prototype; 有些偏CS的,比如 machine learning in big data framework,现在很火的deep learning.

从收入来讲,基本偏编程的data scientist薪水最高,在编程的data scientist里, 做deep learning算法的薪水最高。某土豪公司的搞machine learning算法的薪水差不多平均half million

但是,咱们也得看自己是哪块料,对哪行感兴趣是不。下面我就慢慢分析每种data scientist是干啥的,以及skill set

偏business的:对技术要求最低,基本会个sql就行,如果再会个基本的语言,比如r, python甚至sas就可以了。对soft skill要求很高,因为要经常跟marketing team, pm team 打交道。日常工作就是pull data, data cleaning, data manipulation,看看有什么insights, 最后的结果有时候做个dash board, 有时候就是excel里弄个pivot table就行。但是一个好的data analyst是可以从这些数据里总结出有价值的insights,如果上面决定take action of your insights,对公司的business还是影响挺大的。其实这个是data analyst工作中最难的一点,真的需要一定的经验才可以培养出来。但是一旦做个1-2年上手了,工作会比较轻松。

偏技术的:先说偏统计的吧。这部分人介于data analyst跟machine learning engineer之间,对技术要求比较全面,既要会sql,也要会用编程语言写一些模型的prototype,比如predict churn rate,用最简单的logistic regression就可以解决,但是你的code不是用一次就行,要每个月,甚至每周都用,所以要搭建一些pipeline可以让这个过程automate一下。所以对编程还是有一定要求的。有些公司用的大数据框架,你可能就得用spark。python的同学都在用pyspark。另外还要有一定的business sense,知道你做的模型能够解决什么business 问题,有什么impact。另外还有一部分人专门做实验设计,这块我不是很懂,所以不多说了。我觉得这部分人其实是个full stack的要求。但是如果你是技术类型的,即便不是统计cs科班出身,努努力还是可以入行的。

偏machine learning的,这些一般都是计算机专业的人在做,需要很懂什么是分布式系统,他们的作用是把模型在大数据框架下impletement出来,或者在原有的模型构建好的pipeline里如何去优化一下这个过程。更高端一些的研究machine learning算法的,这部分人基本都是cs phd们在做。不是科班出身的很难混进去。

先说这么多了,我也是转行过来,可能对行业的理解还不是很透彻,希望对想转行的,或者还在迷茫中的姐妹们有些帮助。欢迎大家补充~~

今晚回来讲一下ds面试准备,还有入行后的发展方向吧, 先去上班了,又是忙碌的一天

入行后data scientist的发展

忙了一天,娃又生病,刚把娃哄好,准备睡觉前更新下,今天的内容不会太多,主要是说一下入行以后的发展方向,其实很多人刚入行做某个方向,后面越做要么越偏码工,要么越偏business。这次从我上面说的第二种,也就是full stack的data scientist说起吧。

其实第二种的,地位有点略尴尬,因为很多时候大家都是在为business服务,大家刚入行的时候都报着想做个fancy的machine learning模型出来,然后给公司带来多么多么大的impact,但是你到了公司就知道,基本所有公司的数据都“不怎么地”,太多的bad data,首先就要花大量的时间去做data clearning,你数据不好,不论做什么分析,都是trash in trash out,毫无价值。数据整理好以后,也不是就生搬硬套弄个模型进来就完事。不像我们在学校写作业,甚至kaggle里面的数据竞赛,objective都很明确。很多时候我们其实并不了解business的需要,都不知道这些数据能干啥,所以即便你会用deep learning的工具包,不了解business的需要,也做不出啥有价值的东西。即便你找到一个很值得去用模型预测的变量,你的模型预测准确率非常好,但是你只能准备预测出很小一部分人的行为,也是白搭。举个最简单的例子:某公司想target一部分客户,那么我们把客户的profile数据弄出来,去预测这个客户会不会购买我们的产品,我们希望去target那些更有可能购买我们产品的客户。我们用random forest去预测,准确率高达95%,但是其实我们预测出来的购买产品的不到population的10%,你这个模型对于marketing的人来说是没有价值的。他们会觉得,你只有这么点人可以target,那么这个campaign也不用去做了。当然了,你可以调整模型预测的阈值来获取更多的可以target的客户,这里就不讨论技术了,只是举个简单的例子。

所以做第二种的,大多数人最后都要么朝着business 方向发展,变成了data/product analyst,如果痛恨business,讨厌跟marketing人打交道,就喜欢安安静静写写code,这部分人最后都成了data engineer甚至software engineer。有那么一小部分人(反正我没见过),真心热爱machine learning,都去做算法了,他们的title大部分是research scientist。

当然了,我也见过第一种最后变成了data engineer/software engineer的。

最后,我想说的是,对于刚入行的人,如果你的工作内容是第一种跟第二种,还是多花些时间去了解下你们行业的business,不要太盲目追求那些buzz words。干了一段时间后,应该就知道自己的兴趣所在了。

关于面试准备,如何转行,等我慢慢更新吧,谢谢大家的关注

whats_up 发表于 3/22/2017 2:45:25 AM
超级强帖留个名,谢谢楼主无私分享
c
cjlmxbt
182 楼

data scientist是干啥的

先简单说一下自己的情况,lz苦逼专业转行过来,大龄,花了一年半时间准备,快两年的时候找到了第一份工作,期间换过一份工作,现在湾区某大公司任data scientist

data scientist 这个行业在大数据时代很火,很多学校也陆续开设了相关的数据专业项目,特点都是培训时间短,强度大,就业率高,所以这学费也是一涨再涨,我之前也研究过各个学校的数据项目,分析过利弊,也申请成功一个,不过各种原因没有读下去。关于数据专业的项目,以后有空再来讲,今天先讲这个行业是怎么回事吧

data scientist其实在每个公司的定位不一样,有些偏business,也就是所谓的data analyst, business intelligent, 有些偏技术,在偏技术的职位里,有偏统计的:比如做实验设计(ab test),做模型的prototype; 有些偏CS的,比如 machine learning in big data framework,现在很火的deep learning.

从收入来讲,基本偏编程的data scientist薪水最高,在编程的data scientist里, 做deep learning算法的薪水最高。某土豪公司的搞machine learning算法的薪水差不多平均half million

但是,咱们也得看自己是哪块料,对哪行感兴趣是不。下面我就慢慢分析每种data scientist是干啥的,以及skill set

偏business的:对技术要求最低,基本会个sql就行,如果再会个基本的语言,比如r, python甚至sas就可以了。对soft skill要求很高,因为要经常跟marketing team, pm team 打交道。日常工作就是pull data, data cleaning, data manipulation,看看有什么insights, 最后的结果有时候做个dash board, 有时候就是excel里弄个pivot table就行。但是一个好的data analyst是可以从这些数据里总结出有价值的insights,如果上面决定take action of your insights,对公司的business还是影响挺大的。其实这个是data analyst工作中最难的一点,真的需要一定的经验才可以培养出来。但是一旦做个1-2年上手了,工作会比较轻松。

偏技术的:先说偏统计的吧。这部分人介于data analyst跟machine learning engineer之间,对技术要求比较全面,既要会sql,也要会用编程语言写一些模型的prototype,比如predict churn rate,用最简单的logistic regression就可以解决,但是你的code不是用一次就行,要每个月,甚至每周都用,所以要搭建一些pipeline可以让这个过程automate一下。所以对编程还是有一定要求的。有些公司用的大数据框架,你可能就得用spark。python的同学都在用pyspark。另外还要有一定的business sense,知道你做的模型能够解决什么business 问题,有什么impact。另外还有一部分人专门做实验设计,这块我不是很懂,所以不多说了。我觉得这部分人其实是个full stack的要求。但是如果你是技术类型的,即便不是统计cs科班出身,努努力还是可以入行的。

偏machine learning的,这些一般都是计算机专业的人在做,需要很懂什么是分布式系统,他们的作用是把模型在大数据框架下impletement出来,或者在原有的模型构建好的pipeline里如何去优化一下这个过程。更高端一些的研究machine learning算法的,这部分人基本都是cs phd们在做。不是科班出身的很难混进去。

先说这么多了,我也是转行过来,可能对行业的理解还不是很透彻,希望对想转行的,或者还在迷茫中的姐妹们有些帮助。欢迎大家补充~~

今晚回来讲一下ds面试准备,还有入行后的发展方向吧, 先去上班了,又是忙碌的一天

入行后data scientist的发展

忙了一天,娃又生病,刚把娃哄好,准备睡觉前更新下,今天的内容不会太多,主要是说一下入行以后的发展方向,其实很多人刚入行做某个方向,后面越做要么越偏码工,要么越偏business。这次从我上面说的第二种,也就是full stack的data scientist说起吧。

其实第二种的,地位有点略尴尬,因为很多时候大家都是在为business服务,大家刚入行的时候都报着想做个fancy的machine learning模型出来,然后给公司带来多么多么大的impact,但是你到了公司就知道,基本所有公司的数据都“不怎么地”,太多的bad data,首先就要花大量的时间去做data clearning,你数据不好,不论做什么分析,都是trash in trash out,毫无价值。数据整理好以后,也不是就生搬硬套弄个模型进来就完事。不像我们在学校写作业,甚至kaggle里面的数据竞赛,objective都很明确。很多时候我们其实并不了解business的需要,都不知道这些数据能干啥,所以即便你会用deep learning的工具包,不了解business的需要,也做不出啥有价值的东西。即便你找到一个很值得去用模型预测的变量,你的模型预测准确率非常好,但是你只能准备预测出很小一部分人的行为,也是白搭。举个最简单的例子:某公司想target一部分客户,那么我们把客户的profile数据弄出来,去预测这个客户会不会购买我们的产品,我们希望去target那些更有可能购买我们产品的客户。我们用random forest去预测,准确率高达95%,但是其实我们预测出来的购买产品的不到population的10%,你这个模型对于marketing的人来说是没有价值的。他们会觉得,你只有这么点人可以target,那么这个campaign也不用去做了。当然了,你可以调整模型预测的阈值来获取更多的可以target的客户,这里就不讨论技术了,只是举个简单的例子。

所以做第二种的,大多数人最后都要么朝着business 方向发展,变成了data/product analyst,如果痛恨business,讨厌跟marketing人打交道,就喜欢安安静静写写code,这部分人最后都成了data engineer甚至software engineer。有那么一小部分人(反正我没见过),真心热爱machine learning,都去做算法了,他们的title大部分是research scientist。

当然了,我也见过第一种最后变成了data engineer/software engineer的。

最后,我想说的是,对于刚入行的人,如果你的工作内容是第一种跟第二种,还是多花些时间去了解下你们行业的business,不要太盲目追求那些buzz words。干了一段时间后,应该就知道自己的兴趣所在了。

关于面试准备,如何转行,等我慢慢更新吧,谢谢大家的关注

whats_up 发表于 3/22/2017 2:45:25 AM
mark
thank you for sharing
l
lovewriting123
183 楼

data scientist是干啥的

先简单说一下自己的情况,lz苦逼专业转行过来,大龄,花了一年半时间准备,快两年的时候找到了第一份工作,期间换过一份工作,现在湾区某大公司任data scientist

data scientist 这个行业在大数据时代很火,很多学校也陆续开设了相关的数据专业项目,特点都是培训时间短,强度大,就业率高,所以这学费也是一涨再涨,我之前也研究过各个学校的数据项目,分析过利弊,也申请成功一个,不过各种原因没有读下去。关于数据专业的项目,以后有空再来讲,今天先讲这个行业是怎么回事吧

data scientist其实在每个公司的定位不一样,有些偏business,也就是所谓的data analyst, business intelligent, 有些偏技术,在偏技术的职位里,有偏统计的:比如做实验设计(ab test),做模型的prototype; 有些偏CS的,比如 machine learning in big data framework,现在很火的deep learning.

从收入来讲,基本偏编程的data scientist薪水最高,在编程的data scientist里, 做deep learning算法的薪水最高。某土豪公司的搞machine learning算法的薪水差不多平均half million

但是,咱们也得看自己是哪块料,对哪行感兴趣是不。下面我就慢慢分析每种data scientist是干啥的,以及skill set

偏business的:对技术要求最低,基本会个sql就行,如果再会个基本的语言,比如r, python甚至sas就可以了。对soft skill要求很高,因为要经常跟marketing team, pm team 打交道。日常工作就是pull data, data cleaning, data manipulation,看看有什么insights, 最后的结果有时候做个dash board, 有时候就是excel里弄个pivot table就行。但是一个好的data analyst是可以从这些数据里总结出有价值的insights,如果上面决定take action of your insights,对公司的business还是影响挺大的。其实这个是data analyst工作中最难的一点,真的需要一定的经验才可以培养出来。但是一旦做个1-2年上手了,工作会比较轻松。

偏技术的:先说偏统计的吧。这部分人介于data analyst跟machine learning engineer之间,对技术要求比较全面,既要会sql,也要会用编程语言写一些模型的prototype,比如predict churn rate,用最简单的logistic regression就可以解决,但是你的code不是用一次就行,要每个月,甚至每周都用,所以要搭建一些pipeline可以让这个过程automate一下。所以对编程还是有一定要求的。有些公司用的大数据框架,你可能就得用spark。python的同学都在用pyspark。另外还要有一定的business sense,知道你做的模型能够解决什么business 问题,有什么impact。另外还有一部分人专门做实验设计,这块我不是很懂,所以不多说了。我觉得这部分人其实是个full stack的要求。但是如果你是技术类型的,即便不是统计cs科班出身,努努力还是可以入行的。

偏machine learning的,这些一般都是计算机专业的人在做,需要很懂什么是分布式系统,他们的作用是把模型在大数据框架下impletement出来,或者在原有的模型构建好的pipeline里如何去优化一下这个过程。更高端一些的研究machine learning算法的,这部分人基本都是cs phd们在做。不是科班出身的很难混进去。

先说这么多了,我也是转行过来,可能对行业的理解还不是很透彻,希望对想转行的,或者还在迷茫中的姐妹们有些帮助。欢迎大家补充~~

今晚回来讲一下ds面试准备,还有入行后的发展方向吧, 先去上班了,又是忙碌的一天

入行后data scientist的发展

忙了一天,娃又生病,刚把娃哄好,准备睡觉前更新下,今天的内容不会太多,主要是说一下入行以后的发展方向,其实很多人刚入行做某个方向,后面越做要么越偏码工,要么越偏business。这次从我上面说的第二种,也就是full stack的data scientist说起吧。

其实第二种的,地位有点略尴尬,因为很多时候大家都是在为business服务,大家刚入行的时候都报着想做个fancy的machine learning模型出来,然后给公司带来多么多么大的impact,但是你到了公司就知道,基本所有公司的数据都“不怎么地”,太多的bad data,首先就要花大量的时间去做data clearning,你数据不好,不论做什么分析,都是trash in trash out,毫无价值。数据整理好以后,也不是就生搬硬套弄个模型进来就完事。不像我们在学校写作业,甚至kaggle里面的数据竞赛,objective都很明确。很多时候我们其实并不了解business的需要,都不知道这些数据能干啥,所以即便你会用deep learning的工具包,不了解business的需要,也做不出啥有价值的东西。即便你找到一个很值得去用模型预测的变量,你的模型预测准确率非常好,但是你只能准备预测出很小一部分人的行为,也是白搭。举个最简单的例子:某公司想target一部分客户,那么我们把客户的profile数据弄出来,去预测这个客户会不会购买我们的产品,我们希望去target那些更有可能购买我们产品的客户。我们用random forest去预测,准确率高达95%,但是其实我们预测出来的购买产品的不到population的10%,你这个模型对于marketing的人来说是没有价值的。他们会觉得,你只有这么点人可以target,那么这个campaign也不用去做了。当然了,你可以调整模型预测的阈值来获取更多的可以target的客户,这里就不讨论技术了,只是举个简单的例子。

所以做第二种的,大多数人最后都要么朝着business 方向发展,变成了data/product analyst,如果痛恨business,讨厌跟marketing人打交道,就喜欢安安静静写写code,这部分人最后都成了data engineer甚至software engineer。有那么一小部分人(反正我没见过),真心热爱machine learning,都去做算法了,他们的title大部分是research scientist。

当然了,我也见过第一种最后变成了data engineer/software engineer的。

最后,我想说的是,对于刚入行的人,如果你的工作内容是第一种跟第二种,还是多花些时间去了解下你们行业的business,不要太盲目追求那些buzz words。干了一段时间后,应该就知道自己的兴趣所在了。

关于面试准备,如何转行,等我慢慢更新吧,谢谢大家的关注

whats_up 发表于 3/22/2017 2:45:25 AM


这个帖子为啥马不上
c
cyd728
184 楼
mark!
s
salmon6875
185 楼

data scientist是干啥的

先简单说一下自己的情况,lz苦逼专业转行过来,大龄,花了一年半时间准备,快两年的时候找到了第一份工作,期间换过一份工作,现在湾区某大公司任data scientist

data scientist 这个行业在大数据时代很火,很多学校也陆续开设了相关的数据专业项目,特点都是培训时间短,强度大,就业率高,所以这学费也是一涨再涨,我之前也研究过各个学校的数据项目,分析过利弊,也申请成功一个,不过各种原因没有读下去。关于数据专业的项目,以后有空再来讲,今天先讲这个行业是怎么回事吧

data scientist其实在每个公司的定位不一样,有些偏business,也就是所谓的data analyst, business intelligent, 有些偏技术,在偏技术的职位里,有偏统计的:比如做实验设计(ab test),做模型的prototype; 有些偏CS的,比如 machine learning in big data framework,现在很火的deep learning.

从收入来讲,基本偏编程的data scientist薪水最高,在编程的data scientist里, 做deep learning算法的薪水最高。某土豪公司的搞machine learning算法的薪水差不多平均half million

但是,咱们也得看自己是哪块料,对哪行感兴趣是不。下面我就慢慢分析每种data scientist是干啥的,以及skill set

偏business的:对技术要求最低,基本会个sql就行,如果再会个基本的语言,比如r, python甚至sas就可以了。对soft skill要求很高,因为要经常跟marketing team, pm team 打交道。日常工作就是pull data, data cleaning, data manipulation,看看有什么insights, 最后的结果有时候做个dash board, 有时候就是excel里弄个pivot table就行。但是一个好的data analyst是可以从这些数据里总结出有价值的insights,如果上面决定take action of your insights,对公司的business还是影响挺大的。其实这个是data analyst工作中最难的一点,真的需要一定的经验才可以培养出来。但是一旦做个1-2年上手了,工作会比较轻松。

偏技术的:先说偏统计的吧。这部分人介于data analyst跟machine learning engineer之间,对技术要求比较全面,既要会sql,也要会用编程语言写一些模型的prototype,比如predict churn rate,用最简单的logistic regression就可以解决,但是你的code不是用一次就行,要每个月,甚至每周都用,所以要搭建一些pipeline可以让这个过程automate一下。所以对编程还是有一定要求的。有些公司用的大数据框架,你可能就得用spark。python的同学都在用pyspark。另外还要有一定的business sense,知道你做的模型能够解决什么business 问题,有什么impact。另外还有一部分人专门做实验设计,这块我不是很懂,所以不多说了。我觉得这部分人其实是个full stack的要求。但是如果你是技术类型的,即便不是统计cs科班出身,努努力还是可以入行的。

偏machine learning的,这些一般都是计算机专业的人在做,需要很懂什么是分布式系统,他们的作用是把模型在大数据框架下impletement出来,或者在原有的模型构建好的pipeline里如何去优化一下这个过程。更高端一些的研究machine learning算法的,这部分人基本都是cs phd们在做。不是科班出身的很难混进去。

先说这么多了,我也是转行过来,可能对行业的理解还不是很透彻,希望对想转行的,或者还在迷茫中的姐妹们有些帮助。欢迎大家补充~~

今晚回来讲一下ds面试准备,还有入行后的发展方向吧, 先去上班了,又是忙碌的一天

入行后data scientist的发展

忙了一天,娃又生病,刚把娃哄好,准备睡觉前更新下,今天的内容不会太多,主要是说一下入行以后的发展方向,其实很多人刚入行做某个方向,后面越做要么越偏码工,要么越偏business。这次从我上面说的第二种,也就是full stack的data scientist说起吧。

其实第二种的,地位有点略尴尬,因为很多时候大家都是在为business服务,大家刚入行的时候都报着想做个fancy的machine learning模型出来,然后给公司带来多么多么大的impact,但是你到了公司就知道,基本所有公司的数据都“不怎么地”,太多的bad data,首先就要花大量的时间去做data clearning,你数据不好,不论做什么分析,都是trash in trash out,毫无价值。数据整理好以后,也不是就生搬硬套弄个模型进来就完事。不像我们在学校写作业,甚至kaggle里面的数据竞赛,objective都很明确。很多时候我们其实并不了解business的需要,都不知道这些数据能干啥,所以即便你会用deep learning的工具包,不了解business的需要,也做不出啥有价值的东西。即便你找到一个很值得去用模型预测的变量,你的模型预测准确率非常好,但是你只能准备预测出很小一部分人的行为,也是白搭。举个最简单的例子:某公司想target一部分客户,那么我们把客户的profile数据弄出来,去预测这个客户会不会购买我们的产品,我们希望去target那些更有可能购买我们产品的客户。我们用random forest去预测,准确率高达95%,但是其实我们预测出来的购买产品的不到population的10%,你这个模型对于marketing的人来说是没有价值的。他们会觉得,你只有这么点人可以target,那么这个campaign也不用去做了。当然了,你可以调整模型预测的阈值来获取更多的可以target的客户,这里就不讨论技术了,只是举个简单的例子。

所以做第二种的,大多数人最后都要么朝着business 方向发展,变成了data/product analyst,如果痛恨business,讨厌跟marketing人打交道,就喜欢安安静静写写code,这部分人最后都成了data engineer甚至software engineer。有那么一小部分人(反正我没见过),真心热爱machine learning,都去做算法了,他们的title大部分是research scientist。

当然了,我也见过第一种最后变成了data engineer/software engineer的。

最后,我想说的是,对于刚入行的人,如果你的工作内容是第一种跟第二种,还是多花些时间去了解下你们行业的business,不要太盲目追求那些buzz words。干了一段时间后,应该就知道自己的兴趣所在了。

关于面试准备,如何转行,等我慢慢更新吧,谢谢大家的关注

whats_up 发表于 3/22/2017 2:45:25 AM
谢谢楼主分享心得!赞一个
s
snowwhite008
186 楼
mark......
耳又易物
187 楼
thanks for sharing
n
ninthemperor
188 楼
楼主不更新了么
q
qkqk
189 楼
马一个,lz还更新吗
r
raining
190 楼
Mark.........
k
kengdie
191 楼
MARK MARK
t
tryyitry
192 楼
thanks for sharing