data scientist 这个行业在大数据时代很火,很多学校也陆续开设了相关的数据专业项目,特点都是培训时间短,强度大,就业率高,所以这学费也是一涨再涨,我之前也研究过各个学校的数据项目,分析过利弊,也申请成功一个,不过各种原因没有读下去。关于数据专业的项目,以后有空再来讲,今天先讲这个行业是怎么回事吧
data scientist其实在每个公司的定位不一样,有些偏business,也就是所谓的data analyst, business intelligent, 有些偏技术,在偏技术的职位里,有偏统计的:比如做实验设计(ab test),做模型的prototype; 有些偏CS的,比如 machine learning in big data framework,现在很火的deep learning.
从收入来讲,基本偏编程的data scientist薪水最高,在编程的data scientist里, 做deep learning算法的薪水最高。某土豪公司的搞machine learning算法的薪水差不多平均half million
但是,咱们也得看自己是哪块料,对哪行感兴趣是不。下面我就慢慢分析每种data scientist是干啥的,以及skill set
偏business的:对技术要求最低,基本会个sql就行,如果再会个基本的语言,比如r, python甚至sas就可以了。对soft skill要求很高,因为要经常跟marketing team, pm team 打交道。日常工作就是pull data, data cleaning, data manipulation,看看有什么insights, 最后的结果有时候做个dash board, 有时候就是excel里弄个pivot table就行。但是一个好的data analyst是可以从这些数据里总结出有价值的insights,如果上面决定take action of your insights,对公司的business还是影响挺大的。其实这个是data analyst工作中最难的一点,真的需要一定的经验才可以培养出来。但是一旦做个1-2年上手了,工作会比较轻松。
data scientist 这个行业在大数据时代很火,很多学校也陆续开设了相关的数据专业项目,特点都是培训时间短,强度大,就业率高,所以这学费也是一涨再涨,我之前也研究过各个学校的数据项目,分析过利弊,也申请成功一个,不过各种原因没有读下去。关于数据专业的项目,以后有空再来讲,今天先讲这个行业是怎么回事吧
data scientist其实在每个公司的定位不一样,有些偏business,也就是所谓的data analyst, business intelligent, 有些偏技术,在偏技术的职位里,有偏统计的:比如做实验设计(ab test),做模型的prototype; 有些偏CS的,比如 machine learning in big data framework,现在很火的deep learning.
从收入来讲,基本偏编程的data scientist薪水最高,在编程的data scientist里, 做deep learning算法的薪水最高。某土豪公司的搞machine learning算法的薪水差不多平均half million
但是,咱们也得看自己是哪块料,对哪行感兴趣是不。下面我就慢慢分析每种data scientis是干啥的,以及skill set
偏business的:对技术要求最低,基本会个sql就行,如果再会个基本的语言,比如r, python甚至sas就可以了。对soft skill要求很高,因为要经常跟marketing team, pm team 打交道。日常工作就是pull data, data cleaning, data manipulation,看看有什么insights, 最后的结果有时候做个dash board, 有时候就是excel里弄个pivot table就行。但是一个好的data analyst是可以从这些数据里总结出有价值的insights,如果上面决定take action of your insights,对公司的business还是影响挺大的。其实这个是data analyst工作中最难的一点,真的需要一定的经验才可以培养出来。但是一旦做个1-2年上手了,工作会比较轻松。
先简单说一下自己的情况,lz苦逼专业转行过来,大龄,花了一年半时间准备,快两年的时候找到了第一份工作,期间换过一份工作,现在湾区某大公司任data scientist
data scientist 这个行业在大数据时代很火,很多学校也陆续开设了相关的数据专业项目,特点都是培训时间短,强度大,就业率高,所以这学费也是一涨再涨,我之前也研究过各个学校的数据项目,分析过利弊,也申请成功一个,不过各种原因没有读下去。关于数据专业的项目,以后有空再来讲,今天先讲这个行业是怎么回事吧
data scientist其实在每个公司的定位不一样,有些偏business,也就是所谓的data analyst, business intelligent, 有些偏技术,在偏技术的职位里,有偏统计的:比如做实验设计(ab test),做模型的prototype; 有些偏CS的,比如 machine learning in big data framework,现在很火的deep learning.
从收入来讲,基本偏编程的data scientist薪水最高,在编程的data scientist里, 做deep learning算法的薪水最高。某土豪公司的搞machine learning算法的薪水差不多平均half million
但是,咱们也得看自己是哪块料,对哪行感兴趣是不。下面我就慢慢分析每种data scientist是干啥的,以及skill set
偏business的:对技术要求最低,基本会个sql就行,如果再会个基本的语言,比如r, python甚至sas就可以了。对soft skill要求很高,因为要经常跟marketing team, pm team 打交道。日常工作就是pull data, data cleaning, data manipulation,看看有什么insights, 最后的结果有时候做个dash board, 有时候就是excel里弄个pivot table就行。但是一个好的data analyst是可以从这些数据里总结出有价值的insights,如果上面决定take action of your insights,对公司的business还是影响挺大的。其实这个是data analyst工作中最难的一点,真的需要一定的经验才可以培养出来。但是一旦做个1-2年上手了,工作会比较轻松。
偏技术的:先说偏统计的吧。这部分人介于data analyst跟machine learning engineer之间,对技术要求比较全面,既要会sql,也要会用编程语言写一些模型的prototype,比如predict churn rate,用最简单的logistic regression就可以解决,但是你的code不是用一次就行,要每个月,甚至每周都用,所以要搭建一些pipeline可以让这个过程automate一下。所以对编程还是有一定要求的。有些公司用的大数据框架,你可能就得用spark。python的同学都在用pyspark。另外还要有一定的business sense,知道你做的模型能够解决什么business 问题,有什么impact。另外还有一部分人专门做实验设计,这块我不是很懂,所以不多说了。我觉得这部分人其实是个full stack的要求。但是如果你是技术类型的,即便不是统计cs科班出身,努努力还是可以入行的。
偏machine learning的,这些一般都是计算机专业的人在做,需要很懂什么是分布式系统,他们的作用是把模型在大数据框架下impletement出来,或者在原有的模型构建好的pipeline里如何去优化一下这个过程。更高端一些的研究machine learning算法的,这部分人基本都是cs phd们在做。不是科班出身的很难混进去。
先说这么多了,我也是转行过来,可能对行业的理解还不是很透彻,希望对想转行的,或者还在迷茫中的姐妹们有些帮助。欢迎大家补充~~
今晚回来讲一下ds面试准备,还有入行后的发展方向吧, 先去上班了,又是忙碌的一天
入行后data scientist的发展
忙了一天,娃又生病,刚把娃哄好,准备睡觉前更新下,今天的内容不会太多,主要是说一下入行以后的发展方向,其实很多人刚入行做某个方向,后面越做要么越偏码工,要么越偏business。这次从我上面说的第二种,也就是full stack的data scientist说起吧。
其实第二种的,地位有点略尴尬,因为很多时候大家都是在为business服务,大家刚入行的时候都报着想做个fancy的machine learning模型出来,然后给公司带来多么多么大的impact,但是你到了公司就知道,基本所有公司的数据都“不怎么地”,太多的bad data,首先就要花大量的时间去做data clearning,你数据不好,不论做什么分析,都是trash in trash out,毫无价值。数据整理好以后,也不是就生搬硬套弄个模型进来就完事。不像我们在学校写作业,甚至kaggle里面的数据竞赛,objective都很明确。很多时候我们其实并不了解business的需要,都不知道这些数据能干啥,所以即便你会用deep learning的工具包,不了解business的需要,也做不出啥有价值的东西。即便你找到一个很值得去用模型预测的变量,你的模型预测准确率非常好,但是你只能准备预测出很小一部分人的行为,也是白搭。举个最简单的例子:某公司想target一部分客户,那么我们把客户的profile数据弄出来,去预测这个客户会不会购买我们的产品,我们希望去target那些更有可能购买我们产品的客户。我们用random forest去预测,准确率高达95%,但是其实我们预测出来的购买产品的不到population的10%,你这个模型对于marketing的人来说是没有价值的。他们会觉得,你只有这么点人可以target,那么这个campaign也不用去做了。当然了,你可以调整模型预测的阈值来获取更多的可以target的客户,这里就不讨论技术了,只是举个简单的例子。
所以做第二种的,大多数人最后都要么朝着business 方向发展,变成了data/product analyst,如果痛恨business,讨厌跟marketing人打交道,就喜欢安安静静写写code,这部分人最后都成了data engineer甚至software engineer。有那么一小部分人(反正我没见过),真心热爱machine learning,都去做算法了,他们的title大部分是research scientist。
当然了,我也见过第一种最后变成了data engineer/software engineer的。
最后,我想说的是,对于刚入行的人,如果你的工作内容是第一种跟第二种,还是多花些时间去了解下你们行业的business,不要太盲目追求那些buzz words。干了一段时间后,应该就知道自己的兴趣所在了。
关于面试准备,如何转行,等我慢慢更新吧,谢谢大家的关注
我现在每个月就头四天比较忙。好无聊。现在想往第二个发展。
我不知道自己算不算转行,整个技术构架也跟上学时候不一样了,domain knowledge也变了。ML应用领域变广了,对于我这个打工妹肯定是好事。
不管是原来学什么,都要不停学习才不会被淘汰。
谢谢分享. 楼主说的是不是主要指tech industry, 实验设计是不是主要针对医药行业.
mark,正想着毕业去machine learning玩玩呢,谢谢分享,期待你以后的解析!
谢谢分享,楼主能讲讲怎么转行的吗?
lz一定要回来填完啊
但是,忍不住说不要盲目跟风,转行的人,除了数学物理和少数生物phd能适合2、3类,其他的都在抢第1类。要想脱颖而出,还是要结合自己的兴趣和之前的工作经验
楼主总结的很好! 给你赞! 继续关注
THANKS FOR SHARING DATA SCIENTIST
看到很多大学都有开 甚至还是online的program
lz觉得这些program值得一读吗?胜在是online的可以平时在家读读
"作为转行的人之一,同意楼主说的每一个字。
但是,忍不住说不要盲目跟风,转行的人,除了数学物理和少数生物phd能适合2、3类,其他的都在抢第1类。要想脱颖而出,还是要结合自己的兴趣和之前的工作经验
wuyue1990 发表于 3/22/2017 12:37:03 PM "
fresh graduate准备找工作,觉得看了linkedin上大公司ds的背景,基本上都是Stats/CS的Phd,做的大概是楼主说的第三类,跟ML相关的。我跟风买了udemy的ML的课,作为对口专业的学生,基本功能达到第二种,但不知道自己能不能找到第三种,但是觉得那种课只会调用各种包有点太浅显了。还有就是一些1-1.5年program毕业的做的ds大概都是第一类,跟data/business analyst类似。
真正努力学的有两把刷子的不会出现这种现象。只能说现在说鱼目混珠,因为招人的人本身没有接触过或者不了解不懂。
所以MM是ML phd吗?
工科phd 不过当时做实验占的时间比较多 上完stat master的课 没拿学位
我们小公司 压力还是挺大的
一两个人一个project
有时候一个人跨两个同时做
偏data engieer 或者modeling的项目都有 基本每个人都有两种经验
主要用R 有时python sql 还有sas
需要结合business 和对ml方法比较深刻得理解 对于算法和计算速度要求不太高
薪水一般 工资低的地区 不过几乎不加班 还算知足
进来学习一下!
搞big data的大牛都说了,大数据目前尚无error bar,根本无从验证数据的真伪,所以big data支持所有人的所有观点,也就是什么都不支持。
数据有多种query法,因为数据量极大,微小的query差异都能导致最终结果的极大差距。而哪个结果对那个结果不真,没有standard去验证。
就好像心理学研究做survey取sample,如何问问题,选择哪些问题来问,最后可以导致完全不同的结果。而且结果是否是因为问题牵涉的条件s所导致的,并没有确凿证据。
至于machine learning人工智能什么的,facebook都开砍AI spending了,因为发现错误率高达70%。
看来你很擅长张嘴就来,表演起来驾轻就熟
谢谢
AI 没有大数据的技术支持,基本是不可能玩得转。deep learning也是NN的进阶版。60年代就有了。如果不是计算机技术的发展,还是科学幻想。我不明白怎么叫转人工智能,领域内只是越玩越高级了。人生三大梦想,无人驾驶,AI, 时光机,一个个都要实现了吗?