闲话人多,从职场版搬过来请版主手下留情。有关data scientist vs. 传统行业data analytics

C
Cath226
101 楼


这个我也很无语。errer term就非得叫cost function,variable就非要叫feature。真是矫情

lilimarah 发表于 9/21/2018 1:46:31 AM

第一个其实两者不一样。比如error term是Gaussian distributed,就可以对应square loss function,但是本质上这两者是不同的,只有在某些特殊情况下得到一样的结果。

一些model只能用loss function定义,error term是没有distribution的。
S
Stream211
102 楼

我读完stat ms,上了cs的课,也是稀里糊涂的。phd期间听了好几个panel talk才终于觉得稍微懂了。首先任何对model进行training、parameter tuning的方法,都可以称作learning。但现在machine learning和statistical learning正在diverge。区别其实不在于data大小,而在于,1,二者目标根本不同;2,二者的基础也不同。
ML的目的在于准确度,hit rate/error rate;统计的目的在于interpretion。ML的基础是data,统计的基础是分布,是representative sample。
简单的ML模型层面,统计的现成模型很好用。比如logistic回归特别适合做binary classification。至于LASSO,一直都叫“statistical learning”。我觉得variable selection就是statistical learning的典型,因为,方法是training/tuning的,但目的是统计的(要更容易interpret的模型)。比如如果你只做PCA,那就算learning,只有当你试图解释这个PC代表了什么的时候,才是统计。另外time series基本不是learning。
而大热的DL,就是在ML的方向上离统计越来越远。DL的几乎所有模型都不可能被interpret,没人能够解释那么多神经元是有任何现实意义,likelihood function通常不存在,其实DL基本脱离了distribution的概念,已经很难跟统计再放在一起谈了。

Cath226 发表于 9/21/2018 7:13:12 AM


妹子写的真好。我也觉得作为ds,统计和ml都得会,根据需要来决定哪种工具更适合。但是dl的应用我觉得比较局限,需要海量数据,结果也不好解释。
C
Cath226
103 楼


妹子写的真好。我也觉得作为ds,统计和ml都得会,根据需要来决定哪种工具更适合。但是dl的应用我觉得比较局限,需要海量数据,结果也不好解释。

Stream211 发表于 9/21/2018 8:00:52 AM

我老公工作是用DL的。只能说分情况讨论吧。

data science是新兴学科,至少我聊过很多搞传统统计的人,他们并不确定data science的定义。也有过统计要不要更名data science的争议。老头老太们当然一百个不乐意啦,其实我觉得也不妥。感觉真的应该单开一贴聊聊。data analyst、statistician、data scientist,其实都不一样。没有official的区分,也有很多overlap,但我是老派人,心里是有对这些title的区分的。哈哈。
v
vikpie
104 楼
我觉得我的发言应该单开一帖,哈哈哈。
Cath226 发表于 9/21/2018 7:15:06 AM

再来一贴吧,想听~~
x
xzmpc
105 楼
楼主,其实要不做那种hard core,技术类的东西都是小问题,你在这个行业的knowledge才是重点啊!我经历过几个老板,技术最强的那个真不是最好的老板。最好的老板是有管人经验,对本行业有大的picture,知道方向在哪里的那种。而且domain knowledge的获取比普通技术难多了。你这十年经验要好好用一下,技术类的东西自己学一下,能用就完事了,一般搞上两三个项目,什么python也好,R也好,立马都熟了。
guihuagao 发表于 9/20/2018 11:15:15 PM

说的真好。话说已经到管理层了又要从头开始学新东西真是不容易,走管理路线, 知道些皮毛大方向,也很好。
x
xzmpc
106 楼

我读完stat ms,上了cs的课,也是稀里糊涂的。phd期间听了好几个panel talk才终于觉得稍微懂了。首先任何对model进行training、parameter tuning的方法,都可以称作learning。但现在machine learning和statistical learning正在diverge。区别其实不在于data大小,而在于,1,二者目标根本不同;2,二者的基础也不同。
ML的目的在于准确度,hit rate/error rate;统计的目的在于interpretion。ML的基础是data,统计的基础是分布,是representative sample。
简单的ML模型层面,统计的现成模型很好用。比如logistic回归特别适合做binary classification。至于LASSO,一直都叫“statistical learning”。我觉得variable selection就是statistical learning的典型,因为,方法是training/tuning的,但目的是统计的(要更容易interpret的模型)。比如如果你只做PCA,那就算learning,只有当你试图解释这个PC代表了什么的时候,才是统计。另外time series基本不是learning。
而大热的DL,就是在ML的方向上离统计越来越远。DL的几乎所有模型都不可能被interpret,没人能够解释那么多神经元是有任何现实意义,likelihood function通常不存在,其实DL基本脱离了distribution的概念,已经很难跟统计再放在一起谈了。

Cath226 发表于 9/21/2018 7:13:12 AM

一直分不清,MM这么一说,好像make sense呢,赞
x
xzmpc
107 楼

再来一贴吧,想听~~
vikpie 发表于 9/21/2018 8:38:19 AM


我也会搬小板凳来听的 :)
5
5180
108 楼
该用户帖子内容已被管理员屏蔽
c
cosc
109 楼
python和R真到项目实际运行的时候都很鸡肋很鸡肋...
yuejianxin 发表于 9/20/2018 11:56:51 PM

What's the problem there? Just curious.
5
5180
110 楼
该用户帖子内容已被管理员屏蔽
c
cosc
111 楼
lz我bootcamp另给你投信说吧。
yuejianxin 发表于 9/21/2018 12:33:07 AM

Would you please PM me the bootcamp info.? Thanks!
m
mirrior
112 楼
爬楼学到很多,马克一下ds统计 ---发自Huaren 官方 iOS APP
S
Stream211
113 楼
我觉得我们正在经历定义data science的过程。这个过程可能还得要个十来年。

引用掉了。。。@cath226
m
maplepine
114 楼
数据是真的大。。。我是python很熟的,现在也开始spark和scala了。。。。
凯凯 发表于 9/20/2018 11:43:29 PM


Yeah, I've heard recently multiple times Scala is more efficient than python. So if lz wanna follow technical track, learning never stops at python/r/ml etc...
m
mangmang
115 楼
学会用几个程序包不难吧,逻辑都差不多。又不是要自己发明算法.
T
Tree1888
116 楼
Mark Mark
s
sweetme
117 楼
看做什么吧,你要是在药厂,怎么用python?不知道银行保险领域怎么样。data science很多应用在marketing上吧 ---发自Huaren 官方 iOS APP
c
chatsworth
118 楼
mark mark
q
qing
119 楼
难的不是学一两样新东西,而是处理数据的思路。很多人是现在都是直接学python 的,自然觉得简单。ml你不接触背后的理论知识,学学kaggle的经验也很够用。但如果你长期浸淫在sas之类的统计软件下,所有思维惯性会让你在用python的时候觉得寸步难行。不要说SAS,我用惯R后学的python,至今不爱用各种嫌弃。常常这家好用的函数那家没有,重写又巨麻烦,深到数据结构内嵌的平行计算,更是有一大堆吐嘈。

lz我bootcamp另给你投信说吧。
yuejianxin 发表于 9/21/2018 12:33:07 AM mm

我也在考虑这方面的bootcamp, 能否麻烦给我也发个消息? 多谢!
l
lilpurple
120 楼

我读完stat ms,上了cs的课,也是稀里糊涂的。phd期间听了好几个panel talk才终于觉得稍微懂了。首先任何对model进行training、parameter tuning的方法,都可以称作learning。但现在machine learning和statistical learning正在diverge。区别其实不在于data大小,而在于,1,二者目标根本不同;2,二者的基础也不同。
ML的目的在于准确度,hit rate/error rate;统计的目的在于interpretion。ML的基础是data,统计的基础是分布,是representative sample。
简单的ML模型层面,统计的现成模型很好用。比如logistic回归特别适合做binary classification。至于LASSO,一直都叫“statistical learning”。我觉得variable selection就是statistical learning的典型,因为,方法是training/tuning的,但目的是统计的(要更容易interpret的模型)。比如如果你只做PCA,那就算learning,只有当你试图解释这个PC代表了什么的时候,才是统计。另外time series基本不是learning。
而大热的DL,就是在ML的方向上离统计越来越远。DL的几乎所有模型都不可能被interpret,没人能够解释那么多神经元是有任何现实意义,likelihood function通常不存在,其实DL基本脱离了distribution的概念,已经很难跟统计再放在一起谈了。

Cath226 发表于 9/21/2018 7:13:12 AM


赞!mm要是能单独开一贴具体讲讲就好了

才知道ML原来不要求对模型interpretation,不同专业之间的institutional logic差别真的好大!
i
igarden
121 楼
难的不是学一两样新东西,而是处理数据的思路。很多人是现在都是直接学python 的,自然觉得简单。ml你不接触背后的理论知识,学学kaggle的经验也很够用。但如果你长期浸淫在sas之类的统计软件下,所有思维惯性会让你在用python的时候觉得寸步难行。不要说SAS,我用惯R后学的python,至今不爱用各种嫌弃。常常这家好用的函数那家没有,重写又巨麻烦,深到数据结构内嵌的平行计算,更是有一大堆吐嘈。

lz我bootcamp另给你投信说吧。
yuejianxin 发表于 9/21/2018 12:33:07 AM


麻烦跟我也说下bootcamp。谢谢
l
lilimarah
122 楼
本来就是为人家business服务的,当然要按照人家的习惯来说话啦

---发自Huaren 官方 iOS APP
大喜妞 发表于 9/21/2018 1:48:52 AM

business才不要知道这些呢。这些term只有analytics自己人才用的
q
qingcongsuiyue
123 楼
回复 1楼biabia的帖子

我就是在两者之间转行了,今天在外面开会,改天来好好写写。
q
qing
124 楼
回复 1楼biabia的帖子

我就是在两者之间转行了,今天在外面开会,改天来好好写写。
qingcongsuiyue 发表于 9/21/2018 7:12:14 PM


mark, looking forward!
c
cauchy
125 楼
你可以不换啊,自己呆着升职
jenisicecream 发表于 9/20/2018 3:13:38 PM


本行业和本组没前途,实在不想呆了

biabia 发表于 9/20/2018 3:24:22 PM

觉得没前途为什么不学新技术呢 ---发自Huaren 官方 iOS APP
s
sadcore
126 楼
我觉得我的发言应该单开一帖,哈哈哈。
Cath226 发表于 9/21/2018 7:15:06 AM


求再发一点详细的说说
y
yuejianxin
127 楼
封装和平台间的转移很麻烦,编译花费比较大,速度不行,和spark之类的tool之间交互的时候configuration很复杂,有些option在scala和java的情况下存在但python和r不行。总之就是隔着层皮搔痒的感觉,常常是干着急。
r
redeye
128 楼
mark 一下DS。 争取先成功成为调包侠
y
yuejianxin
129 楼
有不少mm问bootcamp信息,我尽量回复了,如果有漏的还想要的可以短我,爬楼太累。

我想说的是bootcamp类似短期速成职业培训,多半是捋一遍知识点然后带着做两期kaggle项目,费用不便宜。我最初接触到也是面试的时候别人提起,毕竟招bootcamp出来的人比招fresh的进来好用,也比烙印咨询公司的好用,上手快,所以在大环境海招ds的情况下,bootcamp资历也逐渐被认可。在职带娃的都知道学习和转行的压力和生活之间的痛苦平衡,这毕竟是权宜之策。所以收到我信息的mm自己好好权衡一下。我自己没有真正参加过这些bootcamp,在我入这行初期,还没有这些指南,而且现在ds的面试对coding的要求已经大大降低,许多公司已经把和cs的面试分化开去。关键还是分析的思路,problem solving的能力展现以及对新事物的学习能力。这行还有太多东西在被定义中,要做好准备已经学的东西也可能会快起变化,被替代。
s
sisi2001401
130 楼
Mark data science
B
BearPandaMonkey
131 楼
Interesting discussion
m
majia问问题
132 楼
mark好贴
L
LuckyJecci
133 楼
楼主 你考虑product analyst这种方向吗?现在flag招的都是ds都是做这方面,跟Pm一起做feature的,domain knowledge不难 pay高
eling820 发表于 9/21/2018 1:58:48 AM


想跳这种!
j
jiayoululu
134 楼
Mark 求短bootcamp信息
q
qingcongsuiyue
135 楼


hahaha,好形象

vikpie 发表于 9/20/2018 8:26:10 PM


其实没有几个人不是调包侠,那几个都在大学里和文章里,剩下的大家半斤八两,没有什么可笑的。做应用的不见得比做学术的蠢。
q
qingcongsuiyue
136 楼

这个我也很无语。errer term就非得叫cost function,variable就非要叫feature。真是矫情

lilimarah 发表于 9/21/2018 1:46:31 AM


对对对,笑抽了,明明就是原来那个变量用的不顺手,新建一个变量,非要说feature engineering,有朝一日我招人的时候,谁写这个一概不要。。。。
q
qingcongsuiyue
137 楼

我读完stat ms,上了cs的课,也是稀里糊涂的。phd期间听了好几个panel talk才终于觉得稍微懂了。首先任何对model进行training、parameter tuning的方法,都可以称作learning。但现在machine learning和statistical learning正在diverge。区别其实不在于data大小,而在于,1,二者目标根本不同;2,二者的基础也不同。
ML的目的在于准确度,hit rate/error rate;统计的目的在于interpretion。ML的基础是data,统计的基础是分布,是representative sample。
简单的ML模型层面,统计的现成模型很好用。比如logistic回归特别适合做binary classification。至于LASSO,一直都叫“statistical learning”。我觉得variable selection就是statistical learning的典型,因为,方法是training/tuning的,但目的是统计的(要更容易interpret的模型)。比如如果你只做PCA,那就算learning,只有当你试图解释这个PC代表了什么的时候,才是统计。另外time series基本不是learning。
而大热的DL,就是在ML的方向上离统计越来越远。DL的几乎所有模型都不可能被interpret,没人能够解释那么多神经元是有任何现实意义,likelihood function通常不存在,其实DL基本脱离了distribution的概念,已经很难跟统计再放在一起谈了。

Cath226 发表于 9/21/2018 7:13:12 AM


这段写得超级好。

我就顺在这里写写我的经历吧。我呢出身还不如楼主mm,我是econ出身,后来混进了stat队伍,后来在巨传统巨压抑的地方做了很多年的business analyst,有一天实在受不了裸辞了,然后不知道撞到什么鬼被抓去做ds了。在ds队伍里混了大半年,我的观感是这样的,ds呢,是个professional titile,里面做什么的人都有,从高能物理到微生物学,运气好还有几个经济学的,但是在这个帽子底下,个人还是在做个人原来的事情。有些什么事情可以做呢?DL,咱这种背景就别想了,别看现在大热,各各都想往它上靠,退潮的时候,谁在裸泳还真不知道。因为绝大多数的人,都是调包侠,就是把github里的包,用到自己的情况下,稍微改改,放自己的猪头照片,面部识别了哟!而且就想上面这个说的一样,它离统计很远,你学起来也困难。还有各种搭硬件平台超级电脑的活,咱也不会,真叫你做你也未必看得上,这不就是IT support的活高级了一点么。

python不是问题,虽然我也很讨厌python,我觉得问题的关键是现在软件什么多,到底学哪个。这牵扯到你决定在哪个方面深入发展。是visualization,还是EDA,还是stat,ml。我觉得吧,把stat的本职工作放到python里去做好,系统地学一遍ml,学一点big data(只要一点是因为在欧盟GDPR下有big data的机会并不多),就差不多了。然后就是发展自己的domain knowledge了。我折腾了大半年,得出结论,千万不要勉强自己,上面那段里说的那些不擅长的活,别人怎么跟我说我都会睡着的,我也努力啦,还是coursera那个andrew ng deep learning课程的mentor呢,但是实际操作中,人家根本不问你cnn里面流程是怎么样的,就要你搭一个能识别猪脸的平台,对不起,臣妾做不来。。。
5
5180
138 楼
该用户帖子内容已被管理员屏蔽
5
5180
139 楼
该用户帖子内容已被管理员屏蔽
l
lala_2009
140 楼
statistics跟ml是不一样的,of course
我学的是传统statistics,从来不觉得这些知识会过时
但是ml不能一点都不懂
statistics和ml都在发展,有一些牛人正在做两者结合的东西。我也希望自己能做一些。
不论自己做什么出身,要认清自己的优势劣势。更重要的是当前有什么问题,你会屠龙术是没有用的。别人怎样解决,自己有没有可能有更好的解决方法。别人用ml解决,你也许可以用stat+ml解决,效果比人家好(error rate 也好、interpretability也好),那么你就是牛人。
Cath226 发表于 9/20/2018 5:29:37 PM

很赞同
t
teenbress
141 楼

我读完stat ms,上了cs的课,也是稀里糊涂的。phd期间听了好几个panel talk才终于觉得稍微懂了。首先任何对model进行training、parameter tuning的方法,都可以称作learning。但现在machine learning和statistical learning正在diverge。区别其实不在于data大小,而在于,1,二者目标根本不同;2,二者的基础也不同。
ML的目的在于准确度,hit rate/error rate;统计的目的在于interpretion。ML的基础是data,统计的基础是分布,是representative sample。
简单的ML模型层面,统计的现成模型很好用。比如logistic回归特别适合做binary classification。至于LASSO,一直都叫“statistical learning”。我觉得variable selection就是statistical learning的典型,因为,方法是training/tuning的,但目的是统计的(要更容易interpret的模型)。比如如果你只做PCA,那就算learning,只有当你试图解释这个PC代表了什么的时候,才是统计。另外time series基本不是learning。
而大热的DL,就是在ML的方向上离统计越来越远。DL的几乎所有模型都不可能被interpret,没人能够解释那么多神经元是有任何现实意义,likelihood function通常不存在,其实DL基本脱离了distribution的概念,已经很难跟统计再放在一起谈了。

Cath226 发表于 9/21/2018 7:13:12 AM


还记得我电面的一个问题就是ML和传统的stat有什么区别。其实传统的stat比如各类回归也是ML的一部分,但处理数据的思路是不一样的。现在学了SAS, R, Python,感觉起来python还是应用最广的。在大数据的背景下,不光是python,spark和scala也需要渐渐跟上了。
C
CoolTeeth
142 楼
回复 1楼biabia的帖子

楼主你好歹还有传统统计背景还会SAS。我们公司最近刚招了个SVP就读了一DS硕士学位还从来没把这些上课学的用到实践中过,然后此人立志要把公司里十几二十号毫无统计背景和编程背景(有些写SQL都吃力)的做一般analytics的人transform 成data scientist,哈哈哈,这些人很多在公司已经很多年了,一直就是用Excel和Teradata,现在突然要他们学R或者Python。此人就是靠一张嘴抛出无数fancy words忽悠CMO被招进来的。我们公司不是咨询公司,大部分这些人都是老美,平时都不怎么加班的,公司也不鼓励加班。我完全不知道他们要如何在不影响自己本职工作的情况下用上班时间从头学习统计和编程。

☆ 发自 iPhone 华人一网 1.14
g
goodluckhw
143 楼
这是个好帖
z
zimimi2014
144 楼
好帖,学了很多
d
donkey
145 楼
为啥我觉得统计和ml有联系 但联系不大。统计本来就是因为要解决数据量不够大而发展出的一门科学。ml就是因为信息时代的数据量和计算机计算能力提高上去才发展出来的。现在数据量这么大的情况,就用算法直接在数据里找规律就行了,所以我倒是觉得cs的人做ml更上手。我的两分钱
wingofdream 发表于 9/21/2018 2:40:46 AM


感觉就是抽几个样本作survey和简单粗暴统计整个population的区别?那也不是放之四海而皆准啊,现在数据这么丰富,也没人能准确预测出一只股票的走势。而且ml不能interpret的特性,在某些行业是致命伤。。。