DS这工种要完了吗?

想不出名字啊啊啊
同求
66woai 发表于 2022-11-11 07:23

pca用一个词组概括的话就是dimension reduction,但如果你概括成feature selection/variable selection的话,就面试失败了。mcmc概括的话我只能想到simulation,可能太笼统了,mcmc里面的东西挺多的,得问题问的稍微细一点比较好回答,当然我也是刚学mcmc
d
dearestkatrina
回复 59楼dodgers的帖子
统计本科都懂这个啊
s
sweetiemm
原来就有统计学了。最近几年大数据火了,就热炒。什么领域都往上靠。但不管在哪个行业,都算不上核心主业,就是数据分析。
d
democrap
回复 83楼wfmlover的帖子
你咋知道我不是manager?lol
0
01am
ds这行的确鱼龙混杂。但是说ds垃圾的,那business intelligence也是垃圾吗?ds说成machine learning的确包装过度,但是说成bi的一次升级不算过分吧。
s
shanggj
我面试 DS 主要问两大类问题,能够把 PCA 解释清楚的或者能够把 MCMC 解释清楚的,随便解释清楚一个地都可以考虑,两个都解释清楚的是 strong hire, 一个都没听说过或者解释不清的直接闲聊天,从来不问脑筋急转弯比如估算天上有多少飞机这种傻冒问题
facet 发表于 2022-11-10 20:40

要求过高
k
kikichichi
鱼龙的区别是基础理论这一块,phd 几年的课不是转码刷题三个月能替代的!很多高端的算法更需要对理论本身的理解!
a
atsumivest
感觉DS和SDE都是入行门槛比较低得工种,各种背景艺术文科都能转,但是做起工来SDE出不了活儿没法糊弄过去,DS的话,数据,方法,结果,解析,里面可以糊弄的地方太多,靠一张嘴比较容易糊弄,在量化宽松的环境下,公司可以容忍很多半吊子DS,但是量化紧缩的情况下,就不能养这种负资产了。看很多小硕(未来的DS)做presentation,把错的东西讲的头头是道,就知道这行养这么多人不靠谱,还是得少而精,最好PhD。
r
rainclear
Chandler就是干这个的,还是挺Decent的。总好过McKinsey & Company这些不知所谓的。
m
midusa
pca用一个词组概括的话就是dimension reduction,但如果你概括成feature selection/variable selection的话,就面试失败了。mcmc概括的话我只能想到simulation,可能太笼统了,mcmc里面的东西挺多的,得问题问的稍微细一点比较好回答,当然我也是刚学mcmc
想不出名字啊啊啊 发表于 2022-11-11 07:33

从来不用pca。问题很多。当然可能是因为domain不太一样
m
midusa
看行业。meta这种ds都不是核心部门,更多是帮助做决定,当然是没有sde重要。但有些做分析的公司ds还是很重要的,裁不到ds头上,但这种ds更像是传统做行业分析的公司。
sandyud 发表于 2022-11-10 18:51

Yes or no.
就是因为几个大的决策没有真正懂domain和model limitation的DS,公司惨败。没有DS的swe,pm做都方向错了,都是白费力气。
最典型的例子是redfin 炒房。
群里应该有不少Director级别的DS吧。director关键就是把握direction. redfin更是牵扯到strategy,不是director可以决定的,但绝对可以影响最高层的决策
h
hi2021
调包调参 怎么读 tiao diao。。。 怎样算是调包 复制代码还是调用numpy这种
C
CC055
DS是统计和CS交叉的专业,非常精深难钻,根本没有那么多人能qualify. 市场上那么多DS而且是半路出家转的,看不懂。。。
s
sheisfree
我理解的好的ds 是statistician, 统计是foundation of the foundation。好的ds绝对有用,但是当好的ds 难度很大。统计,编程,domain knowledge 都要很好才能当好的ds.
G
Geofan
要求过高
shanggj 发表于 2022-11-11 09:05

关键就是很多半路出家的Ds比Bi做的差太远了,缺乏基本商业还有美学审美训练
G
Geofan
meta这次是保ds而解雇了很多sde
可能是要搞元宇宙吧
eragshs 发表于 2022-11-10 19:02

meta保的是ML,不是Ds
f
facet
pca用一个词组概括的话就是dimension reduction,但如果你概括成feature selection/variable selection的话,就面试失败了。mcmc概括的话我只能想到simulation,可能太笼统了,mcmc里面的东西挺多的,得问题问的稍微细一点比较好回答,当然我也是刚学mcmc
想不出名字啊啊啊 发表于 2022-11-11 07:33

网上都有很好的解释,一般期待的答案如果能说出特点和优缺点就更好 比如 PCA 的特点就是正交性,缺点是线性和不可解释性(因为每个component 是原变量的线性组合),如果能对比 factor analysis 就更好了(大体上相反,每个变量是latent 的组合) 大部分统计的 simulation 都可以归结为对一个积分做估计,mcmc 是靠构建一个 markov chain 的稳态分布来保证,所以即使 mcmc 出来的点破坏了iid,它也是无偏估计,普通 mc simulation 无偏必须依赖于iid,因为收敛性是靠 law of large number 来保证 mcmc缺点网上都能搜到,主要是慢,需要 burn in ,单步类似随机游走,容易陷入局部点,一般都说 mixing 不好,改进方法很多,比如 no u-turn,更新一点的方法有hmc(其实也有20年了),优缺点能够说出名字和大概就行了,更细的就没必要问了
x
xiaoxiongmei
ds一般都是phd吧,建模啥的其实不容易学。da就水太多了。只是现在title有点混淆了
D
DaHill
回复 103楼01am的帖子
明白人
s
shangwangwengweng
回复 3楼twocents88的帖子
DS具体工作是干什么呢?
k
kats
回复 3楼twocents88的帖子
DS具体工作是干什么呢?
shangwangwengweng 发表于 2022-11-11 13:34

数据里面找insight, 说是编故事也没错
b
buc
RT
x
xmv
“科学家”
w
weiweide
统计学的存在是小样本时代,ds的出现是大数据时代,ds必须要有处理大数据的能力,这一套系统都是在hadoop上,所以跨cs,需要编程过硬。如果ds还是在做小样本数据自然是做不过原统计专业了
问一个简单的问题,p -value在多少数据范围内有效?大数据为什么很少用到统计里的各种testing?
A
ADLL
what s TS.
w
weiweide
网上都有很好的解释,一般期待的答案如果能说出特点和优缺点就更好 比如 PCA 的特点就是正交性,缺点是线性和不可解释性(因为每个component 是原变量的线性组合),如果能对比 factor analysis 就更好了(大体上相反,每个变量是latent 的组合) 大部分统计的 simulation 都可以归结为对一个积分做估计,mcmc 是靠构建一个 markov chain 的稳态分布来保证,所以即使 mcmc 出来的点破坏了iid,它也是无偏估计,普通 mc simulation 无偏必须依赖于iid,因为收敛性是靠 law of large number 来保证 mcmc缺点网上都能搜到,主要是慢,需要 burn in ,单步类似随机游走,容易陷入局部点,一般都说 mixing 不好,改进方法很多,比如 no u-turn,更新一点的方法有hmc(其实也有20年了),优缺点能够说出名字和大概就行了,更细的就没必要问了

facet 发表于 2022-11-11 12:06

Mc就是用计算机做积分的方法
c
crazymutt
统计学的存在是小样本时代,ds的出现是大数据时代,ds必须要有处理大数据的能力,这一套系统都是在hadoop上,所以跨cs,需要编程过硬。如果ds还是在做小样本数据自然是做不过原统计专业了
问一个简单的问题,p -value在多少数据范围内有效?大数据为什么很少用到统计里的各种testing?
weiweide 发表于 2022-11-11 14:30

就是你这样的认知才搞坏了ds的口碑 牛顿当年写F=ma的时候,用纸笔 我估计现代大数据算个几分钟能总结出F=*%#^*? 而且有一大套的metric去论证fit得比F=ma好
e
elias
统计phd 加cs master 这个组合比较好
不娶何撩
哈哈哈~ 那个为了1块钱建了3座高楼的讨饭mm不也是DS吗?
h
heydaymint
统计phd 加cs master 这个组合比较好
elias 发表于 2022-11-11 15:28



大部分的数据科学家都是火坑phd,最多加个统计master
w
weiweide
就是你这样的认知才搞坏了ds的口碑 牛顿当年写F=ma的时候,用纸笔 我估计现代大数据算个几分钟能总结出F=*%#^*? 而且有一大套的metric去论证fit得比F=ma好
crazymutt 发表于 2022-11-11 15:11

那说说你的认知啊
c
crazymutt
那说说你的认知啊
weiweide 发表于 2022-11-11 15:34

我不是投资人,不是老板,我的认知worthless 从工作角度讲,打工的没啥认知
如果你恰好是决策人,那么可以雇一些phd,好好pay他们,数据为本的去分析,能手算的手算,不能的再去写程序。忽悠客户的时候再把最亮眼的算法写上去
w
weiweide
我不是投资人,不是老板,我的认知worthless 从工作角度讲,打工的没啥认知
如果你恰好是决策人,那么可以雇一些phd,好好pay他们,数据为本的去分析,能手算的手算,不能的再去写程序。忽悠客户的时候再把最亮眼的算法写上去
crazymutt 发表于 2022-11-11 15:42

说了半天,你还是不懂什么是大数据。 ds这些年热起来本身就是cs下带动的,一天 Billion级的数据,如何去处理,如何手算? 同时 ds的知识范畴还涵盖了ml和dl。 传统统计学根本不是针对这个senario的,但是很多统计的非要往ds上靠,加上乱七八糟的火坑专业往这个方向转,学了点皮毛课程就说自己是ds了,所以这个行业现在乱起八糟的,鱼龙混杂。
你说的数据分析是da
s
shanggj
我不是投资人,不是老板,我的认知worthless 从工作角度讲,打工的没啥认知
如果你恰好是决策人,那么可以雇一些phd,好好pay他们,数据为本的去分析,能手算的手算,不能的再去写程序。忽悠客户的时候再把最亮眼的算法写上去
crazymutt 发表于 2022-11-11 15:42

"能手算的手算" ? 你的认知还真是 worthless
c
crazymutt
说了半天,你还是不懂什么是大数据。 ds这些年热起来本身就是cs下带动的,一天 Billion级的数据,如何去处理,如何手算? 同时 ds的知识范畴还涵盖了ml和dl。 传统统计学根本不是针对这个senario的,但是很多统计的非要往ds上靠,加上乱七八糟的火坑专业往这个方向转,学了点皮毛课程就说自己是ds了,所以这个行业现在乱起八糟的,鱼龙混杂。
你说的数据分析是da
weiweide 发表于 2022-11-11 15:51

你说的这些工作都是labor intense、偏工程。我觉得你是不懂科学
作为真正用ds去挣钱,需要的是domain knowledge还有抽象简化能力。堆数据对算法计算机,到头来就是被layoff top names
c
crazymutt
"能手算的手算" ? 你的认知还真是 worthless
shanggj 发表于 2022-11-11 15:55

如果你去理解字面意思,ok,那还真是没有抽象概括的能力。反正有billion trillion级别的数据和量子计算机么,一切都可以的
w
weiweide
你说的这些工作都是labor intense、偏工程。我觉得你是不懂科学
作为真正用ds去挣钱,需要的是domain knowledge还有抽象简化能力。堆数据对算法计算机,到头来就是被layoff top names
crazymutt 发表于 2022-11-11 15:56

工程的解法就是brute force,包括前面有人提到的mcmc解法。
统计的诞生是因为小样本时代需要用样本去估计总体,但样本足够大的时候,还需要估算吗?当算力足够的时候,直接算不是比估算更准确?
不否认ds需要domain knowledge,但这和堆数据没关系。layoff 的也不是 cs下的这批ds
我真心觉着你不懂什么是ds,你可能说的是传统的da和ba
l
lazycat12345
回复 1楼weiweide的帖子
放到十年前大家都不知道怎么做,现在业界有基本常识了。 都是跟着产品走的,新产品出来肯定需要ds,没新产品的话现成的都搭好了,要是产品被砍了也就不需要ds了。 有用没用看能贡献什么,能drive产品的就有用,提供个报告就和运维差不多,10%-30%有经验的就够了
c
crazymutt
工程的解法就是brute force,包括前面有人提到的mcmc解法。
统计的诞生是因为小样本时代需要用样本去估计总体,但样本足够大的时候,还需要估算吗?当算力足够的时候,直接算不是比估算更准确?
不否认ds需要domain knowledge,但这和堆数据没关系。layoff 的也不是 cs下的这批ds
我真心觉着你不懂什么是ds,你可能说的是传统的da和ba
weiweide 发表于 2022-11-11 16:15

you are absolutely right
我懂data,我懂science,但是不懂data science
s
shaohuacrystal
统计phd 加cs master 这个组合比较好
elias 发表于 2022-11-11 15:28

你的profile照片里的小宝宝好可爱
想不出名字啊啊啊
统计学的存在是小样本时代,ds的出现是大数据时代,ds必须要有处理大数据的能力,这一套系统都是在hadoop上,所以跨cs,需要编程过硬。如果ds还是在做小样本数据自然是做不过原统计专业了
问一个简单的问题,p -value在多少数据范围内有效?大数据为什么很少用到统计里的各种testing?
weiweide 发表于 2022-11-11 14:30

所以药厂还是需要统计的 小样本情况多 比如clinical trial
k
keluoyi
其实删掉红色部分,基本也差不离。。
“看到有个老黑在youtube上教excel也自称数据科学家,你说呢?”
anye 发表于 2022-11-10 22:23

哈哈是的,这里的关键字是老黑,跟excel没关系,这个锅excel可不背。老黑就算是教两位数加法也可以自称是DS。
y
yzt0013
看来满版的都是sde的,要把ds给踩脚底下,说明现在大公司裁人力度还不够,企业得进一步压低成本,把sde拉回市场平均待遇这个世界才会正常。目前码工还是世界上最好转进去,投入产出最高的行业,该转码还是要转码,即使待遇下来也比多数行业好。隔壁还讨论不学cs去搞ee,不知道ee投入要求太高了,即使进个初级水平的码工也比ee毕业的强。最近听说学ee的人数迅速回升,因为ee的待遇近几年在迅速提高,这也是市场自我调节的一个机制。但即使ee待遇一样,还是不如cs的wlb和发展空间好。
L
LuckyJecci
呃都是打工人 窝里横比谁更高大上有意思吗 学学人家三哥三姐抱团商业互捧不好么…
a
alpha511
回复 123楼weiweide的帖子
样本大 p value 小