网上都有很好的解释,一般期待的答案如果能说出特点和优缺点就更好 比如 PCA 的特点就是正交性,缺点是线性和不可解释性(因为每个component 是原变量的线性组合),如果能对比 factor analysis 就更好了(大体上相反,每个变量是latent 的组合) 大部分统计的 simulation 都可以归结为对一个积分做估计,mcmc 是靠构建一个 markov chain 的稳态分布来保证,所以即使 mcmc 出来的点破坏了iid,它也是无偏估计,普通 mc simulation 无偏必须依赖于iid,因为收敛性是靠 law of large number 来保证 mcmc缺点网上都能搜到,主要是慢,需要 burn in ,单步类似随机游走,容易陷入局部点,一般都说 mixing 不好,改进方法很多,比如 no u-turn,更新一点的方法有hmc(其实也有20年了),优缺点能够说出名字和大概就行了,更细的就没必要问了
网上都有很好的解释,一般期待的答案如果能说出特点和优缺点就更好 比如 PCA 的特点就是正交性,缺点是线性和不可解释性(因为每个component 是原变量的线性组合),如果能对比 factor analysis 就更好了(大体上相反,每个变量是latent 的组合) 大部分统计的 simulation 都可以归结为对一个积分做估计,mcmc 是靠构建一个 markov chain 的稳态分布来保证,所以即使 mcmc 出来的点破坏了iid,它也是无偏估计,普通 mc simulation 无偏必须依赖于iid,因为收敛性是靠 law of large number 来保证 mcmc缺点网上都能搜到,主要是慢,需要 burn in ,单步类似随机游走,容易陷入局部点,一般都说 mixing 不好,改进方法很多,比如 no u-turn,更新一点的方法有hmc(其实也有20年了),优缺点能够说出名字和大概就行了,更细的就没必要问了
pca用一个词组概括的话就是dimension reduction,但如果你概括成feature selection/variable selection的话,就面试失败了。mcmc概括的话我只能想到simulation,可能太笼统了,mcmc里面的东西挺多的,得问题问的稍微细一点比较好回答,当然我也是刚学mcmc
统计本科都懂这个啊
你咋知道我不是manager?lol
要求过高
从来不用pca。问题很多。当然可能是因为domain不太一样
Yes or no.
就是因为几个大的决策没有真正懂domain和model limitation的DS,公司惨败。没有DS的swe,pm做都方向错了,都是白费力气。
最典型的例子是redfin 炒房。
群里应该有不少Director级别的DS吧。director关键就是把握direction. redfin更是牵扯到strategy,不是director可以决定的,但绝对可以影响最高层的决策
关键就是很多半路出家的Ds比Bi做的差太远了,缺乏基本商业还有美学审美训练
meta保的是ML,不是Ds
网上都有很好的解释,一般期待的答案如果能说出特点和优缺点就更好 比如 PCA 的特点就是正交性,缺点是线性和不可解释性(因为每个component 是原变量的线性组合),如果能对比 factor analysis 就更好了(大体上相反,每个变量是latent 的组合) 大部分统计的 simulation 都可以归结为对一个积分做估计,mcmc 是靠构建一个 markov chain 的稳态分布来保证,所以即使 mcmc 出来的点破坏了iid,它也是无偏估计,普通 mc simulation 无偏必须依赖于iid,因为收敛性是靠 law of large number 来保证 mcmc缺点网上都能搜到,主要是慢,需要 burn in ,单步类似随机游走,容易陷入局部点,一般都说 mixing 不好,改进方法很多,比如 no u-turn,更新一点的方法有hmc(其实也有20年了),优缺点能够说出名字和大概就行了,更细的就没必要问了
明白人
DS具体工作是干什么呢?
同问
数据里面找insight, 说是编故事也没错
问一个简单的问题,p -value在多少数据范围内有效?大数据为什么很少用到统计里的各种testing?
Mc就是用计算机做积分的方法
就是你这样的认知才搞坏了ds的口碑 牛顿当年写F=ma的时候,用纸笔 我估计现代大数据算个几分钟能总结出F=*%#^*? 而且有一大套的metric去论证fit得比F=ma好
大部分的数据科学家都是火坑phd,最多加个统计master
那说说你的认知啊
我不是投资人,不是老板,我的认知worthless 从工作角度讲,打工的没啥认知
如果你恰好是决策人,那么可以雇一些phd,好好pay他们,数据为本的去分析,能手算的手算,不能的再去写程序。忽悠客户的时候再把最亮眼的算法写上去
说了半天,你还是不懂什么是大数据。 ds这些年热起来本身就是cs下带动的,一天 Billion级的数据,如何去处理,如何手算? 同时 ds的知识范畴还涵盖了ml和dl。 传统统计学根本不是针对这个senario的,但是很多统计的非要往ds上靠,加上乱七八糟的火坑专业往这个方向转,学了点皮毛课程就说自己是ds了,所以这个行业现在乱起八糟的,鱼龙混杂。
你说的数据分析是da
"能手算的手算" ? 你的认知还真是 worthless
你说的这些工作都是labor intense、偏工程。我觉得你是不懂科学
作为真正用ds去挣钱,需要的是domain knowledge还有抽象简化能力。堆数据对算法计算机,到头来就是被layoff top names
如果你去理解字面意思,ok,那还真是没有抽象概括的能力。反正有billion trillion级别的数据和量子计算机么,一切都可以的
工程的解法就是brute force,包括前面有人提到的mcmc解法。
统计的诞生是因为小样本时代需要用样本去估计总体,但样本足够大的时候,还需要估算吗?当算力足够的时候,直接算不是比估算更准确?
不否认ds需要domain knowledge,但这和堆数据没关系。layoff 的也不是 cs下的这批ds
我真心觉着你不懂什么是ds,你可能说的是传统的da和ba
放到十年前大家都不知道怎么做,现在业界有基本常识了。 都是跟着产品走的,新产品出来肯定需要ds,没新产品的话现成的都搭好了,要是产品被砍了也就不需要ds了。 有用没用看能贡献什么,能drive产品的就有用,提供个报告就和运维差不多,10%-30%有经验的就够了
you are absolutely right
我懂data,我懂science,但是不懂data science
你的profile照片里的小宝宝好可爱
所以药厂还是需要统计的 小样本情况多 比如clinical trial
哈哈是的,这里的关键字是老黑,跟excel没关系,这个锅excel可不背。老黑就算是教两位数加法也可以自称是DS。
样本大 p value 小