所谓增加sample size能降低的这个标准差是the standard deviation of the sampling distribution of the sample mean。其过程是这样的:比如这100个点的采 样这个事情你做20次,每次都得到100个数,每次都可以算这100个数的平均值。比如第一次你的平均值55,第二次你可能的平均值63,第三次你得平均值是46,等等。把这20个平均值放在一起(55,63,46,...),这就基本上是sampling distribution of the sample mean。这个distribution也有standard deviation,假设它是10,那么这个标 准差可以被降低--通过增加sample size。比如你sample size是1000。你还是做20次采样,每次采样变成1000个点。也就是每次得到1000个数,每次计算这1000个数的平均值。比如第一次得到平均值57,第二次得到平均值61,第三次得到平均值58,等等,把这20个数放在一起(57,61,58,...),这个distribution的standard deviation就应该小于10,关系是~1/sqrt(N).
【 在 Rolling (A Rolling Stone) 的大作中提到: 】 : 楼主把题目改的具体了,如下, : (我写的具体一些,是说100个用户给出评价,平均分是55,标准差是10,经理觉得可 : 信度不太高,想把标准差降低到2 : ,然后问大概要多少用户。 我还画了图演示) : 大家不要废话,直接给答案吧。
我同意wdong所说,如果样本是iid,不管样本size多大,样本标准差(sample standard deviation, which is an estimation of standard deviation of population)是差不多的。第一个标准差应该就是指这个。那第二个标准差就只能理解成样本平均值(x_ bar=sum(x1:xn)/n, which is a random variable)的标准差了。我知道从题目的表述 来看这么理解很牵强,但只能这样,要不然没题可做。
给定样本size 100, 样本平均值x_bar的标准差只有1 (population std which is 10, divided by sqrt(100)).这其实很直观:随便抽一个,标准差大概10. 100个平均下来 标准差只剩1不奇怪。
【 在 Rolling (A Rolling Stone) 的大作中提到: 】 : 我也来讨论一下。那些光喊容易不给答案的机器人就不要来掺乎了. :-) : 这是楼主改了几遍的原题,还是一团乱麻, : (我写的具体一些,是说100个用户给出评价,平均分是55,标准差是10,经理觉得可 : 信度不太高,想把标准差降低到2,然后问大概要多少用户。 我还画了图演示. : 我同意wdong所说,如果样本是iid,不管样本size多大,样本标准差(sample standard : deviation, which is an estimation of standard deviation of population)是差 : 不多的。第一个标准差应该就是指这个。那第二个标准差就只能理解成样本平均值(x_ : bar=sum(x1:xn)/n, which is a random variable)的标准差了。我知道从题目的表述 : 来看这么理解很牵强,但只能这样,要不然没题可做。 : 给定样本size 100, 样本平均值x_bar的标准差只有1 (population std which is 10, : ...................
第一道 P(A|B)=P(AB)*? 把问号部分填上,写啥都行。
第二道,100个采样方差10,问把方差降到2,估计大概需要多少采样。
(我写的具体一些,是说100个用户给出评价,平均分是55,标准差是10,经理觉得可
信度不太高,想把标准差降低到2,然后问大概要多少用户。 我还画了图演示.
不过我现在仔细想想,这道题出的很有问题,要改改)
然后把面试的人搞得很难过,一直说我忘记了,2016年DS master毕业的,我就不敢再
问了。
我是不是问的太难了?是不是不该问数学概率题了? 应该问你用过tensorflow 哪个
包,干了啥事。
【 在 bobohu (bobohu) 的大作中提到: 】
: 给DS的题。
: 第一道 P(A|B)=P(AB)*? 把问号部分填上,写啥都行。
: 第二道,100个采样方差10,问把方差降到2,估计大概需要多少采样。
: 然后把面试的人搞得很难过,一直说我忘记了,2016年DS master毕业的,我就不敢再
: 问了。
: 我是不是问的太难了?是不是不该问数学概率题了? 应该问你用过tensorflow 哪个
: 包,干了啥事。
或者,默写个正太分布公式
每个人简历上都说的天花乱坠,看上去啥个machine learning都会。
算法问的深一点,碰到数学了,那就更歇菜了。
【 在 magliner (magliner) 的大作中提到: 】
: 你出的题,不是难,而是在工作中根本用不到。还不如丢给对方一本<概率论与数理统>: 计>, 一个上午能做多少算多少。
: 或者,默写个正太分布公式
所以這種東西答不上來的人,活都應該out source到中國。
【 在 bobohu (bobohu) 的大作中提到: 】
: 给DS的题。
: 第一道 P(A|B)=P(AB)*? 把问号部分填上,写啥都行。
: 第二道,100个采样方差10,问把方差降到2,估计大概需要多少采样。
: 然后把面试的人搞得很难过,一直说我忘记了,2016年DS master毕业的,我就不敢再
: 问了。
: 我是不是问的太难了?是不是不该问数学概率题了? 应该问你用过tensorflow 哪个
: 包,干了啥事。
方差由分布决定,和增加采样有什么关系。
标准正太分布方差就是1, 再怎么采样也还是1,最多估计的精确点。
我又去查了下google,确定我理解没有错误。
肯定是你问的不对,自己搞错概念了。
【 在 bobohu (bobohu) 的大作中提到: 】
: 给DS的题。
: 第一道 P(A|B)=P(AB)*? 把问号部分填上,写啥都行。
: 第二道,100个采样方差10,问把方差降到2,估计大概需要多少采样。
: 然后把面试的人搞得很难过,一直说我忘记了,2016年DS master毕业的,我就不敢再
: 问了。
: 我是不是问的太难了?是不是不该问数学概率题了? 应该问你用过tensorflow 哪个
: 包,干了啥事。
【 在 wdong (万事休) 的大作中提到: 】
: 第二个我也不会。
: 方差由分布决定,和增加采样有什么关系。
: 标准正太分布方差就是1, 再怎么采样也还是1,最多估计的精确点。
: 我又去查了下google,确定我理解没有错误。
: 肯定是你问的不对,自己搞错概念了。
【 在 rgg (rgg) 的大作中提到: 】
: 问1/sqrt(N)吧。这可经常用到。
分布的方差。
【在 wdong(万事休)的大作中提到:】
:第二个我也不会。
:方差由分布决定,和增加采样有什么关系。
【 在 wdong (万事休) 的大作中提到: 】
: 第二个我也不会。
: 方差由分布决定,和增加采样有什么关系。
: 标准正太分布方差就是1, 再怎么采样也还是1,最多估计的精确点。
: 我又去查了下google,确定我理解没有错误。
: 肯定是你问的不对,自己搞错概念了。
python和javascript。data scientist这一行,我自己都过不了面试。
就是楼上说的,稍微问到点数学就不行了。
【 在 TheMatrix (TheMatrix) 的大作中提到: 】
: 是sampling mean的方差。sampling mean本身是个random variable,有方差,不是原
: 分布的方差。
: 【在 wdong(万事休)的大作中提到:】
: :第二个我也不会。
: :方差由分布决定,和增加采样有什么关系。
而是能不能反映出面试者在工作中的能力 这两个题都很基础 在学校考试里都是基础
题 但是工作面试中不一定是合适的面试题
能回答对的人 说明这人的记忆,理解,基础不错 但没法说明这人的business sense或者对工作中需要的tools更熟悉
反之亦然
觉得面试还是应该更全面考察 而不是一两道认为很简单基础的题没答上就彻底否定了
面试者
当然你要找的是个牛人除外 什么都懂的牛人自然是最好的选择
【 在 bobohu (bobohu) 的大作中提到: 】
: 我是不是问的太难了?是不是不该问数学概率题了? 应该问你用过tensorflow 哪
我跟楼主和楼上能答上来的同学不是一行的。不是一行的,说的不是一个
语言,以后工作估计就会有各种问题。
【 在 Marcus2010 (马库斯) 的大作中提到: 】
: 我是觉得这两个题不是难不难的问题
: 而是能不能反映出面试者在工作中的能力 这两个题都很基础 在学校考试里都是基础
: 题 但是工作面试中不一定是合适的面试题
: 能回答对的人 说明这人的记忆,理解,基础不错 但没法说明这人的business sense或
: 者对工作中需要的tools更熟悉
: 反之亦然
: 觉得面试还是应该更全面考察 而不是一两道认为很简单基础的题没答上就彻底否定了
: 面试者
: 当然你要找的是个牛人除外 什么都懂的牛人自然是最好的选择
名堂, 就应该考虑换个方向了。
如果我是来面试,第一题不仅能写全条件概率公式,还应该展开说说在实践中是怎么找到这个'条件'的, 比如怎么把客户群按照何种'条件'分类, 看客户行为的。 用什么方法找到这个条件的? 代码怎么写?
第二题,在实际应用中则是个样本大小的问题。样本大小在统计里是个没有定论的题目,应聘者应该说说是怎么和客户忽悠,计算出required sample size的。 几个月前<细胞>有人建议把百分之五改成千分之五,生物版马上有人推算出小白鼠的数量要增加百
分之多少。
这就是我们民科的基本功。
工作的 谁用这玩意
语法我都是现 stackoverflow
我会考考算法 编程能力 这个强的话 出活快
基本的那些统计 感觉 自己补补也就够了 如果需要的话, 况且很多情况谁用这破玩意啊都是直接用现成的工具跑啊 编程啊 实现啊 谁管具体原理, 抓住猫就是好老鼠啊
我倒是想考算法,不过结果会更差。
【 在 goodtudou (goodtudou) 的大作中提到: 】
: 适合问刚毕业的
: 工作的 谁用这玩意
: 语法我都是现 stackoverflow
: 我会考考算法 编程能力 这个强的话 出活快
: 基本的那些统计 感觉 自己补补也就够了 如果需要的话, 况且很多情况谁用这破玩意
: 啊都是直接用现成的工具跑啊 编程啊 实现啊 谁管具体原理, 抓住猫就是好老鼠啊
【 在 wdong(万事休) 的大作中提到: 】
: 第二个我也不会。
: 方差由分布决定,和增加采样有什么关系。
: 标准正太分布方差就是1, 再怎么采样也还是1,最多估计的精确点。
: 我又去查了下google,确定我理解没有错误。
: 肯定是你问的不对,自己搞错概念了。
但是在你提示和解释疑惑的过程中,还是可以看出他是否理解
基本概念,这都不理解的就不要指望能在DS工作方面能做啥了。
当然帮写些scripts做些杂事可能还是可以的。
【 在 bobohu (bobohu) 的大作中提到: 】
: 给DS的题。
: 第一道 P(A|B)=P(AB)*? 把问号部分填上,写啥都行。
: 第二道,100个采样方差10,问把方差降到2,估计大概需要多少采样。
: (具体问的时候,是说100个用户给出评价,评价的方差是10,觉得太大了,想降低
到2
: ,然后问大概要多少用户)
: 然后把面试的人搞得很难过,一直说我忘记了,2016年DS master毕业的,我就不敢再
: 问了。
: 我是不是问的太难了?是不是不该问数学概率题了? 应该问你用过tensorflow 哪个
: 包,干了啥事。
包裹,这个可以。
我曾经有个电面,问了大半天,还把我数落了一番,然后工资。。,浪费了电话费和时间。
做统计的不知道1/sqrt(N)显然不合格。你的问题不难。
我们EE的都知道啊。
做统计的不知道1/sqrt(N)显然不合格。你的问题不难。
我们EE的都知道啊。
测量一般第一次猜就是猜独立同分布就是大数定律类似的
东西出来就是平方根反比。
或者看股市的话,日价格统计和周价格统计两个时间序列的
方差比大致就是1/sqrt(5)
如果距离这个数字太远
我会认为有事情发生了
(Netghost等financial series专家请纠正)
还有策略吃10秒rebalancing 和1小时rebalancing
之间的波动差。收割波动。
【 在 wdong(万事休) 的大作中提到: 】
: 第二个我也不会。
: 方差由分布决定,和增加采样有什么关系。
: 标准正太分布方差就是1, 再怎么采样也还是1,最多估计的精确点。
: 我又去查了下google,确定我理解没有错误。
: 肯定是你问的不对,自己搞错概念了。
物理和解决实际问题的办法。这倒不是数学问题。
这类似于rules of thumb
【 在 wdong(万事休) 的大作中提到: 】
<br>: 我觉得基础题还是有用的。比如楼主这个基础题一出,基本上就判断出了<br>: 我跟楼主和楼上能答上来的同学不是一行的。不是一行的,说的不是一个<br>: 语言,以后工作估计就会有各种问题。
<br>
这个价格你估计的高了点。我们这里principal data scientist没这个base
【 在 echowuhao(echo) 的大作中提到: 】
<br>: 我插一句,要看职位pay多少。10万以下,问这样的问题确实太难了。要
是20万
以上的
<br>: 包裹,这个可以。
<br>: 我曾经有个电面,问了大半天,还把我数落了一番,然后工资。。,浪费了电话
费和时
<br>: 间。
<br>
他找的是DS
不是data engineer
【 在 goodtudou(goodtudou) 的大作中提到: 】
: 适合问刚毕业的
: 工作的 谁用这玩意
: 语法我都是现 stackoverflow
: 我会考考算法 编程能力 这个强的话 出活快
: 基本的那些统计 感觉 自己补补也就够了 如果需要的话, 况且很多情况谁用这破玩意
: 啊都是直接用现成的工具跑啊 编程啊 实现啊 谁管具体原理, 抓住猫就是好老鼠啊
第一道 P(A|B)=P(AB)*? 把问号部分填上,写啥都行。
P(A|B)=P(AB)/P(B)
第二道,100个采样方差10,问把方差降到2,估计大概需要多少采样。
(具体问的时候,是说100个用户给出评价,评价的方差是10,觉得太大了,想降低到2,然后问大概要多少用户)
不怎么确定“采样方差”,看题应该是该standard error (标准误),如果理解准确
的话,应该是
2500采样。
采样点增加sqrt(5)
不要想太多
他问的就是知道不知道大数定律
【 在 zyh961171(凉白开) 的大作中提到: 】
: 试做一下,请勿见笑!
: 第一道 P(A|B)=P(AB)*? 把问号部分填上,写啥都行。
: P(A|B)=P(AB)/P(B)
: 第二道,100个采样方差10,问把方差降到2,估计大概需要多少采样。
: (具体问的时候,是说100个用户给出评价,评价的方差是10,觉得太大了,想
降低到2
: ,然后问大概要多少用户)
: 不怎么确定“采样方差”,看题应该是该standard error (标准误),如果理
解准确
: 的话,应该是
: 2500采样。
【 在 bobohu (bobohu) 的大作中提到: 】
: 给DS的题。
: 第一道 P(A|B)=P(AB)*? 把问号部分填上,写啥都行。
: 第二道,100个采样方差10,问把方差降到2,估计大概需要多少采样。
: (具体问的时候,是说100个用户给出评价,评价的方差是10,觉得太大了,想降低
到2
: ,然后问大概要多少用户)
: 然后把面试的人搞得很难过,一直说我忘记了,2016年DS master毕业的,我就不敢再
: 问了。
: 我是不是问的太难了?是不是不该问数学概率题了? 应该问你用过tensorflow 哪个
: 包,干了啥事。
具体数字得看estimate是有偏还是无偏吧,我记得无偏是除N-1,这样就是sqrt(N-1)吧
【 在 iamicewolf (icewolf) 的大作中提到: 】
: 楼主第二题应该问的是the standard error of the mean吧,这个值才和取样的多少相
: 关
【 在 iamicewolf (icewolf) 的大作中提到: 】
: 楼主第二题应该问的是the standard error of the mean吧,这个值才和取样的多少相
: 关
【 在 bobohu (bobohu) 的大作中提到: 】
: 给DS的题。
: 第一道 P(A|B)=P(AB)*? 把问号部分填上,写啥都行。
: 第二道,100个采样方差10,问把方差降到2,估计大概需要多少采样。
: (具体问的时候,是说100个用户给出评价,评价的方差是10,觉得太大了,想降低
到2
: ,然后问大概要多少用户)
: 然后把面试的人搞得很难过,一直说我忘记了,2016年DS master毕业的,我就不敢再
: 问了。
: 我是不是问的太难了?是不是不该问数学概率题了? 应该问你用过tensorflow 哪个
: 包,干了啥事。
两题一点问题都没有, 因为确实太太基础了。
【 在 realphone(realphone) 的大作中提到: 】
: 如果招统计的,这两题不会就淘汰了吧。 本科统计就学过。 我PHD 毕业五年了, 这
: 两题一点问题都没有, 因为确实太太基础了。
题主确实没有表述清楚,可能打字只是打了一个大意。 这类问题太基础了, 题主刚说前半句,按照统计的惯性思维就知道他想问什么了,如果在面试中, 让题主多解释一
下, 或者一问一答,去年才毕业,不至于呆若木鸡, 不停说忘了, 确实过于不去。
【 在 wdong (万事休) 的大作中提到: 】
: 第二个我也不会。
: 方差由分布决定,和增加采样有什么关系。
: 标准正太分布方差就是1, 再怎么采样也还是1,最多估计的精确点。
: 我又去查了下google,确定我理解没有错误。
: 肯定是你问的不对,自己搞错概念了。
数学问题, 能够很快得结论,而且很准确,缺乏这方面的训练, 可能解决方案就是上simulation, 跑程序, 跑出来结论肯定没错,但是有时候会花很多不必要的时间。现
在很多DS 简历吹得天花乱坠,其实也就是用了PYTHON几个包, 稍微让他们评价比较
一下算法都不行,还不如花个7,8万雇个啥都不懂的,直接让他们根据指示跑程序当机器人用。
编程能力非常重要,没话说。当然如果你算法大牛,也许编程也不重要了。
【 在 goodtudou (goodtudou) 的大作中提到: 】
: 适合问刚毕业的
: 工作的 谁用这玩意
: 语法我都是现 stackoverflow
: 我会考考算法 编程能力 这个强的话 出活快
: 基本的那些统计 感觉 自己补补也就够了 如果需要的话, 况且很多情况谁用这破玩意
: 啊都是直接用现成的工具跑啊 编程啊 实现啊 谁管具体原理, 抓住猫就是好老鼠啊
楼主问的问题没错,可以加点context。
第一题,可以问,明天天气又打雷又下雨的概率怎么求。
第二题,有一个只有一个柜台但是有一个人要checkout的商场,还有一个有十个柜台但是有十个人准备checkout的商店,选择哪一个。
这样大家就有的东西聊了。
面试就是一个考察沟通的问题,双方都有沟通的义务。
大家都是互相学习嘛,抬头不见低头见。去面试的就算拿不到offer,学点东西也是很
高兴的。
P(AB)是啥意思? P(A)*P(B) 还是 P(AnB)?
方差是standard deviation,是分布的固有性质,没法降低。能降低的叫标准误差
standard error,这个才可能跟采样数量相关。而且本身分布不确定的时候,你要套用大数定理,这个数量也不够大。
【 在 bobohu (bobohu) 的大作中提到: 】
: 给DS的题。
: 第一道 P(A|B)=P(AB)*? 把问号部分填上,写啥都行。
: 第二道,100个采样方差10,问把方差降到2,估计大概需要多少采样。
: (具体问的时候,是说100个用户给出评价,评价的方差是10,觉得太大了,想降低
到2
: ,然后问大概要多少用户)
: 然后把面试的人搞得很难过,一直说我忘记了,2016年DS master毕业的,我就不敢再
: 问了。
: 我是不是问的太难了?是不是不该问数学概率题了? 应该问你用过tensorflow 哪个
: 包,干了啥事。
【 在 GDBS (()) 的大作中提到: 】
: 楼主,你这两道题都出得有问题,就别光怪面试者了。
: P(AB)是啥意思? P(A)*P(B) 还是 P(AnB)?
: 方差是standard deviation,是分布的固有性质,没法降低。能降低的叫标准误差
: standard error,这个才可能跟采样数量相关。而且本身分布不确定的时候,你要套用
: 大数定理,这个数量也不够大。
: 到2
【 在 minigun (lool) 的大作中提到: 】
: 你应该不是统计口的。
【 在 minigun (lool) 的大作中提到: 】
: 你应该不是统计口的。
和
1.用统计解决过实际问题
2.做过产品
3.对统计的物理有了解
这三种情况不是一回事。
“物理”的意思是相对独立于描述办法的那部分知识。
楼主和前面几位看一眼就知道是sqrt(N)的是靠这个
吃饭的统计专业人士。要么是EE处理测量的。等等。
【 在 Rolling(A Rolling Stone) 的大作中提到: 】
<br>: 我咋觉得相反。前面都是编程的大神,不像数理统计的。这位靠谱多了
<br>
应该是顺便学过点统计,但不是内行不知道切口。
所以我说面基本问题也是有意义的。话一出口就知道路数对不对。
比如说按字典念了淬(cui)火,荨(qian)麻疹,基本上就是外行滚出了。
人家zhan火,xun麻疹约定俗称了,大家心知肚明。
【 在 GDBS (()) 的大作中提到: 】
: 楼主,你这两道题都出得有问题,就别光怪面试者了。
: P(AB)是啥意思? P(A)*P(B) 还是 P(AnB)?
: 方差是standard deviation,是分布的固有性质,没法降低。能降低的叫标准误差
: standard error,这个才可能跟采样数量相关。而且本身分布不确定的时候,你要套用
: 大数定理,这个数量也不够大。
: 到2
【 在 guvest (我爱你老婆Anna) 的大作中提到: 】
: 书面会统计课本的知识。
: 和
: 1.用统计解决过实际问题
: 2.做过产品
: 3.对统计的物理有了解
: 这三种情况不是一回事。
: “物理”的意思是相对独立于描述办法的那部分知识。
: 楼主和前面几位看一眼就知道是sqrt(N)的是靠这个
: 吃饭的统计专业人士。要么是EE处理测量的。等等。
:
: 我咋觉得相反。前面都是编程的大神,不像数理统计的。这位靠谱多了
: ...................
荨麻
qiánmá
〖nettle〗∶荨麻科,尤其是荨麻属的植物,遍体多刺或接触它们会感到针刺般疼痛
〖nettlefibre〗∶该植物的纤维
【 在 wdong (万事休) 的大作中提到: 】
: 你路数是跟我一样的了。
: 应该是顺便学过点统计,但不是内行不知道切口。
: 所以我说面基本问题也是有意义的。话一出口就知道路数对不对。
: 比如说按字典念了淬(cui)火,荨(qian)麻疹,基本上就是外行滚出了。
: 人家zhan火,xun麻疹约定俗称了,大家心知肚明。
发信人: realphone (realphone), 信区: Programming
标 题: Re: 我出的面试题是不是太难了
发信站: BBS 未名空间站 (Fri Jan 19 20:04:00 2018, 美东)
这话99%情况都没错, 但是组里还是需要一个懂数学或者统计的。 有时候明明是一个
数学问题, 能够很快得结论,而且很准确,缺乏这方面的训练, 可能解决方案就是上simulation, 跑程序, 跑出来结论肯定没错,但是有时候会花很多不必要的时间。
【 在 GDBS (()) 的大作中提到: 】
: 楼主那个问题究竟是不是sqrt(N),你去run个simulation就知道了....LOL...
只要知道随着数据或者测量的增加,std曲线走的形状就可以了。
【 在 GDBS(()) 的大作中提到: 】
<br>: 楼主那个问题究竟是不是sqrt(N),你去run个simulation就知道了....
LOL...
<br>
他说的是第一种。一个人如果物理不对,这个人又不是第二种懂数学的狠人。那需要多花的时间可不
是一点两点.
【 在 wdong(万事休) 的大作中提到: 】
<br>: 您已自动撞在枪口上了。
<br>: 这楼好欢乐,各种行业套路都出来了。
<br>: 发信人: realphone (realphone), 信区: Programming
<br>: 标 题: Re: 我出的面试题是不是太难了
<br>: 发信站: BBS 未名空间站 (Fri Jan 19 20:04:00 2018, 美东)
<br>: 这话99%情况都没错, 但是组里还是需要一个懂数学或者统计的。 有时
候明明
是一个
<br>: 数学问题, 能够很快得结论,而且很准确,缺乏这方面的训练, 可能解决方案
就是上
<br>: simulation, 跑程序, 跑出来结论肯定没错,但是有时候会花很多不必
要的时
间。
<br>
【 在 guvest(我爱你老婆Anna) 的大作中提到: 】
<br>: 懂数学的有两种。第一种其实是懂物理,就是知道怎么用数学。能把数学知识嵌
入到产
<br>: 品或者一个组织,一个机器的工作序列里面。第二种是懂得如何创造数学。或者
说就是
<br>: 发明算法以及写新类型的程序。
<br>: 他说的是第一种。一个人如果物理不对,这个人又不是第二种懂数学的狠人。那
需要多
<br>: 花的时间可不
<br>: 是一点两点.
<br>:
DS就是给H4和文科女解决就业的
【在 bobohu(bobohu)的大作中提到:】
:给DS的题。
:第一道 P(A|B)=P(AB)*? 把问号部分填上,写啥都行。
【 在 GAGAMA(GAGA) 的大作中提到: 】
: 何必呢,大家心里都清楚DS会操作sql就行了,有难度的问题自然是数学,物理
PhD解决
: DS就是给H4和文科女解决就业的
: :给DS的题。
: :第一道 P(A|B)=P(AB)*? 把问号部分填上,写啥都行。
: 给DS的题。
: 第一道 P(A|B)=P(AB)*? 把问号部分填上,写啥都行。
: 第二道,100个采样方差10,问把方差降到2,估计大概需要多少采样。
: (具体问的时候,是说100个用户给出评价,评价的方差是10,觉得太大了,想降低
到2
: ,然后问大概要多少用户)
: 然后把面试的人搞得很难过,一直说我忘记了,2016年DS master毕业的,我就不敢再
: 问了。
: 我是不是问的太难了?是不是不该问数学概率题了? 应该问你用过tensorflow 哪个
: 包,干了啥事。
我面试人这两道题也常出
说实话,跑算法我找个高中生就能跑,怎么区分人啊
当然要看基础
贝叶斯公式都答不上来, 取样理论都不知道,光会调参数的话,我招谁不是招?
假设variable S 均值E(S) 方差是 var(S). 现在有100个sample,s[1,1,2...100]
iid, 卤煮的意思应该是这样:如果 E{ [ (s1-E_100)^2 + (s1-E_100)^2 ... + (
s100-E_100)]/100 }= 10, 【E{} 外面的 “E” Expectation运算不能去掉,否则 {}
内的部分还是个变量,题目的说法就没意义了】 那么求最小的整数N,满足 E{ [(s1-E_N)^2 + (s1-E_N)^2 ... + (sN -E_N)]/N } = 2. where E_N是 E(s)使用N个
sample的estimate,而不是 E(S):E_N = sum(si)/N 。 貌似这个题不简单
现在市面上大部分所谓的ds就是写query整理ppt的
这些不懂也正常
【 在 bobohu (bobohu) 的大作中提到: 】
: 给DS的题。
: 第一道 P(A|B)=P(AB)*? 把问号部分填上,写啥都行。
: 第二道,100个采样方差10,问把方差降到2,估计大概需要多少采样。
: (具体问的时候,是说100个用户给出评价,评价的方差是10,觉得太大了,想降低
到2
: ,然后问大概要多少用户)
: 然后把面试的人搞得很难过,一直说我忘记了,2016年DS master毕业的,我就不敢再
: 问了。
: 我是不是问的太难了?是不是不该问数学概率题了? 应该问你用过tensorflow 哪个
: 包,干了啥事。
数学上来讲,倍努力,柏松,马尔可夫 都研究过。
物理上来讲,
多次测量的平均可以导致更准的结果这个思路更不简单。
人类如何从低精度测量仪器发展出来高精度的?
除了这个统计的办法,我知道的仅有的,
就是EE的办法,反馈,
现在也叫refeinforce learning.
【 在 heihuafei() 的大作中提到: 】
: 第二题确实题意不清楚。我也是民科出身,试着理解一下。
: 假设variable S 均值E(S) 方差是 var(S). 现在有100个sample,s[1,1,2...100]
: iid, 卤煮的意思应该是这样:如果 E{ [ (s1-E_100)^2 (s1-E_100)^2 ... (
: s100-E_100)]/100 }= 10, 【E{} 外面的 “E” Expectation运算不能去掉,否则 {}
: 内的部分还是个变量,题目的说法就没意义了】 那么求最小的整数N,满足 E{ [(s1-
: E_N)^2 (s1-E_N)^2 ... (sN -E_N)]/N } = 2. where E_N是 E(s)使用N个
: sample的estimate,而不是 E(S):E_N = sum(si)/N 。 貌似这个题不简单
【 在 holydistance(植物猫) 的大作中提到: 】
<br>: 你这算是给正经ds的题
<br>: 现在市面上大部分所谓的ds就是写query整理ppt的
<br>: 这些不懂也正常
<br>: 到2
<br>
正方形内画个内接圆, 往上投针,根据针落在园内的比例可以估计Pi的值, 现在希望估计的值精度能到 1%, 大概需要投多少次针
这个做过蒙特卡洛或者实验数据处理的,一口就能答上来
但如果说学过基本的统计但好无头绪的, 就太水了
有些地方data engineer要管data infra和pipeline
反而ds干的就是我说的那种analyst的东西
然后其实有些analyst尤其是大银行里的都是stat phd这些都是小菜
【 在 guvest (我爱你老婆Anna) 的大作中提到: 】
: 那叫data engineer吧
:
: 你这算是给正经ds的题
:
: 现在市面上大部分所谓的ds就是写query整理ppt的
:
: 这些不懂也正常
:
: 到2
:
你这题太难了
我都答不上来
我只能告诉你
第一 次数多更准
第二 次数和标准差的关系我首先会套sqrtN试一下
三十年前我高中时候可以答
【 在 Nisayer(si fata sinata) 的大作中提到: 】
<br>: 第二个题我通常这么问
<br>: 正方形内画个内接圆, 往上投针,根据针落在园内的比例可以估计Pi的
值, 现
在希望
<br>: 估计的值精度能到 1%, 大概需要投多少次针
<br>: 这个做过蒙特卡洛或者实验数据处理的,一口就能答上来
<br>: 但如果说学过基本的统计但好无头绪的, 就太水了
<br>
么 VAR ((S1+S2..+SN)/N) = [VAR(S1)+VAR(S2)...VAR(SN)]/(N^2) = VAR(S)/N;
如果 N =100时候 VAR(S)/100 = 10, 那么 N = 500 时 VAR(S)/ N = 2.
【 在 heihuafei () 的大作中提到: 】
: 第二题确实题意不清楚。我也是民科出身,试着理解一下。
: 假设variable S 均值E(S) 方差是 var(S). 现在有100个sample,s[1,1,2...100]
: iid, 卤煮的意思应该是这样:如果 E{ [ (s1-E_100)^2 + (s1-E_100)^2 ... + (
: s100-E_100)]/100 }= 10, 【E{} 外面的 “E” Expectation运算不能去掉,否则 {}
: 内的部分还是个变量,题目的说法就没意义了】 那么求最小的整数N,满足 E{ [(
s1-
: E_N)^2 + (s1-E_N)^2 ... + (sN -E_N)]/N } = 2. where E_N是 E(s)使用N个
: sample的estimate,而不是 E(S):E_N = sum(si)/N 。 貌似这个题不简单
【 在 heihuafei () 的大作中提到: 】
: ahh 我理解的模型好像不对。应该就是是 VAR((S1+S2..+S100)/100) = 10, 求最小的
: N 使得 VAR ((S1+..SN)/N) =2。 S1, S2, ... SN ~ iid 。 如果S是正态分布那
: 么 VAR ((S1+S2..+SN)/N) = [VAR(S1)+VAR(S2)...VAR(SN)]/(N^2) = VAR(S)/N;
: 如果 N =100时候 VAR(S)/100 = 10, 那么 N = 500 时 VAR(S)/ N = 2.
: s1-
【 在 holydistance (植物猫) 的大作中提到: 】
: s啥分布都没关系
先说点技术的吧,问这个题,相当于在高考数学里问:请证明勾股定理。
这玩意人人都会用,但是没几个能证出来。
你还别不信,我国高考历史上真有这题。。。
再说点非技术的:
1. 这题最大的用处在于,刷掉那个我们都很讨厌的群体,说的谁,你懂的。我还考过
丫们一元一次方程。想干掉他们,有一万种方法。
2. 招人的原则:不在于他能不能答上来,关键是表现如何。在面试官引导下,能不能
一步步思考接近答案。很多知识点临时不会没关系,之后态度好智力正常,招进来慢慢学都没问题。关键是看态度,看交流能力,看思维方式。这个只能靠面试官自己体会。3. 要是还不放心,就看学历,看GPA。名校高分的,都不会太差。我不是学校歧视,而是这方法久经考验。
再回到技术上:
你要真想招个技术好上来能干活的,要么给他个小project,限期一天做完。要么问些
开放性的易答难精的问题,比如:
1. 如何对付数据中的missing value;
2. 如何对付over fitting;
3. 结合你以前干过的活,结合domain knowledge,再谈谈前两题;
尤其是前两题,看上去很简单,网上也有很多答案,但是干过几个月和干过几年十几年的,干银行的干互联网广告的,回答起来是相当有区别的。有点类似于魂斗罗30条命还是3条命通关。易学难精。
对方要真能都答得挺好 我也就招了
【 在 timetodo(time2do) 的大作中提到: 】
: 这几年我面了n多DS了,n好几百,啥奇葩都有,这里谈谈体会。
: 先说点技术的吧,问这个题,相当于在高考数学里问:请证明勾股定理。
: 这玩意人人都会用,但是没几个能证出来。
: 你还别不信,我国高考历史上真有这题。。。
: 再说点非技术的:
: 1. 这题最大的用处在于,刷掉那个我们都很讨厌的群体,说的谁,你懂的。我
还考过
: 丫们一元一次方程。想干掉他们,有一万种方法。
: 2. 招人的原则:不在于他能不能答上来,关键是表现如何。在面试官引导下,
能不能
: 一步步思考接近答案。很多知识点临时不会没关系,之后态度好智力正常,招进来慢慢
: 学都没问题。关键是看态度,看交流能力,看思维方式。这个只能靠面试官自己体会。
: ...................
【 在 timetodo(time2do) 的大作中提到: 】
: 这几年我面了n多DS了,n好几百,啥奇葩都有,这里谈谈体会。
: 先说点技术的吧,问这个题,相当于在高考数学里问:请证明勾股定理。
: 这玩意人人都会用,但是没几个能证出来。
: 你还别不信,我国高考历史上真有这题。。。
: 再说点非技术的:
: 1. 这题最大的用处在于,刷掉那个我们都很讨厌的群体,说的谁,你懂的。我
还考过
: 丫们一元一次方程。想干掉他们,有一万种方法。
: 2. 招人的原则:不在于他能不能答上来,关键是表现如何。在面试官引导下,
能不能
: 一步步思考接近答案。很多知识点临时不会没关系,之后态度好智力正常,招进来慢慢
: 学都没问题。关键是看态度,看交流能力,看思维方式。这个只能靠面试官自己体会。
: ...................
【 在 bobohu (bobohu) 的大作中提到: 】
: 给DS的题。
: 第一道 P(A|B)=P(AB)*? 把问号部分填上,写啥都行。
: 第二道,100个采样方差10,问把方差降到2,估计大概需要多少采样。
: (具体问的时候,是说100个用户给出评价,评价的方差是10,觉得太大了,想降低
到2
: ,然后问大概要多少用户)
: 然后把面试的人搞得很难过,一直说我忘记了,2016年DS master毕业的,我就不敢再
: 问了。
: 我是不是问的太难了?是不是不该问数学概率题了? 应该问你用过tensorflow 哪个
: 包,干了啥事。
人家怕你不怀好意
by the way我是计量经济口的
然后从来没用过,你让我答?
【在 akasha663(akasha)的大作中提到:】
:本科理工科但凡学过一门概率统计的都应该能答出来,说难的都是文科生???
【 在 wwzz (一辈子当码工) 的大作中提到: 】
: 你,新毕业生?我二十多年前学的概率论,
: 然后从来没用过,你让我答?
: :本科理工科但凡学过一门概率统计的都应该能答出来,说难的都是文科生???
显然是P(AnB)
第二题,就算楼主出错了不严谨,统计口的含生统,经济phd等,显然知道楼主的意图
是什么。就是考sample mean的variance和sample obs的关系。别说没用。看工作性质
。最简单的就是做模拟的时候如果结果不稳定,看看加多少次可以让波动变小。
【 在 GDBS (()) 的大作中提到: 】
: 统计口的会怎么样?
第一个是基础之基础。被噎死得基本。
误差~1/sqrt(N),是设计实验得基本准则。对这个不是烂熟于心得,搞个屁得数据处
理。
【 在 bobohu (bobohu) 的大作中提到: 】
: 给DS的题。
: 第一道 P(A|B)=P(AB)*? 把问号部分填上,写啥都行。
: 第二道,100个采样方差10,问把方差降到2,估计大概需要多少采样。
: (我写的具体一些,是说100个用户给出评价,平均分是55,标准差是10,经理觉得可
: 信度不太高,想把标准差降低到2
: ,然后问大概要多少用户。 我还画了图演示)
: 然后把面试的人搞得很难过,一直说我忘记了,2016年DS master毕业的,我就不敢再
: 问了。
: 我是不是问的太难了?是不是不该问数学概率题了? 应该问你用过tensorflow 哪个
: 包,干了啥事。
【 在 abracadabra (abracadabra) 的大作中提到: 】
: 这都是基本功。
: 第一个是基础之基础。被噎死得基本。
: 误差~1/sqrt(N),是设计实验得基本准则。对这个不是烂熟于心得,搞个屁得数据处
: 理。
【 在 wwzz (一辈子当码工) 的大作中提到: 】
: 你,新毕业生?我二十多年前学的概率论,
: 然后从来没用过,你让我答?
: :本科理工科但凡学过一门概率统计的都应该能答出来,说难的都是文科生???
本科理工科但凡学过一门概率统计的都应该能答出来,说难的都是文科生?
【在 minigun(lool)的大作中提到:】
:20多年不用了,还想入这个行?你可以拿30万的马工包袱,但拿不了10万的真正DS包袱。
:【 在 wwzz (一辈子当码工) 的大作中提到: 】
【 在 wwzz (一辈子当码工) 的大作中提到: 】
: 我是回楼上的。
: 本科理工科但凡学过一门概率统计的都应该能答出来,说难的都是文科生?
: :20多年不用了,还想入这个行?你可以拿30万的马工包袱,但拿不了10万的真正DS包
: 袱。
: :【 在 wwzz (一辈子当码工) 的大作中提到: 】
(我写的具体一些,是说100个用户给出评价,平均分是55,标准差是10,经理觉得可
信度不太高,想把标准差降低到2
,然后问大概要多少用户。 我还画了图演示)
大家不要废话,直接给答案吧。
【 在 bobohu (bobohu) 的大作中提到: 】
: 给DS的题。
: 第一道 P(A|B)=P(AB)*? 把问号部分填上,写啥都行。
: 第二道,100个采样方差10,问把方差降到2,估计大概需要多少采样。
: (我写的具体一些,是说100个用户给出评价,平均分是55,标准差是10,经理觉得可
: 信度不太高,想把标准差降低到2
: ,然后问大概要多少用户。 我还画了图演示)
: 然后把面试的人搞得很难过,一直说我忘记了,2016年DS master毕业的,我就不敢再
: 问了。
: 我是不是问的太难了?是不是不该问数学概率题了? 应该问你用过tensorflow 哪个
: 包,干了啥事。
一个商品的评价假设是一个0到100之间的数,是一个random variable,有一个想象中
的distribution,这个distribution有mean有标准差。我们的目标就是搞清楚这个
distribution的mean和standard deviation,进而搞清楚这个distribution的整体形状。
方法就是sampling。要定sample size。比如先定个100。做一次采样就是得到100个数
,平均值是55这个好理解。标准差是10,这句话有问题。直接的理解是这100个数的标
准差。如果这样理解的话,那这个标准差是对原distribution的标准差的一个估计。增加sample size不能确定使这个估计变得更大或更小(因为原distribution的标准差可
能就是10左右)。
所谓增加sample size能降低的这个标准差是the standard deviation of the
sampling distribution of the sample mean。其过程是这样的:比如这100个点的采
样这个事情你做20次,每次都得到100个数,每次都可以算这100个数的平均值。比如第一次你的平均值55,第二次你可能的平均值63,第三次你得平均值是46,等等。把这20个平均值放在一起(55,63,46,...),这就基本上是sampling distribution of the
sample mean。这个distribution也有standard deviation,假设它是10,那么这个标
准差可以被降低--通过增加sample size。比如你sample size是1000。你还是做20次采样,每次采样变成1000个点。也就是每次得到1000个数,每次计算这1000个数的平均值。比如第一次得到平均值57,第二次得到平均值61,第三次得到平均值58,等等,把这20个数放在一起(57,61,58,...),这个distribution的standard deviation就应该小于10,关系是~1/sqrt(N).
【 在 Rolling (A Rolling Stone) 的大作中提到: 】
: 楼主把题目改的具体了,如下,
: (我写的具体一些,是说100个用户给出评价,平均分是55,标准差是10,经理觉得可
: 信度不太高,想把标准差降低到2
: ,然后问大概要多少用户。 我还画了图演示)
: 大家不要废话,直接给答案吧。
我们这一个培训,讲communication的。讲师原来是海军陆战队出身。典型的体育老师+文科僧了吧。
人家举例的时候,随口的例子就是,“泊松分布的probability density fucntion是。。" 然后把具体的form背了出来.
不过后来我想,会不会人家是雷达口的?那对ROC,泊松这些肯定特熟悉。不过能写出
form,基本功还是很了不起。毕竟不是Normal distribution。
【 在 Rolling (A Rolling Stone) 的大作中提到: 】
: 楼主把题目改的具体了,如下,
: (我写的具体一些,是说100个用户给出评价,平均分是55,标准差是10,经理觉得可
: 信度不太高,想把标准差降低到2
: ,然后问大概要多少用户。 我还画了图演示)
: 大家不要废话,直接给答案吧。
但是这个题还是出的有问题。
(1) std deviation s = sqrt (sum(x(i)-u)^2/N) 是个 random variable, 因为每
个sample x(i)是 random variable.
(2) standard deviation的期望值/均值 是个constant: E(s) = E[sqrt (sum(x(i)-u)^2/N) ] = C
(3)均值的估计值的误差也是个 random variable: ue= sum(x_i)/N - u; E(ue) = 0; var(ue) = var(x)/N;
【 在 heihuafei () 的大作中提到: 】
: 估计出题人想要的答案是 N = 100*sqrt(10/2)
: 但是这个题还是出的有问题。
: (1) std deviation s = sqrt (sum(x(i)-u)^2/N) 是个 random variable, 因为每
: 个sample x(i)是 random variable.
: (2) standard deviation的期望值/均值 是个constant: E(s) = E[sqrt (sum(x(i)
: -u)^2/N) ] = C
: (3)均值的估计值的误差也是个 random variable: ue= sum(x_i)/N - u; E(ue)
: = 0; var(ue) = var(x)/N;
【在 heihuafei()的大作中提到:】
:估计出题人想要的答案是 N = 100*sqrt(10/2)
:
【在 GDBS(())的大作中提到:】
:楼主,你这两道题都出得有问题,就别光怪面试者了。
:
【在 Nisayer(si fata sinata)的大作中提到:】
:第二个题我通常这么问
:
【在 minigun(lool)的大作中提到:】
:难道觉得回答出来很了不起么?
:
仔细想想,的确我的不对,下次改个好点的例子。不过我也没fail人家的面试。
【 在 repast (xebec) 的大作中提到: 】
: 第二题耍流氓了,自己都不合格
【 在 bobohu (bobohu) 的大作中提到: 】
: 给DS的题。
: 第一道 P(A|B)=P(AB)*? 把问号部分填上,写啥都行。
: 第二道,100个采样方差10,问把方差降到2,估计大概需要多少采样。
: (我写的具体一些,是说100个用户给出评价,平均分是55,标准差是10,经理觉得可
: 信度不太高,想把标准差降低到2,然后问大概要多少用户。 我还画了图演示.
: 不过我现在仔细想想,这道题出的很有问题,要改改)
: 然后把面试的人搞得很难过,一直说我忘记了,2016年DS master毕业的,我就不敢再
: 问了。
: 我是不是问的太难了?是不是不该问数学概率题了? 应该问你用过tensorflow 哪个
: 包,干了啥事。
定义,但是能像人家那样随手写出pdf的形式么?何况你是干啥工作的,人家干啥的。
。。
【 在 repast (xebec) 的大作中提到: 】
: Poisson 分布就是研究生第一门课或者本科生高年级的课会讲
: :难道觉得回答出来很了不起么?
: :
采样要估计的是population mean X。不是sample mean x。 sample mean是population mean的一个estimator X* 。 estimator和underlying population mean的偏差,当样本足够大时可以认为是正态分布。如果estimator 是unbiased, 该正态分别的均值为0
。样本越大,该正态分布的方差越小。渐近关系是σ~sqrt(N).
这些结果都是从大数定理和中心极限定理导出的。
【 在 TheMatrix(TheMatrix) 的大作中提到: 】
<br>: 应该是100*sqr(10/2)=2500吧。
<br>: :估计出题人想要的答案是 N = 100*sqrt(10/2)
<br>: :
<br>
当宝的。
【 在 bobohu (bobohu) 的大作中提到: 】
: 给DS的题。
: 第一道 P(A|B)=P(AB)*? 把问号部分填上,写啥都行。
: 第二道,100个采样方差10,问把方差降到2,估计大概需要多少采样。
: (我写的具体一些,是说100个用户给出评价,平均分是55,标准差是10,经理觉得可
: 信度不太高,想把标准差降低到2,然后问大概要多少用户。 我还画了图演示.
: 不过我现在仔细想想,这道题出的很有问题,要改改)
: 然后把面试的人搞得很难过,一直说我忘记了,2016年DS master毕业的,我就不敢再
: 问了。
: 我是不是问的太难了?是不是不该问数学概率题了? 应该问你用过tensorflow 哪个
: 包,干了啥事。
normal distribution。
【 在 abracadabra (abracadabra) 的大作中提到: 】
: 应该是100*(10/2)^2=2500.
: 采样要估计的是population mean X。不是sample mean x。 sample mean是
population
: mean的一个estimator X* 。 estimator和underlying population mean的偏差,当样
: 本足够大时可以认为是正态分布。如果estimator 是unbiased, 该正态分别的均值为
0
: 。样本越大,该正态分布的方差越小。渐近关系是σ~sqrt(N).
: 这些结果都是从大数定理和中心极限定理导出的。
:
: 应该是100*sqr(10/2)=2500吧。
:
: :估计出题人想要的答案是 N = 100*sqrt(10/2)
:
: :
:
这是楼主改了几遍的原题,还是一团乱麻,
(我写的具体一些,是说100个用户给出评价,平均分是55,标准差是10,经理觉得可
信度不太高,想把标准差降低到2,然后问大概要多少用户。 我还画了图演示.
我同意wdong所说,如果样本是iid,不管样本size多大,样本标准差(sample standard deviation, which is an estimation of standard deviation of population)是差不多的。第一个标准差应该就是指这个。那第二个标准差就只能理解成样本平均值(x_
bar=sum(x1:xn)/n, which is a random variable)的标准差了。我知道从题目的表述
来看这么理解很牵强,但只能这样,要不然没题可做。
给定样本size 100, 样本平均值x_bar的标准差只有1 (population std which is 10, divided by sqrt(100)).这其实很直观:随便抽一个,标准差大概10. 100个平均下来
标准差只剩1不奇怪。
所以现在不是降低样本平均值的标准差到2,而是升到2!样本size要减少,大概25就够了! (2=10/sqrt(25))
【 在 TheMatrix (TheMatrix) 的大作中提到: 】
: 对。sample mean的mean等于population mean。sample mean的distribution趋近于
: normal distribution。
: population
: 0
variable来说比较正常。但是如果说它是sample mean的标准差,那绝对太大了。所以
题出的确实欠考虑。
【 在 Rolling (A Rolling Stone) 的大作中提到: 】
: 我也来讨论一下。那些光喊容易不给答案的机器人就不要来掺乎了. :-)
: 这是楼主改了几遍的原题,还是一团乱麻,
: (我写的具体一些,是说100个用户给出评价,平均分是55,标准差是10,经理觉得可
: 信度不太高,想把标准差降低到2,然后问大概要多少用户。 我还画了图演示.
: 我同意wdong所说,如果样本是iid,不管样本size多大,样本标准差(sample
standard
: deviation, which is an estimation of standard deviation of population)是差
: 不多的。第一个标准差应该就是指这个。那第二个标准差就只能理解成样本平均值(x_
: bar=sum(x1:xn)/n, which is a random variable)的标准差了。我知道从题目的表述
: 来看这么理解很牵强,但只能这样,要不然没题可做。
: 给定样本size 100, 样本平均值x_bar的标准差只有1 (population std which is 10,
: ...................