我出的面试题是不是太难了 - 2018年1月24日未名空间存档

我出的面试题是不是太难了

6 年多

楼主 (未名空间)

给DS的题。
第一道 P(A|B)=P(AB)*? 把问号部分填上，写啥都行。
第二道，100个采样方差10，问把方差降到2，估计大概需要多少采样。
（我写的具体一些，是说100个用户给出评价，平均分是55，标准差是10，经理觉得可
信度不太高，想把标准差降低到2，然后问大概要多少用户。我还画了图演示.
不过我现在仔细想想，这道题出的很有问题，要改改）

然后把面试的人搞得很难过，一直说我忘记了，2016年DS master毕业的，我就不敢再
问了。

我是不是问的太难了？是不是不该问数学概率题了？应该问你用过tensorflow 哪个
包，干了啥事。

flyingbeast

6 年多

2 楼

what's the interviewee's profile?

【在 bobohu (bobohu) 的大作中提到: 】
: 给DS的题。
: 第一道 P(A|B)=P(AB)*? 把问号部分填上，写啥都行。
: 第二道，100个采样方差10，问把方差降到2，估计大概需要多少采样。
: 然后把面试的人搞得很难过，一直说我忘记了，2016年DS master毕业的，我就不敢再
: 问了。
: 我是不是问的太难了？是不是不该问数学概率题了？应该问你用过tensorflow 哪个
: 包，干了啥事。

magliner

6 年多

3 楼

你出的题，不是难，而是在工作中根本用不到。还不如丢给对方一本<概率论与数理统>计>，一个上午能做多少算多少。
或者，默写个正太分布公式

bobohu

6 年多

4 楼

那你叫我问啥吗。

每个人简历上都说的天花乱坠，看上去啥个machine learning都会。
算法问的深一点，碰到数学了，那就更歇菜了。

【在 magliner (magliner) 的大作中提到: 】
: 你出的题，不是难，而是在工作中根本用不到。还不如丢给对方一本<概率论与数理统>: 计>，一个上午能做多少算多少。
: 或者，默写个正太分布公式

xunzhaocunzi

6 年多

5 楼

我也觉得出个project，让面试者说说想法可能好些，出题一下可能确实想不起来

netghost

6 年多

6 楼

不難，這種人當然不能要。

所以這種東西答不上來的人，活都應該out source到中國。
【在 bobohu (bobohu) 的大作中提到: 】
: 给DS的题。
: 第一道 P(A|B)=P(AB)*? 把问号部分填上，写啥都行。
: 第二道，100个采样方差10，问把方差降到2，估计大概需要多少采样。
: 然后把面试的人搞得很难过，一直说我忘记了，2016年DS master毕业的，我就不敢再
: 问了。
: 我是不是问的太难了？是不是不该问数学概率题了？应该问你用过tensorflow 哪个
: 包，干了啥事。

wdong

6 年多

7 楼

第二个我也不会。
方差由分布决定，和增加采样有什么关系。
标准正太分布方差就是1, 再怎么采样也还是1，最多估计的精确点。

我又去查了下google，确定我理解没有错误。
肯定是你问的不对，自己搞错概念了。

【在 bobohu (bobohu) 的大作中提到: 】
: 给DS的题。
: 第一道 P(A|B)=P(AB)*? 把问号部分填上，写啥都行。
: 第二道，100个采样方差10，问把方差降到2，估计大概需要多少采样。
: 然后把面试的人搞得很难过，一直说我忘记了，2016年DS master毕业的，我就不敢再
: 问了。
: 我是不是问的太难了？是不是不该问数学概率题了？应该问你用过tensorflow 哪个
: 包，干了啥事。

rgg

6 年多

8 楼

问1/sqrt(N)吧。这可经常用到。

【在 wdong (万事休) 的大作中提到: 】
: 第二个我也不会。
: 方差由分布决定，和增加采样有什么关系。
: 标准正太分布方差就是1, 再怎么采样也还是1，最多估计的精确点。
: 我又去查了下google，确定我理解没有错误。
: 肯定是你问的不对，自己搞错概念了。

wdong

6 年多

9 楼

我估计他要问某个大数定理之类的东西。这个确实早就不会了。

【在 rgg (rgg) 的大作中提到: 】
: 问1/sqrt(N)吧。这可经常用到。

TheMatrix

6 年多

10 楼

是sampling mean的方差。sampling mean本身是个random variable，有方差，不是原
分布的方差。

【在 wdong(万事休)的大作中提到：】
：第二个我也不会。
：方差由分布决定，和增加采样有什么关系。

Marcus2010

6 年多

11 楼

https://zhuanlan.zhihu.com/p/29680950

【在 wdong (万事休) 的大作中提到: 】
: 第二个我也不会。
: 方差由分布决定，和增加采样有什么关系。
: 标准正太分布方差就是1, 再怎么采样也还是1，最多估计的精确点。
: 我又去查了下google，确定我理解没有错误。
: 肯定是你问的不对，自己搞错概念了。

wdong

6 年多

12 楼

这个确实是基础的统计知识。所以我很明智地在逼所有我手下的人学
python和javascript。data scientist这一行，我自己都过不了面试。
就是楼上说的，稍微问到点数学就不行了。

【在 TheMatrix (TheMatrix) 的大作中提到: 】
: 是sampling mean的方差。sampling mean本身是个random variable，有方差，不是原
: 分布的方差。
: 【在 wdong(万事休)的大作中提到：】
: ：第二个我也不会。
: ：方差由分布决定，和增加采样有什么关系。

Marcus2010

6 年多

13 楼

我是觉得这两个题不是难不难的问题
而是能不能反映出面试者在工作中的能力这两个题都很基础在学校考试里都是基础
题但是工作面试中不一定是合适的面试题
能回答对的人说明这人的记忆,理解，基础不错但没法说明这人的business sense或者对工作中需要的tools更熟悉
反之亦然
觉得面试还是应该更全面考察而不是一两道认为很简单基础的题没答上就彻底否定了
面试者
当然你要找的是个牛人除外什么都懂的牛人自然是最好的选择

【在 bobohu (bobohu) 的大作中提到: 】
: 我是不是问的太难了？是不是不该问数学概率题了？应该问你用过tensorflow 哪

wdong

6 年多

14 楼

我觉得基础题还是有用的。比如楼主这个基础题一出，基本上就判断出了
我跟楼主和楼上能答上来的同学不是一行的。不是一行的，说的不是一个
语言，以后工作估计就会有各种问题。

【在 Marcus2010 (马库斯) 的大作中提到: 】
: 我是觉得这两个题不是难不难的问题
: 而是能不能反映出面试者在工作中的能力这两个题都很基础在学校考试里都是基础
: 题但是工作面试中不一定是合适的面试题
: 能回答对的人说明这人的记忆,理解，基础不错但没法说明这人的business sense或
: 者对工作中需要的tools更熟悉
: 反之亦然
: 觉得面试还是应该更全面考察而不是一两道认为很简单基础的题没答上就彻底否定了
: 面试者
: 当然你要找的是个牛人除外什么都懂的牛人自然是最好的选择

magliner

6 年多

15 楼

作为一个民科，概率论和数理统计倒背如流是最基本的。如果倒背如流了，还搞不出
名堂，就应该考虑换个方向了。

如果我是来面试，第一题不仅能写全条件概率公式，还应该展开说说在实践中是怎么找到这个'条件'的, 比如怎么把客户群按照何种'条件'分类，看客户行为的。用什么方法找到这个条件的？代码怎么写？

第二题，在实际应用中则是个样本大小的问题。样本大小在统计里是个没有定论的题目，应聘者应该说说是怎么和客户忽悠，计算出required sample size的。几个月前<细胞>有人建议把百分之五改成千分之五，生物版马上有人推算出小白鼠的数量要增加百
分之多少。

这就是我们民科的基本功。

goodtudou

6 年多

16 楼

适合问刚毕业的

工作的谁用这玩意
语法我都是现 stackoverflow
我会考考算法编程能力这个强的话出活快
基本的那些统计感觉自己补补也就够了如果需要的话，况且很多情况谁用这破玩意啊都是直接用现成的工具跑啊编程啊实现啊谁管具体原理，抓住猫就是好老鼠啊

bobohu

6 年多

17 楼

就是刚毕业一年的所以我才问了问。
我倒是想考算法，不过结果会更差。

【在 goodtudou (goodtudou) 的大作中提到: 】
: 适合问刚毕业的
: 工作的谁用这玩意
: 语法我都是现 stackoverflow
: 我会考考算法编程能力这个强的话出活快
: 基本的那些统计感觉自己补补也就够了如果需要的话，况且很多情况谁用这破玩意
: 啊都是直接用现成的工具跑啊编程啊实现啊谁管具体原理，抓住猫就是好老鼠啊

nowhere7

6 年多

18 楼

感觉楼主想问的是standard error

【在 wdong(万事休) 的大作中提到: 】

: 第二个我也不会。

: 方差由分布决定，和增加采样有什么关系。

: 标准正太分布方差就是1, 再怎么采样也还是1，最多估计的精确点。

: 我又去查了下google，确定我理解没有错误。

: 肯定是你问的不对，自己搞错概念了。

gallery

6 年多

19 楼

这两题都很容易。可以因为很少用到或理解有误一时答不出来，
但是在你提示和解释疑惑的过程中，还是可以看出他是否理解
基本概念，这都不理解的就不要指望能在DS工作方面能做啥了。
当然帮写些scripts做些杂事可能还是可以的。

【在 bobohu (bobohu) 的大作中提到: 】
: 给DS的题。
: 第一道 P(A|B)=P(AB)*? 把问号部分填上，写啥都行。
: 第二道，100个采样方差10，问把方差降到2，估计大概需要多少采样。
: （具体问的时候，是说100个用户给出评价，评价的方差是10，觉得太大了，想降低
到2
: ，然后问大概要多少用户）
: 然后把面试的人搞得很难过，一直说我忘记了，2016年DS master毕业的，我就不敢再
: 问了。
: 我是不是问的太难了？是不是不该问数学概率题了？应该问你用过tensorflow 哪个
: 包，干了啥事。

echowuhao

6 年多

20 楼

我插一句，要看职位pay多少。10万以下，问这样的问题确实太难了。要是20万以上的
包裹，这个可以。

我曾经有个电面，问了大半天，还把我数落了一番，然后工资。。，浪费了电话费和时间。

guvest

6 年多

21 楼

这个看你是要找modeling和算法的人，还是找马工。

做统计的不知道1/sqrt(N)显然不合格。你的问题不难。

我们EE的都知道啊。

guvest

6 年多

22 楼

这个看你是要找modeling和算法的人，还是找马工。

做统计的不知道1/sqrt(N)显然不合格。你的问题不难。

我们EE的都知道啊。

guvest

6 年多

23 楼

你可能仪器设备，实际数据源等接触不多。

测量一般第一次猜就是猜独立同分布就是大数定律类似的
东西出来就是平方根反比。

或者看股市的话，日价格统计和周价格统计两个时间序列的
方差比大致就是1/sqrt(5)
如果距离这个数字太远
我会认为有事情发生了
(Netghost等financial series专家请纠正）

还有策略吃10秒rebalancing 和1小时rebalancing
之间的波动差。收割波动。

【在 wdong(万事休) 的大作中提到: 】

: 第二个我也不会。

: 方差由分布决定，和增加采样有什么关系。

: 标准正太分布方差就是1, 再怎么采样也还是1，最多估计的精确点。

: 我又去查了下google，确定我理解没有错误。

: 肯定是你问的不对，自己搞错概念了。

guvest

6 年多

24 楼

答不上来的可能需要很长时间的训练才能理解统计背后的
物理和解决实际问题的办法。这倒不是数学问题。
这类似于rules of thumb
【在 wdong(万事休) 的大作中提到: 】
 : 我觉得基础题还是有用的。比如楼主这个基础题一出，基本上就判断出了 : 我跟楼主和楼上能答上来的同学不是一行的。不是一行的，说的不是一个 : 语言，以后工作估计就会有各种问题。

guvest

6 年多

25 楼

楼主在达拉斯吗？给我20万我就投奔了

这个价格你估计的高了点。我们这里principal data scientist没这个base

【在 echowuhao(echo) 的大作中提到: 】
 : 我插一句，要看职位pay多少。10万以下，问这样的问题确实太难了。要
是20万
以上的
 : 包裹，这个可以。
 : 我曾经有个电面，问了大半天，还把我数落了一番，然后工资。。，浪费了电话
费和时
 : 间。

guvest

6 年多

26 楼

你不做算法所以用不到
他找的是DS
不是data engineer

【在 goodtudou(goodtudou) 的大作中提到: 】

: 适合问刚毕业的

: 工作的谁用这玩意

: 语法我都是现 stackoverflow

: 我会考考算法编程能力这个强的话出活快

: 基本的那些统计感觉自己补补也就够了如果需要的话，况且很多情况谁用这破玩意

: 啊都是直接用现成的工具跑啊编程啊实现啊谁管具体原理，抓住猫就是好老鼠啊

zyh961171

6 年多

27 楼

试做一下，请勿见笑！

第一道 P(A|B)=P(AB)*? 把问号部分填上，写啥都行。

P(A|B)=P(AB)/P(B)
第二道，100个采样方差10，问把方差降到2，估计大概需要多少采样。
（具体问的时候，是说100个用户给出评价，评价的方差是10，觉得太大了，想降低到2，然后问大概要多少用户）

不怎么确定“采样方差”，看题应该是该standard error （标准误），如果理解准确
的话，应该是
2500采样。

guvest

6 年多

28 楼

方差5倍
采样点增加sqrt(5)
不要想太多
他问的就是知道不知道大数定律

【在 zyh961171(凉白开) 的大作中提到: 】

: 试做一下，请勿见笑！

: 第一道 P(A|B)=P(AB)*? 把问号部分填上，写啥都行。

: P(A|B)=P(AB)/P(B)

: 第二道，100个采样方差10，问把方差降到2，估计大概需要多少采样。

: （具体问的时候，是说100个用户给出评价，评价的方差是10，觉得太大了，想
降低到2

: ，然后问大概要多少用户）

: 不怎么确定“采样方差”，看题应该是该standard error （标准误），如果理
解准确

: 的话，应该是

: 2500采样。

daemonself

6 年多

29 楼

这种都是商学院考mba的题，没有实际价值阿
【在 bobohu (bobohu) 的大作中提到: 】
: 给DS的题。
: 第一道 P(A|B)=P(AB)*? 把问号部分填上，写啥都行。
: 第二道，100个采样方差10，问把方差降到2，估计大概需要多少采样。
: （具体问的时候，是说100个用户给出评价，评价的方差是10，觉得太大了，想降低
到2
: ，然后问大概要多少用户）
: 然后把面试的人搞得很难过，一直说我忘记了，2016年DS master毕业的，我就不敢再
: 问了。
: 我是不是问的太难了？是不是不该问数学概率题了？应该问你用过tensorflow 哪个
: 包，干了啥事。

iamicewolf

6 年多

30 楼

楼主第二题应该问的是the standard error of the mean吧，这个值才和取样的多少相关

logocde

6 年多

31 楼

同觉得不难，我是EE的。这两个都是本科概率的基本概念。不过楼主第二个问题是估值的方差，而且还需要假设sample的独立性。

logocde

6 年多

32 楼

应该是D{estimate of variance}
具体数字得看estimate是有偏还是无偏吧，我记得无偏是除N-1，这样就是sqrt(N-1)吧

【在 iamicewolf (icewolf) 的大作中提到: 】
: 楼主第二题应该问的是the standard error of the mean吧，这个值才和取样的多少相
: 关

Rolling

6 年多

33 楼

楼主的第二个问题可是具体到“要多少样本才能降低方差”。这哥们好像自己就不懂
【在 iamicewolf (icewolf) 的大作中提到: 】
: 楼主第二题应该问的是the standard error of the mean吧，这个值才和取样的多少相
: 关

Liber8

6 年多

34 楼

这两个题答上来给多少钱？
【在 bobohu (bobohu) 的大作中提到: 】
: 给DS的题。
: 第一道 P(A|B)=P(AB)*? 把问号部分填上，写啥都行。
: 第二道，100个采样方差10，问把方差降到2，估计大概需要多少采样。
: （具体问的时候，是说100个用户给出评价，评价的方差是10，觉得太大了，想降低
到2
: ，然后问大概要多少用户）
: 然后把面试的人搞得很难过，一直说我忘记了，2016年DS master毕业的，我就不敢再
: 问了。
: 我是不是问的太难了？是不是不该问数学概率题了？应该问你用过tensorflow 哪个
: 包，干了啥事。

realphone

6 年多

35 楼

如果招统计的，这两题不会就淘汰了吧。本科统计就学过。我PHD 毕业五年了，这
两题一点问题都没有，因为确实太太基础了。

guvest

6 年多

36 楼

我机械系毕业十几年了这问题都没问题……

【在 realphone(realphone) 的大作中提到: 】

: 如果招统计的，这两题不会就淘汰了吧。本科统计就学过。我PHD 毕业五年了，这

: 两题一点问题都没有，因为确实太太基础了。

realphone

6 年多

37 楼

你理解得没错，答得也没错。可能您也确实不是统计毕业，我猜是CS， EE之类的神。

题主确实没有表述清楚，可能打字只是打了一个大意。这类问题太基础了，题主刚说前半句，按照统计的惯性思维就知道他想问什么了，如果在面试中，让题主多解释一
下，或者一问一答，去年才毕业，不至于呆若木鸡，不停说忘了，确实过于不去。

【在 wdong (万事休) 的大作中提到: 】
: 第二个我也不会。
: 方差由分布决定，和增加采样有什么关系。
: 标准正太分布方差就是1, 再怎么采样也还是1，最多估计的精确点。
: 我又去查了下google，确定我理解没有错误。
: 肯定是你问的不对，自己搞错概念了。

realphone

6 年多

38 楼

这话99%情况都没错，但是组里还是需要一个懂数学或者统计的。有时候明明是一个
数学问题，能够很快得结论，而且很准确，缺乏这方面的训练，可能解决方案就是上simulation, 跑程序，跑出来结论肯定没错，但是有时候会花很多不必要的时间。现
在很多DS 简历吹得天花乱坠，其实也就是用了PYTHON几个包，稍微让他们评价比较
一下算法都不行，还不如花个7，8万雇个啥都不懂的，直接让他们根据指示跑程序当机器人用。

编程能力非常重要，没话说。当然如果你算法大牛，也许编程也不重要了。

【在 goodtudou (goodtudou) 的大作中提到: 】
: 适合问刚毕业的
: 工作的谁用这玩意
: 语法我都是现 stackoverflow
: 我会考考算法编程能力这个强的话出活快
: 基本的那些统计感觉自己补补也就够了如果需要的话，况且很多情况谁用这破玩意
: 啊都是直接用现成的工具跑啊编程啊实现啊谁管具体原理，抓住猫就是好老鼠啊

walkrandom

6 年多

39 楼

统计方向面试的最大问题是，不像IT面试那样有context。
楼主问的问题没错，可以加点context。
第一题，可以问，明天天气又打雷又下雨的概率怎么求。
第二题，有一个只有一个柜台但是有一个人要checkout的商场，还有一个有十个柜台但是有十个人准备checkout的商店，选择哪一个。
这样大家就有的东西聊了。
面试就是一个考察沟通的问题，双方都有沟通的义务。
大家都是互相学习嘛，抬头不见低头见。去面试的就算拿不到offer，学点东西也是很
高兴的。

GDBS

6 年多

40 楼

楼主，你这两道题都出得有问题，就别光怪面试者了。

P(AB)是啥意思？ P(A)*P(B) 还是 P(AnB)?
方差是standard deviation，是分布的固有性质，没法降低。能降低的叫标准误差
standard error，这个才可能跟采样数量相关。而且本身分布不确定的时候，你要套用大数定理，这个数量也不够大。

【在 bobohu (bobohu) 的大作中提到: 】
: 给DS的题。
: 第一道 P(A|B)=P(AB)*? 把问号部分填上，写啥都行。
: 第二道，100个采样方差10，问把方差降到2，估计大概需要多少采样。
: （具体问的时候，是说100个用户给出评价，评价的方差是10，觉得太大了，想降低
到2
: ，然后问大概要多少用户）
: 然后把面试的人搞得很难过，一直说我忘记了，2016年DS master毕业的，我就不敢再
: 问了。
: 我是不是问的太难了？是不是不该问数学概率题了？应该问你用过tensorflow 哪个
: 包，干了啥事。

minigun

6 年多

41 楼

你应该不是统计口的。
【在 GDBS (()) 的大作中提到: 】
: 楼主，你这两道题都出得有问题，就别光怪面试者了。
: P(AB)是啥意思？ P(A)*P(B) 还是 P(AnB)?
: 方差是standard deviation，是分布的固有性质，没法降低。能降低的叫标准误差
: standard error，这个才可能跟采样数量相关。而且本身分布不确定的时候，你要套用
: 大数定理，这个数量也不够大。
: 到2

GDBS

6 年多

42 楼

统计口的会怎么样？

【在 minigun (lool) 的大作中提到: 】
: 你应该不是统计口的。

Rolling

6 年多

43 楼

我咋觉得相反。前面都是编程的大神，不像数理统计的。这位靠谱多了
【在 minigun (lool) 的大作中提到: 】
: 你应该不是统计口的。

snowdust

6 年多

44 楼

楼主在哪儿我要投简历求message

guvest

6 年多

45 楼

书面会统计课本的知识。

和
1.用统计解决过实际问题
2.做过产品
3.对统计的物理有了解

这三种情况不是一回事。

“物理”的意思是相对独立于描述办法的那部分知识。

楼主和前面几位看一眼就知道是sqrt(N)的是靠这个
吃饭的统计专业人士。要么是EE处理测量的。等等。

【在 Rolling(A Rolling Stone) 的大作中提到: 】
 : 我咋觉得相反。前面都是编程的大神，不像数理统计的。这位靠谱多了

wdong

6 年多

46 楼

你路数是跟我一样的了。
应该是顺便学过点统计，但不是内行不知道切口。
所以我说面基本问题也是有意义的。话一出口就知道路数对不对。

比如说按字典念了淬(cui)火，荨(qian)麻疹，基本上就是外行滚出了。
人家zhan火，xun麻疹约定俗称了，大家心知肚明。

【在 GDBS (()) 的大作中提到: 】
: 楼主，你这两道题都出得有问题，就别光怪面试者了。
: P(AB)是啥意思？ P(A)*P(B) 还是 P(AnB)?
: 方差是standard deviation，是分布的固有性质，没法降低。能降低的叫标准误差
: standard error，这个才可能跟采样数量相关。而且本身分布不确定的时候，你要套用
: 大数定理，这个数量也不够大。
: 到2

GDBS

6 年多

47 楼

楼主那个问题究竟是不是sqrt(N)，你去run个simulation就知道了....LOL...

【在 guvest (我爱你老婆Anna) 的大作中提到: 】
: 书面会统计课本的知识。
: 和
: 1.用统计解决过实际问题
: 2.做过产品
: 3.对统计的物理有了解
: 这三种情况不是一回事。
: “物理”的意思是相对独立于描述办法的那部分知识。
: 楼主和前面几位看一眼就知道是sqrt(N)的是靠这个
: 吃饭的统计专业人士。要么是EE处理测量的。等等。
:
: 我咋觉得相反。前面都是编程的大神，不像数理统计的。这位靠谱多了
: ...................

GDBS

6 年多

48 楼

刚查了新华字典，真的不是念qian麻疹吗？哈哈

荨麻
qiánmá
〖nettle〗∶荨麻科,尤其是荨麻属的植物,遍体多刺或接触它们会感到针刺般疼痛
〖nettlefibre〗∶该植物的纤维

【在 wdong (万事休) 的大作中提到: 】
: 你路数是跟我一样的了。
: 应该是顺便学过点统计，但不是内行不知道切口。
: 所以我说面基本问题也是有意义的。话一出口就知道路数对不对。
: 比如说按字典念了淬(cui)火，荨(qian)麻疹，基本上就是外行滚出了。
: 人家zhan火，xun麻疹约定俗称了，大家心知肚明。

wdong

6 年多

49 楼

您已自动撞在枪口上了。

发信人: realphone (realphone), 信区: Programming
标题: Re: 我出的面试题是不是太难了
发信站: BBS 未名空间站 (Fri Jan 19 20:04:00 2018, 美东)

这话99%情况都没错，但是组里还是需要一个懂数学或者统计的。有时候明明是一个
数学问题，能够很快得结论，而且很准确，缺乏这方面的训练，可能解决方案就是上simulation, 跑程序，跑出来结论肯定没错，但是有时候会花很多不必要的时间。

【在 GDBS (()) 的大作中提到: 】
: 楼主那个问题究竟是不是sqrt(N)，你去run个simulation就知道了....LOL...

guvest

6 年多

50 楼

不是也没关系。更不用run什么simulation.

只要知道随着数据或者测量的增加，std曲线走的形状就可以了。

【在 GDBS(()) 的大作中提到: 】
 : 楼主那个问题究竟是不是sqrt(N)，你去run个simulation就知道了....
LOL...

guvest

6 年多

51 楼

懂数学的有两种。第一种其实是懂物理，就是知道怎么用数学。能把数学知识嵌入到产品或者一个组织，一个机器的工作序列里面。第二种是懂得如何创造数学。或者说就是发明算法以及写新类型的程序。

他说的是第一种。一个人如果物理不对，这个人又不是第二种懂数学的狠人。那需要多花的时间可不
是一点两点.

【在 wdong(万事休) 的大作中提到: 】
 : 您已自动撞在枪口上了。
 : 这楼好欢乐，各种行业套路都出来了。
 : 发信人: realphone (realphone), 信区: Programming
 : 标题: Re: 我出的面试题是不是太难了
 : 发信站: BBS 未名空间站 (Fri Jan 19 20:04:00 2018, 美东)
 : 这话99%情况都没错，但是组里还是需要一个懂数学或者统计的。有时
候明明
是一个
 : 数学问题，能够很快得结论，而且很准确，缺乏这方面的训练，可能解决方案
就是上
 : simulation, 跑程序，跑出来结论肯定没错，但是有时候会花很多不必
要的时
间。

guvest

6 年多

52 楼

很多年前杨振宁到我校作报告。说Einstein本来是第一种，后来是第二种。

【在 guvest(我爱你老婆Anna) 的大作中提到: 】
 : 懂数学的有两种。第一种其实是懂物理，就是知道怎么用数学。能把数学知识嵌
入到产
 : 品或者一个组织，一个机器的工作序列里面。第二种是懂得如何创造数学。或者
说就是
 : 发明算法以及写新类型的程序。
 : 他说的是第一种。一个人如果物理不对，这个人又不是第二种懂数学的狠人。那
需要多
 : 花的时间可不
 : 是一点两点.
 :

GAGAMA

6 年多

53 楼

何必呢，大家心里都清楚DS会操作sql就行了，有难度的问题自然是数学，物理PhD解决

DS就是给H4和文科女解决就业的

【在 bobohu(bobohu)的大作中提到：】
：给DS的题。
：第一道 P(A|B)=P(AB)*? 把问号部分填上，写啥都行。

guvest

6 年多

54 楼

楼主要个headcount也不容易的

【在 GAGAMA(GAGA) 的大作中提到: 】

: 何必呢，大家心里都清楚DS会操作sql就行了，有难度的问题自然是数学，物理
PhD解决

: DS就是给H4和文科女解决就业的

: ：给DS的题。

: ：第一道 P(A|B)=P(AB)*? 把问号部分填上，写啥都行。

Nisayer

6 年多

55 楼

【在 bobohu (bobohu) 的大作中提到: 】
: 给DS的题。
: 第一道 P(A|B)=P(AB)*? 把问号部分填上，写啥都行。
: 第二道，100个采样方差10，问把方差降到2，估计大概需要多少采样。
: （具体问的时候，是说100个用户给出评价，评价的方差是10，觉得太大了，想降低
到2
: ，然后问大概要多少用户）
: 然后把面试的人搞得很难过，一直说我忘记了，2016年DS master毕业的，我就不敢再
: 问了。
: 我是不是问的太难了？是不是不该问数学概率题了？应该问你用过tensorflow 哪个
: 包，干了啥事。

我面试人这两道题也常出

说实话，跑算法我找个高中生就能跑，怎么区分人啊

当然要看基础

贝叶斯公式都答不上来，取样理论都不知道，光会调参数的话，我招谁不是招？

heihuafei

6 年多

56 楼

第二题确实题意不清楚。我也是民科出身，试着理解一下。
假设variable S 均值E（S）方差是 var(S). 现在有100个sample，s[1,1,2...100]
iid, 卤煮的意思应该是这样：如果 E{ [ (s1-E_100)^2 + (s1-E_100)^2 ... + (
s100-E_100)]/100 }= 10, 【E{} 外面的 “E” Expectation运算不能去掉，否则 {}
内的部分还是个变量，题目的说法就没意义了】那么求最小的整数N，满足 E{ [(s1-E_N)^2 + (s1-E_N)^2 ... + (sN -E_N)]/N } = 2. where E_N是 E（s）使用N个
sample的estimate，而不是 E（S）：E_N = sum(si)/N 。貌似这个题不简单

holydistance

6 年多

57 楼

你这算是给正经ds的题
现在市面上大部分所谓的ds就是写query整理ppt的
这些不懂也正常

【在 bobohu (bobohu) 的大作中提到: 】
: 给DS的题。
: 第一道 P(A|B)=P(AB)*? 把问号部分填上，写啥都行。
: 第二道，100个采样方差10，问把方差降到2，估计大概需要多少采样。
: （具体问的时候，是说100个用户给出评价，评价的方差是10，觉得太大了，想降低
到2
: ，然后问大概要多少用户）
: 然后把面试的人搞得很难过，一直说我忘记了，2016年DS master毕业的，我就不敢再
: 问了。
: 我是不是问的太难了？是不是不该问数学概率题了？应该问你用过tensorflow 哪个
: 包，干了啥事。

guvest

6 年多

58 楼

这问题当然不简单。如果你不是预先知道答案。

数学上来讲，倍努力，柏松，马尔可夫都研究过。
物理上来讲，
多次测量的平均可以导致更准的结果这个思路更不简单。

人类如何从低精度测量仪器发展出来高精度的？
除了这个统计的办法，我知道的仅有的，
就是EE的办法，反馈，
现在也叫refeinforce learning.

【在 heihuafei() 的大作中提到: 】

: 第二题确实题意不清楚。我也是民科出身，试着理解一下。

: 假设variable S 均值E（S）方差是 var(S). 现在有100个sample，s[1,1,2...100]

: iid, 卤煮的意思应该是这样：如果 E{ [ (s1-E_100)^2 (s1-E_100)^2 ... (

: s100-E_100)]/100 }= 10, 【E{} 外面的 “E” Expectation运算不能去掉，否则 {}

: 内的部分还是个变量，题目的说法就没意义了】那么求最小的整数N，满足 E{ [(s1-

: E_N)^2 (s1-E_N)^2 ... (sN -E_N)]/N } = 2. where E_N是 E（s）使用N个

: sample的estimate，而不是 E（S）：E_N = sum(si)/N 。貌似这个题不简单

guvest

6 年多

59 楼

那叫data engineer吧

【在 holydistance(植物猫) 的大作中提到: 】
 : 你这算是给正经ds的题
 : 现在市面上大部分所谓的ds就是写query整理ppt的
 : 这些不懂也正常
 : 到2

Nisayer

6 年多

60 楼

第二个题我通常这么问

正方形内画个内接圆，往上投针，根据针落在园内的比例可以估计Pi的值，现在希望估计的值精度能到 1%，大概需要投多少次针

这个做过蒙特卡洛或者实验数据处理的，一口就能答上来

但如果说学过基本的统计但好无头绪的，就太水了

holydistance

6 年多

61 楼

这些title现在用的都很混乱
有些地方data engineer要管data infra和pipeline
反而ds干的就是我说的那种analyst的东西
然后其实有些analyst尤其是大银行里的都是stat phd这些都是小菜

【在 guvest (我爱你老婆Anna) 的大作中提到: 】
: 那叫data engineer吧
:
: 你这算是给正经ds的题
:
: 现在市面上大部分所谓的ds就是写query整理ppt的
:
: 这些不懂也正常
:
: 到2
:

guvest

6 年多

62 楼

搞毛
你这题太难了

我都答不上来

我只能告诉你

第一次数多更准
第二次数和标准差的关系我首先会套sqrtN试一下

三十年前我高中时候可以答
【在 Nisayer(si fata sinata) 的大作中提到: 】
 : 第二个题我通常这么问
 : 正方形内画个内接圆，往上投针，根据针落在园内的比例可以估计Pi的
值，现
在希望
 : 估计的值精度能到 1%，大概需要投多少次针
 : 这个做过蒙特卡洛或者实验数据处理的，一口就能答上来
 : 但如果说学过基本的统计但好无头绪的，就太水了

heihuafei

6 年多

63 楼

ahh 我理解的模型好像不对。应该就是是 VAR((S1+S2..+S100)/100) = 10，求最小的 N 使得 VAR (（S1+..SN）/N) =2。 S1, S2, ... SN ~ iid 。如果S是正态分布那
么 VAR （(S1+S2..+SN）/N) = [VAR(S1)+VAR(S2)...VAR(SN)]/(N^2) = VAR(S)/N;
如果 N =100时候 VAR（S）/100 = 10, 那么 N = 500 时 VAR（S）/ N = 2.

【在 heihuafei () 的大作中提到: 】
: 第二题确实题意不清楚。我也是民科出身，试着理解一下。
: 假设variable S 均值E（S）方差是 var(S). 现在有100个sample，s[1,1,2...100]
: iid, 卤煮的意思应该是这样：如果 E{ [ (s1-E_100)^2 + (s1-E_100)^2 ... + (
: s100-E_100)]/100 }= 10, 【E{} 外面的 “E” Expectation运算不能去掉，否则 {}
: 内的部分还是个变量，题目的说法就没意义了】那么求最小的整数N，满足 E{ [(
s1-
: E_N)^2 + (s1-E_N)^2 ... + (sN -E_N)]/N } = 2. where E_N是 E（s）使用N个
: sample的estimate，而不是 E（S）：E_N = sum(si)/N 。貌似这个题不简单

holydistance

6 年多

64 楼

s啥分布都没关系

【在 heihuafei () 的大作中提到: 】
: ahh 我理解的模型好像不对。应该就是是 VAR((S1+S2..+S100)/100) = 10，求最小的
: N 使得 VAR (（S1+..SN）/N) =2。 S1, S2, ... SN ~ iid 。如果S是正态分布那
: 么 VAR （(S1+S2..+SN）/N) = [VAR(S1)+VAR(S2)...VAR(SN)]/(N^2) = VAR(S)/N;
: 如果 N =100时候 VAR（S）/100 = 10, 那么 N = 500 时 VAR（S）/ N = 2.
: s1-

heihuafei

6 年多

65 楼

agreed
【在 holydistance (植物猫) 的大作中提到: 】
: s啥分布都没关系

timetodo

6 年多

66 楼

这几年我面了n多DS了，n好几百，啥奇葩都有，这里谈谈体会。

先说点技术的吧，问这个题，相当于在高考数学里问：请证明勾股定理。
这玩意人人都会用，但是没几个能证出来。
你还别不信，我国高考历史上真有这题。。。

再说点非技术的：
1. 这题最大的用处在于，刷掉那个我们都很讨厌的群体，说的谁，你懂的。我还考过
丫们一元一次方程。想干掉他们，有一万种方法。
2. 招人的原则：不在于他能不能答上来，关键是表现如何。在面试官引导下，能不能
一步步思考接近答案。很多知识点临时不会没关系，之后态度好智力正常，招进来慢慢学都没问题。关键是看态度，看交流能力，看思维方式。这个只能靠面试官自己体会。3. 要是还不放心，就看学历，看GPA。名校高分的，都不会太差。我不是学校歧视，而是这方法久经考验。

再回到技术上：
你要真想招个技术好上来能干活的，要么给他个小project，限期一天做完。要么问些
开放性的易答难精的问题，比如：
1. 如何对付数据中的missing value；
2. 如何对付over fitting；
3. 结合你以前干过的活，结合domain knowledge，再谈谈前两题；
尤其是前两题，看上去很简单，网上也有很多答案，但是干过几个月和干过几年十几年的，干银行的干互联网广告的，回答起来是相当有区别的。有点类似于魂斗罗30条命还是3条命通关。易学难精。

Nisayer

6 年多

67 楼

搞啊三太容易了上来问贝叶斯贝叶斯问完了问clt 强大数定律弱大数定律区别问的细一点然后三大分布的应用

对方要真能都答得挺好我也就招了

【在 timetodo(time2do) 的大作中提到: 】

: 这几年我面了n多DS了，n好几百，啥奇葩都有，这里谈谈体会。

: 先说点技术的吧，问这个题，相当于在高考数学里问：请证明勾股定理。

: 这玩意人人都会用，但是没几个能证出来。

: 你还别不信，我国高考历史上真有这题。。。

: 再说点非技术的：

: 1. 这题最大的用处在于，刷掉那个我们都很讨厌的群体，说的谁，你懂的。我
还考过

: 丫们一元一次方程。想干掉他们，有一万种方法。

: 2. 招人的原则：不在于他能不能答上来，关键是表现如何。在面试官引导下，
能不能

: 一步步思考接近答案。很多知识点临时不会没关系，之后态度好智力正常，招进来慢慢

: 学都没问题。关键是看态度，看交流能力，看思维方式。这个只能靠面试官自己体会。
: ...................

Nisayer

6 年多

68 楼

我曾经问过一个问题蒙特卡洛模拟用的fortran自带的随机数种子十亿次模拟后再增加模拟次数到100亿次结果无法改进请分析可能原因

【在 timetodo(time2do) 的大作中提到: 】

: 这几年我面了n多DS了，n好几百，啥奇葩都有，这里谈谈体会。

: 先说点技术的吧，问这个题，相当于在高考数学里问：请证明勾股定理。

: 这玩意人人都会用，但是没几个能证出来。

: 你还别不信，我国高考历史上真有这题。。。

: 再说点非技术的：

: 1. 这题最大的用处在于，刷掉那个我们都很讨厌的群体，说的谁，你懂的。我
还考过

: 丫们一元一次方程。想干掉他们，有一万种方法。

: 2. 招人的原则：不在于他能不能答上来，关键是表现如何。在面试官引导下，
能不能

: 一步步思考接近答案。很多知识点临时不会没关系，之后态度好智力正常，招进来慢慢

: 学都没问题。关键是看态度，看交流能力，看思维方式。这个只能靠面试官自己体会。
: ...................

PNSH

6 年多

69 楼

为什么改变采样会降低方差？

【在 bobohu (bobohu) 的大作中提到: 】
: 给DS的题。
: 第一道 P(A|B)=P(AB)*? 把问号部分填上，写啥都行。
: 第二道，100个采样方差10，问把方差降到2，估计大概需要多少采样。
: （具体问的时候，是说100个用户给出评价，评价的方差是10，觉得太大了，想降低
到2
: ，然后问大概要多少用户）
: 然后把面试的人搞得很难过，一直说我忘记了，2016年DS master毕业的，我就不敢再
: 问了。
: 我是不是问的太难了？是不是不该问数学概率题了？应该问你用过tensorflow 哪个
: 包，干了啥事。

llcare

6 年多

70 楼

太简单

人家怕你不怀好意

memeda

6 年多

71 楼

支持lz，这俩问题很基础。一个条件概率，一个样本均值的方差。如果搞ds的不懂这个，绝对刷新我对ds这行业水平的认知。

by the way我是计量经济口的

akasha663

6 年多

72 楼

本科理工科但凡学过一门概率统计的都应该能答出来，说难的都是文科生？？？

wwzz

6 年多

73 楼

你，新毕业生？我二十多年前学的概率论，
然后从来没用过，你让我答？
【在 akasha663(akasha)的大作中提到：】
：本科理工科但凡学过一门概率统计的都应该能答出来，说难的都是文科生？？？

akasha663

6 年多

74 楼

工作连条件概率都用不到还面什么ds

【在 wwzz (一辈子当码工) 的大作中提到: 】
: 你，新毕业生？我二十多年前学的概率论，
: 然后从来没用过，你让我答？
: ：本科理工科但凡学过一门概率统计的都应该能答出来，说难的都是文科生？？？

minigun

6 年多

75 楼

P(AB)是啥意思？ P(A)*P(B) 还是 P(AnB)
显然是P（AnB）
第二题，就算楼主出错了不严谨，统计口的含生统，经济phd等，显然知道楼主的意图
是什么。就是考sample mean的variance和sample obs的关系。别说没用。看工作性质
。最简单的就是做模拟的时候如果结果不稳定，看看加多少次可以让波动变小。
【在 GDBS (()) 的大作中提到: 】
: 统计口的会怎么样？

abracadabra

6 年多

76 楼

这都是基本功。

第一个是基础之基础。被噎死得基本。

误差～1/sqrt(N)，是设计实验得基本准则。对这个不是烂熟于心得，搞个屁得数据处
理。

【在 bobohu (bobohu) 的大作中提到: 】
: 给DS的题。
: 第一道 P(A|B)=P(AB)*? 把问号部分填上，写啥都行。
: 第二道，100个采样方差10，问把方差降到2，估计大概需要多少采样。
: （我写的具体一些，是说100个用户给出评价，平均分是55，标准差是10，经理觉得可
: 信度不太高，想把标准差降低到2
: ，然后问大概要多少用户。我还画了图演示）
: 然后把面试的人搞得很难过，一直说我忘记了，2016年DS master毕业的，我就不敢再
: 问了。
: 我是不是问的太难了？是不是不该问数学概率题了？应该问你用过tensorflow 哪个
: 包，干了啥事。

minigun

6 年多

77 楼

同意
【在 abracadabra (abracadabra) 的大作中提到: 】
: 这都是基本功。
: 第一个是基础之基础。被噎死得基本。
: 误差～1/sqrt(N)，是设计实验得基本准则。对这个不是烂熟于心得，搞个屁得数据处
: 理。

minigun

6 年多

78 楼

20多年不用了，还想入这个行？你可以拿30万的马工包袱，但拿不了10万的真正DS包袱。
【在 wwzz (一辈子当码工) 的大作中提到: 】
: 你，新毕业生？我二十多年前学的概率论，
: 然后从来没用过，你让我答？
: ：本科理工科但凡学过一门概率统计的都应该能答出来，说难的都是文科生？？？

wwzz

6 年多

79 楼

我是回楼上的。

本科理工科但凡学过一门概率统计的都应该能答出来，说难的都是文科生？

【在 minigun(lool)的大作中提到：】
：20多年不用了，还想入这个行？你可以拿30万的马工包袱，但拿不了10万的真正DS包袱。
：【在 wwzz (一辈子当码工) 的大作中提到: 】

dimorphism

6 年多

80 楼

第二题回答不出情有可原，毕竟细节。但第一个回答不出很难想象是ds专业出来的人会完全不懂概率最初级的东西

dimorphism

6 年多

81 楼

搞不懂说难的都是什么人。第一题对搞ds的应该就和1加1对我儿子的难度一样

【在 wwzz (一辈子当码工) 的大作中提到: 】
: 我是回楼上的。
: 本科理工科但凡学过一门概率统计的都应该能答出来，说难的都是文科生？
: ：20多年不用了，还想入这个行？你可以拿30万的马工包袱，但拿不了10万的真正DS包
: 袱。
: ：【在 wwzz (一辈子当码工) 的大作中提到: 】

Rolling

6 年多

82 楼

楼主把题目改的具体了，如下，

（我写的具体一些，是说100个用户给出评价，平均分是55，标准差是10，经理觉得可
信度不太高，想把标准差降低到2
，然后问大概要多少用户。我还画了图演示）

大家不要废话，直接给答案吧。

【在 bobohu (bobohu) 的大作中提到: 】
: 给DS的题。
: 第一道 P(A|B)=P(AB)*? 把问号部分填上，写啥都行。
: 第二道，100个采样方差10，问把方差降到2，估计大概需要多少采样。
: （我写的具体一些，是说100个用户给出评价，平均分是55，标准差是10，经理觉得可
: 信度不太高，想把标准差降低到2
: ，然后问大概要多少用户。我还画了图演示）
: 然后把面试的人搞得很难过，一直说我忘记了，2016年DS master毕业的，我就不敢再
: 问了。
: 我是不是问的太难了？是不是不该问数学概率题了？应该问你用过tensorflow 哪个
: 包，干了啥事。

TheMatrix

6 年多

83 楼

我觉得这个表述问题更大了。不过我不是DS的，我也不确定。跟大家探讨一下。

一个商品的评价假设是一个0到100之间的数，是一个random variable，有一个想象中
的distribution，这个distribution有mean有标准差。我们的目标就是搞清楚这个
distribution的mean和standard deviation，进而搞清楚这个distribution的整体形状。

方法就是sampling。要定sample size。比如先定个100。做一次采样就是得到100个数
，平均值是55这个好理解。标准差是10，这句话有问题。直接的理解是这100个数的标
准差。如果这样理解的话，那这个标准差是对原distribution的标准差的一个估计。增加sample size不能确定使这个估计变得更大或更小（因为原distribution的标准差可
能就是10左右）。

所谓增加sample size能降低的这个标准差是the standard deviation of the
sampling distribution of the sample mean。其过程是这样的：比如这100个点的采
样这个事情你做20次，每次都得到100个数，每次都可以算这100个数的平均值。比如第一次你的平均值55，第二次你可能的平均值63，第三次你得平均值是46，等等。把这20个平均值放在一起(55,63,46,...)，这就基本上是sampling distribution of the
sample mean。这个distribution也有standard deviation，假设它是10，那么这个标
准差可以被降低--通过增加sample size。比如你sample size是1000。你还是做20次采样，每次采样变成1000个点。也就是每次得到1000个数，每次计算这1000个数的平均值。比如第一次得到平均值57，第二次得到平均值61，第三次得到平均值58，等等，把这20个数放在一起(57,61,58,...)，这个distribution的standard deviation就应该小于10，关系是~1/sqrt(N).

【在 Rolling (A Rolling Stone) 的大作中提到: 】
: 楼主把题目改的具体了，如下，
: （我写的具体一些，是说100个用户给出评价，平均分是55，标准差是10，经理觉得可
: 信度不太高，想把标准差降低到2
: ，然后问大概要多少用户。我还画了图演示）
: 大家不要废话，直接给答案吧。

minigun

6 年多

84 楼

难道觉得回答出来很了不起么？

我们这一个培训，讲communication的。讲师原来是海军陆战队出身。典型的体育老师+文科僧了吧。

人家举例的时候，随口的例子就是，“泊松分布的probability density fucntion是。。" 然后把具体的form背了出来.

不过后来我想，会不会人家是雷达口的？那对ROC，泊松这些肯定特熟悉。不过能写出
form，基本功还是很了不起。毕竟不是Normal distribution。

【在 Rolling (A Rolling Stone) 的大作中提到: 】
: 楼主把题目改的具体了，如下，
: （我写的具体一些，是说100个用户给出评价，平均分是55，标准差是10，经理觉得可
: 信度不太高，想把标准差降低到2
: ，然后问大概要多少用户。我还画了图演示）
: 大家不要废话，直接给答案吧。

heihuafei

6 年多

85 楼

估计出题人想要的答案是 N = 100*sqrt(10/2)

但是这个题还是出的有问题。

（1） std deviation s = sqrt (sum(x(i)-u)^2/N) 是个 random variable, 因为每
个sample x（i）是 random variable.

（2） standard deviation的期望值/均值是个constant： E(s) = E[sqrt (sum(x(i)-u)^2/N) ] = C

（3）均值的估计值的误差也是个 random variable： ue= sum(x_i)/N - u； E（ue） = 0; var(ue) = var(x)/N;

bobohu

6 年多

86 楼

要是面试的人能像你一样写那么多出来，马上就收了。

【在 heihuafei () 的大作中提到: 】
: 估计出题人想要的答案是 N = 100*sqrt(10/2)
: 但是这个题还是出的有问题。
: （1） std deviation s = sqrt (sum(x(i)-u)^2/N) 是个 random variable, 因为每
: 个sample x（i）是 random variable.
: （2） standard deviation的期望值/均值是个constant： E(s) = E[sqrt (sum(x(i)
: -u)^2/N) ] = C
: （3）均值的估计值的误差也是个 random variable： ue= sum(x_i)/N - u； E（ue）
: = 0; var(ue) = var(x)/N;

TheMatrix

6 年多

87 楼

应该是100＊sqr(10/2)=2500吧。

【在 heihuafei()的大作中提到：】
：估计出题人想要的答案是 N = 100*sqrt(10/2)
：

repast

6 年多

88 楼

第二题耍流氓了，自己都不合格

repast

6 年多

89 楼

应该是 joint distribution 把

【在 GDBS(())的大作中提到：】
：楼主，你这两道题都出得有问题，就别光怪面试者了。
：

repast

6 年多

90 楼

更有趣的是画直条投针数相交数来估计 pi 的

【在 Nisayer(si fata sinata)的大作中提到：】
：第二个题我通常这么问
：

repast

6 年多

91 楼

Poisson 分布就是研究生第一门课或者本科生高年级的课会讲

【在 minigun(lool)的大作中提到：】
：难道觉得回答出来很了不起么？
：

bobohu

6 年多

92 楼

呵呵，说的对。
仔细想想，的确我的不对，下次改个好点的例子。不过我也没fail人家的面试。

【在 repast (xebec) 的大作中提到: 】
: 第二题耍流氓了，自己都不合格

didadida

6 年多

93 楼

开卷不？

【在 bobohu (bobohu) 的大作中提到: 】
: 给DS的题。
: 第一道 P(A|B)=P(AB)*? 把问号部分填上，写啥都行。
: 第二道，100个采样方差10，问把方差降到2，估计大概需要多少采样。
: （我写的具体一些，是说100个用户给出评价，平均分是55，标准差是10，经理觉得可
: 信度不太高，想把标准差降低到2，然后问大概要多少用户。我还画了图演示.
: 不过我现在仔细想想，这道题出的很有问题，要改改）
: 然后把面试的人搞得很难过，一直说我忘记了，2016年DS master毕业的，我就不敢再
: 问了。
: 我是不是问的太难了？是不是不该问数学概率题了？应该问你用过tensorflow 哪个
: 包，干了啥事。

su35

6 年多

94 楼

第二题当年面果家DS面到过~如果是偏统计的DS职位~这些题真心不难

minigun

6 年多

95 楼

但海军陆战队退役然后做communication培训的老师能说出来还是厉害。再说，你记得
定义，但是能像人家那样随手写出pdf的形式么？何况你是干啥工作的，人家干啥的。
。。
【在 repast (xebec) 的大作中提到: 】
: Poisson 分布就是研究生第一门课或者本科生高年级的课会讲
: ：难道觉得回答出来很了不起么？
: ：

abracadabra

6 年多

96 楼

应该是100*(10/2)^2=2500.

采样要估计的是population mean X。不是sample mean x。 sample mean是population mean的一个estimator X* 。 estimator和underlying population mean的偏差，当样本足够大时可以认为是正态分布。如果estimator 是unbiased, 该正态分别的均值为0
。样本越大，该正态分布的方差越小。渐近关系是σ~sqrt(N).

这些结果都是从大数定理和中心极限定理导出的。

【在 TheMatrix(TheMatrix) 的大作中提到: 】
 : 应该是100＊sqr(10/2)=2500吧。
 : ：估计出题人想要的答案是 N = 100*sqrt(10/2)
 : ：

rgg

6 年多

97 楼

DS这一帮，是不是在统计的鄙视链底下的？不讲究算置信区间，拿kernel regression
当宝的。

【在 bobohu (bobohu) 的大作中提到: 】
: 给DS的题。
: 第一道 P(A|B)=P(AB)*? 把问号部分填上，写啥都行。
: 第二道，100个采样方差10，问把方差降到2，估计大概需要多少采样。
: （我写的具体一些，是说100个用户给出评价，平均分是55，标准差是10，经理觉得可
: 信度不太高，想把标准差降低到2，然后问大概要多少用户。我还画了图演示.
: 不过我现在仔细想想，这道题出的很有问题，要改改）
: 然后把面试的人搞得很难过，一直说我忘记了，2016年DS master毕业的，我就不敢再
: 问了。
: 我是不是问的太难了？是不是不该问数学概率题了？应该问你用过tensorflow 哪个
: 包，干了啥事。

TheMatrix

6 年多

98 楼

对。sample mean的mean等于population mean。sample mean的distribution趋近于
normal distribution。

【在 abracadabra (abracadabra) 的大作中提到: 】
: 应该是100*(10/2)^2=2500.
: 采样要估计的是population mean X。不是sample mean x。 sample mean是
population
: mean的一个estimator X* 。 estimator和underlying population mean的偏差，当样
: 本足够大时可以认为是正态分布。如果estimator 是unbiased, 该正态分别的均值为
0
: 。样本越大，该正态分布的方差越小。渐近关系是σ~sqrt(N).
: 这些结果都是从大数定理和中心极限定理导出的。
:
: 应该是100＊sqr(10/2)=2500吧。
:
: ：估计出题人想要的答案是 N = 100*sqrt(10/2)
:
: ：
:

Rolling

6 年多

99 楼

我也来讨论一下。那些光喊容易不给答案的机器人就不要来掺乎了. :-)

这是楼主改了几遍的原题，还是一团乱麻，

（我写的具体一些，是说100个用户给出评价，平均分是55，标准差是10，经理觉得可
信度不太高，想把标准差降低到2，然后问大概要多少用户。我还画了图演示.

我同意wdong所说，如果样本是iid，不管样本size多大，样本标准差(sample standard deviation， which is an estimation of standard deviation of population)是差不多的。第一个标准差应该就是指这个。那第二个标准差就只能理解成样本平均值(x_
bar=sum(x1:xn)/n, which is a random variable)的标准差了。我知道从题目的表述
来看这么理解很牵强，但只能这样，要不然没题可做。

给定样本size 100, 样本平均值x_bar的标准差只有1 (population std which is 10, divided by sqrt(100)).这其实很直观：随便抽一个，标准差大概10. 100个平均下来
标准差只剩1不奇怪。

所以现在不是降低样本平均值的标准差到2，而是升到2！样本size要减少，大概25就够了！（2=10/sqrt(25))

【在 TheMatrix (TheMatrix) 的大作中提到: 】
: 对。sample mean的mean等于population mean。sample mean的distribution趋近于
: normal distribution。
: population
: 0

TheMatrix

6 年多

100 楼

对。这个我也注意到了。标准差为10对于一个（0，100）取值的评价分数的random
variable来说比较正常。但是如果说它是sample mean的标准差，那绝对太大了。所以
题出的确实欠考虑。

【在 Rolling (A Rolling Stone) 的大作中提到: 】
: 我也来讨论一下。那些光喊容易不给答案的机器人就不要来掺乎了. :-)
: 这是楼主改了几遍的原题，还是一团乱麻，
: （我写的具体一些，是说100个用户给出评价，平均分是55，标准差是10，经理觉得可
: 信度不太高，想把标准差降低到2，然后问大概要多少用户。我还画了图演示.
: 我同意wdong所说，如果样本是iid，不管样本size多大，样本标准差(sample
standard
: deviation， which is an estimation of standard deviation of population)是差
: 不多的。第一个标准差应该就是指这个。那第二个标准差就只能理解成样本平均值(x_
: bar=sum(x1:xn)/n, which is a random variable)的标准差了。我知道从题目的表述
: 来看这么理解很牵强，但只能这样，要不然没题可做。
: 给定样本size 100, 样本平均值x_bar的标准差只有1 (population std which is 10,
: ...................