我出的面试题是不是太难了

b
bobohu
楼主 (未名空间)
给DS的题。
第一道 P(A|B)=P(AB)*? 把问号部分填上,写啥都行。
第二道,100个采样方差10,问把方差降到2,估计大概需要多少采样。
(我写的具体一些,是说100个用户给出评价,平均分是55,标准差是10,经理觉得可
信度不太高,想把标准差降低到2,然后问大概要多少用户。 我还画了图演示.
不过我现在仔细想想,这道题出的很有问题,要改改)

然后把面试的人搞得很难过,一直说我忘记了,2016年DS master毕业的,我就不敢再
问了。

我是不是问的太难了?是不是不该问数学概率题了? 应该问你用过tensorflow 哪个
包,干了啥事。
f
flyingbeast
2 楼
what's the interviewee's profile?

【 在 bobohu (bobohu) 的大作中提到: 】
: 给DS的题。
: 第一道 P(A|B)=P(AB)*? 把问号部分填上,写啥都行。
: 第二道,100个采样方差10,问把方差降到2,估计大概需要多少采样。
: 然后把面试的人搞得很难过,一直说我忘记了,2016年DS master毕业的,我就不敢再
: 问了。
: 我是不是问的太难了?是不是不该问数学概率题了? 应该问你用过tensorflow 哪个
: 包,干了啥事。
m
magliner
3 楼
你出的题,不是难,而是在工作中根本用不到。还不如丢给对方一本<概率论与数理统>计>, 一个上午能做多少算多少。
或者,默写个正太分布公式
b
bobohu
4 楼
那你叫我问啥吗。

每个人简历上都说的天花乱坠,看上去啥个machine learning都会。
算法问的深一点,碰到数学了,那就更歇菜了。

【 在 magliner (magliner) 的大作中提到: 】
: 你出的题,不是难,而是在工作中根本用不到。还不如丢给对方一本<概率论与数理统>: 计>, 一个上午能做多少算多少。
: 或者,默写个正太分布公式
x
xunzhaocunzi
5 楼
我也觉得出个project,让面试者说说想法可能好些,出题一下可能确实想不起来
n
netghost
6 楼
不難,這種人當然不能要。

所以這種東西答不上來的人,活都應該out source到中國。
【 在 bobohu (bobohu) 的大作中提到: 】
: 给DS的题。
: 第一道 P(A|B)=P(AB)*? 把问号部分填上,写啥都行。
: 第二道,100个采样方差10,问把方差降到2,估计大概需要多少采样。
: 然后把面试的人搞得很难过,一直说我忘记了,2016年DS master毕业的,我就不敢再
: 问了。
: 我是不是问的太难了?是不是不该问数学概率题了? 应该问你用过tensorflow 哪个
: 包,干了啥事。
w
wdong
7 楼
第二个我也不会。
方差由分布决定,和增加采样有什么关系。
标准正太分布方差就是1, 再怎么采样也还是1,最多估计的精确点。

我又去查了下google,确定我理解没有错误。
肯定是你问的不对,自己搞错概念了。

【 在 bobohu (bobohu) 的大作中提到: 】
: 给DS的题。
: 第一道 P(A|B)=P(AB)*? 把问号部分填上,写啥都行。
: 第二道,100个采样方差10,问把方差降到2,估计大概需要多少采样。
: 然后把面试的人搞得很难过,一直说我忘记了,2016年DS master毕业的,我就不敢再
: 问了。
: 我是不是问的太难了?是不是不该问数学概率题了? 应该问你用过tensorflow 哪个
: 包,干了啥事。
r
rgg
8 楼
问1/sqrt(N)吧。这可经常用到。

【 在 wdong (万事休) 的大作中提到: 】
: 第二个我也不会。
: 方差由分布决定,和增加采样有什么关系。
: 标准正太分布方差就是1, 再怎么采样也还是1,最多估计的精确点。
: 我又去查了下google,确定我理解没有错误。
: 肯定是你问的不对,自己搞错概念了。
w
wdong
9 楼
我估计他要问某个大数定理之类的东西。这个确实早就不会了。

【 在 rgg (rgg) 的大作中提到: 】
: 问1/sqrt(N)吧。这可经常用到。
T
TheMatrix
10 楼
是sampling mean的方差。sampling mean本身是个random variable,有方差,不是原
分布的方差。

【在 wdong(万事休)的大作中提到:】
:第二个我也不会。
:方差由分布决定,和增加采样有什么关系。
M
Marcus2010
11 楼
https://zhuanlan.zhihu.com/p/29680950

【 在 wdong (万事休) 的大作中提到: 】
: 第二个我也不会。
: 方差由分布决定,和增加采样有什么关系。
: 标准正太分布方差就是1, 再怎么采样也还是1,最多估计的精确点。
: 我又去查了下google,确定我理解没有错误。
: 肯定是你问的不对,自己搞错概念了。
w
wdong
12 楼
这个确实是基础的统计知识。所以我很明智地在逼所有我手下的人学
python和javascript。data scientist这一行,我自己都过不了面试。
就是楼上说的,稍微问到点数学就不行了。

【 在 TheMatrix (TheMatrix) 的大作中提到: 】
: 是sampling mean的方差。sampling mean本身是个random variable,有方差,不是原
: 分布的方差。
: 【在 wdong(万事休)的大作中提到:】
: :第二个我也不会。
: :方差由分布决定,和增加采样有什么关系。
M
Marcus2010
13 楼
我是觉得这两个题不是难不难的问题
而是能不能反映出面试者在工作中的能力 这两个题都很基础 在学校考试里都是基础
题 但是工作面试中不一定是合适的面试题
能回答对的人 说明这人的记忆,理解,基础不错 但没法说明这人的business sense或者对工作中需要的tools更熟悉
反之亦然
觉得面试还是应该更全面考察 而不是一两道认为很简单基础的题没答上就彻底否定了
面试者
当然你要找的是个牛人除外 什么都懂的牛人自然是最好的选择

【 在 bobohu (bobohu) 的大作中提到: 】
: 我是不是问的太难了?是不是不该问数学概率题了? 应该问你用过tensorflow 哪
w
wdong
14 楼
我觉得基础题还是有用的。比如楼主这个基础题一出,基本上就判断出了
我跟楼主和楼上能答上来的同学不是一行的。不是一行的,说的不是一个
语言,以后工作估计就会有各种问题。

【 在 Marcus2010 (马库斯) 的大作中提到: 】
: 我是觉得这两个题不是难不难的问题
: 而是能不能反映出面试者在工作中的能力 这两个题都很基础 在学校考试里都是基础
: 题 但是工作面试中不一定是合适的面试题
: 能回答对的人 说明这人的记忆,理解,基础不错 但没法说明这人的business sense或
: 者对工作中需要的tools更熟悉
: 反之亦然
: 觉得面试还是应该更全面考察 而不是一两道认为很简单基础的题没答上就彻底否定了
: 面试者
: 当然你要找的是个牛人除外 什么都懂的牛人自然是最好的选择
m
magliner
15 楼
作为一个民科,概率论和数理统计倒背如流是最基本的。 如果倒背如流了,还搞不出
名堂, 就应该考虑换个方向了。

如果我是来面试,第一题不仅能写全条件概率公式,还应该展开说说在实践中是怎么找到这个'条件'的, 比如怎么把客户群按照何种'条件'分类, 看客户行为的。 用什么方法找到这个条件的? 代码怎么写?

第二题,在实际应用中则是个样本大小的问题。样本大小在统计里是个没有定论的题目,应聘者应该说说是怎么和客户忽悠,计算出required sample size的。 几个月前<细胞>有人建议把百分之五改成千分之五,生物版马上有人推算出小白鼠的数量要增加百
分之多少。

这就是我们民科的基本功。
g
goodtudou
16 楼
适合问刚毕业的

工作的 谁用这玩意
语法我都是现 stackoverflow
我会考考算法 编程能力 这个强的话 出活快
基本的那些统计 感觉 自己补补也就够了 如果需要的话, 况且很多情况谁用这破玩意啊都是直接用现成的工具跑啊 编程啊 实现啊 谁管具体原理, 抓住猫就是好老鼠啊
b
bobohu
17 楼
就是刚毕业一年的所以我才问了问。
我倒是想考算法,不过结果会更差。

【 在 goodtudou (goodtudou) 的大作中提到: 】
: 适合问刚毕业的
: 工作的 谁用这玩意
: 语法我都是现 stackoverflow
: 我会考考算法 编程能力 这个强的话 出活快
: 基本的那些统计 感觉 自己补补也就够了 如果需要的话, 况且很多情况谁用这破玩意
: 啊都是直接用现成的工具跑啊 编程啊 实现啊 谁管具体原理, 抓住猫就是好老鼠啊
n
nowhere7
18 楼
感觉楼主想问的是standard error

【 在 wdong(万事休) 的大作中提到: 】

: 第二个我也不会。

: 方差由分布决定,和增加采样有什么关系。

: 标准正太分布方差就是1, 再怎么采样也还是1,最多估计的精确点。

: 我又去查了下google,确定我理解没有错误。

: 肯定是你问的不对,自己搞错概念了。
g
gallery
19 楼
这两题都很容易。可以因为很少用到或理解有误一时答不出来,
但是在你提示和解释疑惑的过程中,还是可以看出他是否理解
基本概念,这都不理解的就不要指望能在DS工作方面能做啥了。
当然帮写些scripts做些杂事可能还是可以的。

【 在 bobohu (bobohu) 的大作中提到: 】
: 给DS的题。
: 第一道 P(A|B)=P(AB)*? 把问号部分填上,写啥都行。
: 第二道,100个采样方差10,问把方差降到2,估计大概需要多少采样。
: (具体问的时候,是说100个用户给出评价,评价的方差是10,觉得太大了,想降低
到2
: ,然后问大概要多少用户)
: 然后把面试的人搞得很难过,一直说我忘记了,2016年DS master毕业的,我就不敢再
: 问了。
: 我是不是问的太难了?是不是不该问数学概率题了? 应该问你用过tensorflow 哪个
: 包,干了啥事。
e
echowuhao
20 楼
我插一句,要看职位pay多少。10万以下,问这样的问题确实太难了。要是20万以上的
包裹,这个可以。

我曾经有个电面,问了大半天,还把我数落了一番,然后工资。。,浪费了电话费和时间。
g
guvest
21 楼
这个看你是要找modeling和算法的人,还是找马工。

做统计的不知道1/sqrt(N)显然不合格。你的问题不难。

我们EE的都知道啊。
g
guvest
22 楼
这个看你是要找modeling和算法的人,还是找马工。

做统计的不知道1/sqrt(N)显然不合格。你的问题不难。

我们EE的都知道啊。
g
guvest
23 楼
你可能仪器设备,实际数据源等接触不多。

测量一般第一次猜就是猜独立同分布就是大数定律类似的
东西出来就是平方根反比。

或者看股市的话,日价格统计和周价格统计两个时间序列的
方差比大致就是1/sqrt(5)
如果距离这个数字太远
我会认为有事情发生了
(Netghost等financial series专家请纠正)

还有策略吃10秒rebalancing 和1小时rebalancing
之间的波动差。收割波动。

【 在 wdong(万事休) 的大作中提到: 】

: 第二个我也不会。

: 方差由分布决定,和增加采样有什么关系。

: 标准正太分布方差就是1, 再怎么采样也还是1,最多估计的精确点。

: 我又去查了下google,确定我理解没有错误。

: 肯定是你问的不对,自己搞错概念了。
g
guvest
24 楼
答不上来的可能需要很长时间的训练才能理解统计背后的
物理和解决实际问题的办法。这倒不是数学问题。
这类似于rules of thumb
【 在 wdong(万事休) 的大作中提到: 】
<br>: 我觉得基础题还是有用的。比如楼主这个基础题一出,基本上就判断出了<br>: 我跟楼主和楼上能答上来的同学不是一行的。不是一行的,说的不是一个<br>: 语言,以后工作估计就会有各种问题。
<br>
g
guvest
25 楼
楼主在达拉斯吗?给我20万我就投奔了

这个价格你估计的高了点。我们这里principal data scientist没这个base

【 在 echowuhao(echo) 的大作中提到: 】
<br>: 我插一句,要看职位pay多少。10万以下,问这样的问题确实太难了。要
是20万
以上的
<br>: 包裹,这个可以。
<br>: 我曾经有个电面,问了大半天,还把我数落了一番,然后工资。。,浪费了电话
费和时
<br>: 间。
<br>
g
guvest
26 楼
你不做算法所以用不到
他找的是DS
不是data engineer

【 在 goodtudou(goodtudou) 的大作中提到: 】

: 适合问刚毕业的

: 工作的 谁用这玩意

: 语法我都是现 stackoverflow

: 我会考考算法 编程能力 这个强的话 出活快

: 基本的那些统计 感觉 自己补补也就够了 如果需要的话, 况且很多情况谁用这破玩意

: 啊都是直接用现成的工具跑啊 编程啊 实现啊 谁管具体原理, 抓住猫就是好老鼠啊
z
zyh961171
27 楼
试做一下,请勿见笑!

第一道 P(A|B)=P(AB)*? 把问号部分填上,写啥都行。

P(A|B)=P(AB)/P(B)
第二道,100个采样方差10,问把方差降到2,估计大概需要多少采样。
(具体问的时候,是说100个用户给出评价,评价的方差是10,觉得太大了,想降低到2,然后问大概要多少用户)

不怎么确定“采样方差”,看题应该是该standard error (标准误),如果理解准确
的话,应该是
2500采样。
g
guvest
28 楼
方差5倍
采样点增加sqrt(5)
不要想太多
他问的就是知道不知道大数定律

【 在 zyh961171(凉白开) 的大作中提到: 】

: 试做一下,请勿见笑!

: 第一道 P(A|B)=P(AB)*? 把问号部分填上,写啥都行。

: P(A|B)=P(AB)/P(B)

: 第二道,100个采样方差10,问把方差降到2,估计大概需要多少采样。

: (具体问的时候,是说100个用户给出评价,评价的方差是10,觉得太大了,想
降低到2

: ,然后问大概要多少用户)

: 不怎么确定“采样方差”,看题应该是该standard error (标准误),如果理
解准确

: 的话,应该是

: 2500采样。
d
daemonself
29 楼
这种都是商学院考mba的题,没有实际价值阿
【 在 bobohu (bobohu) 的大作中提到: 】
: 给DS的题。
: 第一道 P(A|B)=P(AB)*? 把问号部分填上,写啥都行。
: 第二道,100个采样方差10,问把方差降到2,估计大概需要多少采样。
: (具体问的时候,是说100个用户给出评价,评价的方差是10,觉得太大了,想降低
到2
: ,然后问大概要多少用户)
: 然后把面试的人搞得很难过,一直说我忘记了,2016年DS master毕业的,我就不敢再
: 问了。
: 我是不是问的太难了?是不是不该问数学概率题了? 应该问你用过tensorflow 哪个
: 包,干了啥事。
i
iamicewolf
30 楼
楼主第二题应该问的是the standard error of the mean吧,这个值才和取样的多少相关
l
logocde
31 楼
同觉得不难,我是EE的。这两个都是本科概率的基本概念。不过楼主第二个问题是估值的方差,而且还需要假设sample的独立性。
l
logocde
32 楼
应该是D{estimate of variance}
具体数字得看estimate是有偏还是无偏吧,我记得无偏是除N-1,这样就是sqrt(N-1)吧

【 在 iamicewolf (icewolf) 的大作中提到: 】
: 楼主第二题应该问的是the standard error of the mean吧,这个值才和取样的多少相
: 关
R
Rolling
33 楼
楼主的第二个问题可是具体到“要多少样本才能降低方差”。 这哥们好像自己就不懂
【 在 iamicewolf (icewolf) 的大作中提到: 】
: 楼主第二题应该问的是the standard error of the mean吧,这个值才和取样的多少相
: 关
L
Liber8
34 楼
这两个题答上来 给多少钱?
【 在 bobohu (bobohu) 的大作中提到: 】
: 给DS的题。
: 第一道 P(A|B)=P(AB)*? 把问号部分填上,写啥都行。
: 第二道,100个采样方差10,问把方差降到2,估计大概需要多少采样。
: (具体问的时候,是说100个用户给出评价,评价的方差是10,觉得太大了,想降低
到2
: ,然后问大概要多少用户)
: 然后把面试的人搞得很难过,一直说我忘记了,2016年DS master毕业的,我就不敢再
: 问了。
: 我是不是问的太难了?是不是不该问数学概率题了? 应该问你用过tensorflow 哪个
: 包,干了啥事。
r
realphone
35 楼
如果招统计的,这两题不会就淘汰了吧。 本科统计就学过。 我PHD 毕业五年了, 这
两题一点问题都没有, 因为确实太太基础了。
g
guvest
36 楼
我机械系毕业十几年了这问题都没问题……

【 在 realphone(realphone) 的大作中提到: 】

: 如果招统计的,这两题不会就淘汰了吧。 本科统计就学过。 我PHD 毕业五年了, 这

: 两题一点问题都没有, 因为确实太太基础了。
r
realphone
37 楼
你理解得没错,答得也没错。可能您也确实不是统计毕业,我猜是CS, EE之类的神。

题主确实没有表述清楚,可能打字只是打了一个大意。 这类问题太基础了, 题主刚说前半句,按照统计的惯性思维就知道他想问什么了,如果在面试中, 让题主多解释一
下, 或者一问一答,去年才毕业,不至于呆若木鸡, 不停说忘了, 确实过于不去。

【 在 wdong (万事休) 的大作中提到: 】
: 第二个我也不会。
: 方差由分布决定,和增加采样有什么关系。
: 标准正太分布方差就是1, 再怎么采样也还是1,最多估计的精确点。
: 我又去查了下google,确定我理解没有错误。
: 肯定是你问的不对,自己搞错概念了。
r
realphone
38 楼
这话99%情况都没错, 但是组里还是需要一个懂数学或者统计的。 有时候明明是一个
数学问题, 能够很快得结论,而且很准确,缺乏这方面的训练, 可能解决方案就是上simulation, 跑程序, 跑出来结论肯定没错,但是有时候会花很多不必要的时间。现
在很多DS 简历吹得天花乱坠,其实也就是用了PYTHON几个包, 稍微让他们评价比较
一下算法都不行,还不如花个7,8万雇个啥都不懂的,直接让他们根据指示跑程序当机器人用。

编程能力非常重要,没话说。当然如果你算法大牛,也许编程也不重要了。

【 在 goodtudou (goodtudou) 的大作中提到: 】
: 适合问刚毕业的
: 工作的 谁用这玩意
: 语法我都是现 stackoverflow
: 我会考考算法 编程能力 这个强的话 出活快
: 基本的那些统计 感觉 自己补补也就够了 如果需要的话, 况且很多情况谁用这破玩意
: 啊都是直接用现成的工具跑啊 编程啊 实现啊 谁管具体原理, 抓住猫就是好老鼠啊
w
walkrandom
39 楼
统计方向面试的最大问题是,不像IT面试那样有context。
楼主问的问题没错,可以加点context。
第一题,可以问,明天天气又打雷又下雨的概率怎么求。
第二题,有一个只有一个柜台但是有一个人要checkout的商场,还有一个有十个柜台但是有十个人准备checkout的商店,选择哪一个。
这样大家就有的东西聊了。
面试就是一个考察沟通的问题,双方都有沟通的义务。
大家都是互相学习嘛,抬头不见低头见。去面试的就算拿不到offer,学点东西也是很
高兴的。
G
GDBS
40 楼
楼主,你这两道题都出得有问题,就别光怪面试者了。

P(AB)是啥意思? P(A)*P(B) 还是 P(AnB)?
方差是standard deviation,是分布的固有性质,没法降低。能降低的叫标准误差
standard error,这个才可能跟采样数量相关。而且本身分布不确定的时候,你要套用大数定理,这个数量也不够大。

【 在 bobohu (bobohu) 的大作中提到: 】
: 给DS的题。
: 第一道 P(A|B)=P(AB)*? 把问号部分填上,写啥都行。
: 第二道,100个采样方差10,问把方差降到2,估计大概需要多少采样。
: (具体问的时候,是说100个用户给出评价,评价的方差是10,觉得太大了,想降低
到2
: ,然后问大概要多少用户)
: 然后把面试的人搞得很难过,一直说我忘记了,2016年DS master毕业的,我就不敢再
: 问了。
: 我是不是问的太难了?是不是不该问数学概率题了? 应该问你用过tensorflow 哪个
: 包,干了啥事。
m
minigun
41 楼
你应该不是统计口的。
【 在 GDBS (()) 的大作中提到: 】
: 楼主,你这两道题都出得有问题,就别光怪面试者了。
: P(AB)是啥意思? P(A)*P(B) 还是 P(AnB)?
: 方差是standard deviation,是分布的固有性质,没法降低。能降低的叫标准误差
: standard error,这个才可能跟采样数量相关。而且本身分布不确定的时候,你要套用
: 大数定理,这个数量也不够大。
: 到2
G
GDBS
42 楼
统计口的会怎么样?

【 在 minigun (lool) 的大作中提到: 】
: 你应该不是统计口的。
R
Rolling
43 楼
我咋觉得相反。前面都是编程的大神,不像数理统计的。这位靠谱多了
【 在 minigun (lool) 的大作中提到: 】
: 你应该不是统计口的。
s
snowdust
44 楼
楼主在哪儿 我要投简历 求message
g
guvest
45 楼
书面会统计课本的知识。


1.用统计解决过实际问题
2.做过产品
3.对统计的物理有了解

这三种情况不是一回事。

“物理”的意思是相对独立于描述办法的那部分知识。

楼主和前面几位看一眼就知道是sqrt(N)的是靠这个
吃饭的统计专业人士。要么是EE处理测量的。等等。

【 在 Rolling(A Rolling Stone) 的大作中提到: 】
<br>: 我咋觉得相反。前面都是编程的大神,不像数理统计的。这位靠谱多了
<br>
w
wdong
46 楼
你路数是跟我一样的了。
应该是顺便学过点统计,但不是内行不知道切口。
所以我说面基本问题也是有意义的。话一出口就知道路数对不对。

比如说按字典念了淬(cui)火,荨(qian)麻疹,基本上就是外行滚出了。
人家zhan火,xun麻疹约定俗称了,大家心知肚明。

【 在 GDBS (()) 的大作中提到: 】
: 楼主,你这两道题都出得有问题,就别光怪面试者了。
: P(AB)是啥意思? P(A)*P(B) 还是 P(AnB)?
: 方差是standard deviation,是分布的固有性质,没法降低。能降低的叫标准误差
: standard error,这个才可能跟采样数量相关。而且本身分布不确定的时候,你要套用
: 大数定理,这个数量也不够大。
: 到2
G
GDBS
47 楼
楼主那个问题究竟是不是sqrt(N),你去run个simulation就知道了....LOL...

【 在 guvest (我爱你老婆Anna) 的大作中提到: 】
: 书面会统计课本的知识。
: 和
: 1.用统计解决过实际问题
: 2.做过产品
: 3.对统计的物理有了解
: 这三种情况不是一回事。
: “物理”的意思是相对独立于描述办法的那部分知识。
: 楼主和前面几位看一眼就知道是sqrt(N)的是靠这个
: 吃饭的统计专业人士。要么是EE处理测量的。等等。
:
: 我咋觉得相反。前面都是编程的大神,不像数理统计的。这位靠谱多了
: ...................
G
GDBS
48 楼
刚查了新华字典,真的不是念qian麻疹吗?哈哈

荨麻
qiánmá
〖nettle〗∶荨麻科,尤其是荨麻属的植物,遍体多刺或接触它们会感到针刺般疼痛
〖nettlefibre〗∶该植物的纤维

【 在 wdong (万事休) 的大作中提到: 】
: 你路数是跟我一样的了。
: 应该是顺便学过点统计,但不是内行不知道切口。
: 所以我说面基本问题也是有意义的。话一出口就知道路数对不对。
: 比如说按字典念了淬(cui)火,荨(qian)麻疹,基本上就是外行滚出了。
: 人家zhan火,xun麻疹约定俗称了,大家心知肚明。
w
wdong
49 楼
您已自动撞在枪口上了。

发信人: realphone (realphone), 信区: Programming
标 题: Re: 我出的面试题是不是太难了
发信站: BBS 未名空间站 (Fri Jan 19 20:04:00 2018, 美东)

这话99%情况都没错, 但是组里还是需要一个懂数学或者统计的。 有时候明明是一个
数学问题, 能够很快得结论,而且很准确,缺乏这方面的训练, 可能解决方案就是上simulation, 跑程序, 跑出来结论肯定没错,但是有时候会花很多不必要的时间。

【 在 GDBS (()) 的大作中提到: 】
: 楼主那个问题究竟是不是sqrt(N),你去run个simulation就知道了....LOL...
g
guvest
50 楼
不是也没关系。更不用run什么simulation.

只要知道随着数据或者测量的增加,std曲线走的形状就可以了。

【 在 GDBS(()) 的大作中提到: 】
<br>: 楼主那个问题究竟是不是sqrt(N),你去run个simulation就知道了....
LOL...
<br>
g
guvest
51 楼
懂数学的有两种。第一种其实是懂物理,就是知道怎么用数学。能把数学知识嵌入到产品或者一个组织,一个机器的工作序列里面。第二种是懂得如何创造数学。或者说就是发明算法以及写新类型的程序。

他说的是第一种。一个人如果物理不对,这个人又不是第二种懂数学的狠人。那需要多花的时间可不
是一点两点.

【 在 wdong(万事休) 的大作中提到: 】
<br>: 您已自动撞在枪口上了。
<br>: 这楼好欢乐,各种行业套路都出来了。
<br>: 发信人: realphone (realphone), 信区: Programming
<br>: 标 题: Re: 我出的面试题是不是太难了
<br>: 发信站: BBS 未名空间站 (Fri Jan 19 20:04:00 2018, 美东)
<br>: 这话99%情况都没错, 但是组里还是需要一个懂数学或者统计的。 有时
候明明
是一个
<br>: 数学问题, 能够很快得结论,而且很准确,缺乏这方面的训练, 可能解决方案
就是上
<br>: simulation, 跑程序, 跑出来结论肯定没错,但是有时候会花很多不必
要的时
间。
<br>
g
guvest
52 楼
很多年前杨振宁到我校作报告。说Einstein本来是第一种,后来是第二种。

【 在 guvest(我爱你老婆Anna) 的大作中提到: 】
<br>: 懂数学的有两种。第一种其实是懂物理,就是知道怎么用数学。能把数学知识嵌
入到产
<br>: 品或者一个组织,一个机器的工作序列里面。第二种是懂得如何创造数学。或者
说就是
<br>: 发明算法以及写新类型的程序。
<br>: 他说的是第一种。一个人如果物理不对,这个人又不是第二种懂数学的狠人。那
需要多
<br>: 花的时间可不
<br>: 是一点两点.
<br>:
G
GAGAMA
53 楼
何必呢,大家心里都清楚DS会操作sql就行了,有难度的问题自然是数学,物理PhD解决

DS就是给H4和文科女解决就业的

【在 bobohu(bobohu)的大作中提到:】
:给DS的题。
:第一道 P(A|B)=P(AB)*? 把问号部分填上,写啥都行。
g
guvest
54 楼
楼主要个headcount也不容易的

【 在 GAGAMA(GAGA) 的大作中提到: 】

: 何必呢,大家心里都清楚DS会操作sql就行了,有难度的问题自然是数学,物理
PhD解决

: DS就是给H4和文科女解决就业的

: :给DS的题。

: :第一道 P(A|B)=P(AB)*? 把问号部分填上,写啥都行。
N
Nisayer
55 楼
【 在 bobohu (bobohu) 的大作中提到: 】
: 给DS的题。
: 第一道 P(A|B)=P(AB)*? 把问号部分填上,写啥都行。
: 第二道,100个采样方差10,问把方差降到2,估计大概需要多少采样。
: (具体问的时候,是说100个用户给出评价,评价的方差是10,觉得太大了,想降低
到2
: ,然后问大概要多少用户)
: 然后把面试的人搞得很难过,一直说我忘记了,2016年DS master毕业的,我就不敢再
: 问了。
: 我是不是问的太难了?是不是不该问数学概率题了? 应该问你用过tensorflow 哪个
: 包,干了啥事。

我面试人这两道题也常出

说实话,跑算法我找个高中生就能跑,怎么区分人啊

当然要看基础

贝叶斯公式都答不上来, 取样理论都不知道,光会调参数的话,我招谁不是招?
h
heihuafei
56 楼
第二题确实题意不清楚。我也是民科出身,试着理解一下。
假设variable S 均值E(S) 方差是 var(S). 现在有100个sample,s[1,1,2...100]
iid, 卤煮的意思应该是这样:如果 E{ [ (s1-E_100)^2 + (s1-E_100)^2 ... + (
s100-E_100)]/100 }= 10, 【E{} 外面的 “E” Expectation运算不能去掉,否则 {}
内的部分还是个变量,题目的说法就没意义了】 那么求最小的整数N,满足 E{ [(s1-E_N)^2 + (s1-E_N)^2 ... + (sN -E_N)]/N } = 2. where E_N是 E(s)使用N个
sample的estimate,而不是 E(S):E_N = sum(si)/N 。 貌似这个题不简单
h
holydistance
57 楼
你这算是给正经ds的题
现在市面上大部分所谓的ds就是写query整理ppt的
这些不懂也正常

【 在 bobohu (bobohu) 的大作中提到: 】
: 给DS的题。
: 第一道 P(A|B)=P(AB)*? 把问号部分填上,写啥都行。
: 第二道,100个采样方差10,问把方差降到2,估计大概需要多少采样。
: (具体问的时候,是说100个用户给出评价,评价的方差是10,觉得太大了,想降低
到2
: ,然后问大概要多少用户)
: 然后把面试的人搞得很难过,一直说我忘记了,2016年DS master毕业的,我就不敢再
: 问了。
: 我是不是问的太难了?是不是不该问数学概率题了? 应该问你用过tensorflow 哪个
: 包,干了啥事。
g
guvest
58 楼
这问题当然不简单。如果你不是预先知道答案。

数学上来讲,倍努力,柏松,马尔可夫 都研究过。
物理上来讲,
多次测量的平均可以导致更准的结果这个思路更不简单。

人类如何从低精度测量仪器发展出来高精度的?
除了这个统计的办法,我知道的仅有的,
就是EE的办法,反馈,
现在也叫refeinforce learning.

【 在 heihuafei() 的大作中提到: 】

: 第二题确实题意不清楚。我也是民科出身,试着理解一下。

: 假设variable S 均值E(S) 方差是 var(S). 现在有100个sample,s[1,1,2...100]

: iid, 卤煮的意思应该是这样:如果 E{ [ (s1-E_100)^2 (s1-E_100)^2 ... (

: s100-E_100)]/100 }= 10, 【E{} 外面的 “E” Expectation运算不能去掉,否则 {}

: 内的部分还是个变量,题目的说法就没意义了】 那么求最小的整数N,满足 E{ [(s1-

: E_N)^2 (s1-E_N)^2 ... (sN -E_N)]/N } = 2. where E_N是 E(s)使用N个

: sample的estimate,而不是 E(S):E_N = sum(si)/N 。 貌似这个题不简单
g
guvest
59 楼
那叫data engineer吧

【 在 holydistance(植物猫) 的大作中提到: 】
<br>: 你这算是给正经ds的题
<br>: 现在市面上大部分所谓的ds就是写query整理ppt的
<br>: 这些不懂也正常
<br>: 到2
<br>
N
Nisayer
60 楼
第二个题我通常这么问

正方形内画个内接圆, 往上投针,根据针落在园内的比例可以估计Pi的值, 现在希望估计的值精度能到 1%, 大概需要投多少次针

这个做过蒙特卡洛或者实验数据处理的,一口就能答上来

但如果说学过基本的统计但好无头绪的, 就太水了
h
holydistance
61 楼
这些title现在用的都很混乱
有些地方data engineer要管data infra和pipeline
反而ds干的就是我说的那种analyst的东西
然后其实有些analyst尤其是大银行里的都是stat phd这些都是小菜

【 在 guvest (我爱你老婆Anna) 的大作中提到: 】
: 那叫data engineer吧
:
: 你这算是给正经ds的题
:
: 现在市面上大部分所谓的ds就是写query整理ppt的
:
: 这些不懂也正常
:
: 到2
:
g
guvest
62 楼
搞毛
你这题太难了

我都答不上来

我只能告诉你

第一 次数多更准
第二 次数和标准差的关系我首先会套sqrtN试一下

三十年前我高中时候可以答
【 在 Nisayer(si fata sinata) 的大作中提到: 】
<br>: 第二个题我通常这么问
<br>: 正方形内画个内接圆, 往上投针,根据针落在园内的比例可以估计Pi的
值, 现
在希望
<br>: 估计的值精度能到 1%, 大概需要投多少次针
<br>: 这个做过蒙特卡洛或者实验数据处理的,一口就能答上来
<br>: 但如果说学过基本的统计但好无头绪的, 就太水了
<br>
h
heihuafei
63 楼
ahh 我理解的模型好像不对。应该就是是 VAR((S1+S2..+S100)/100) = 10, 求最小的 N 使得 VAR ((S1+..SN)/N) =2。 S1, S2, ... SN ~ iid 。 如果S是正态分布那
么 VAR ((S1+S2..+SN)/N) = [VAR(S1)+VAR(S2)...VAR(SN)]/(N^2) = VAR(S)/N;
如果 N =100时候 VAR(S)/100 = 10, 那么 N = 500 时 VAR(S)/ N = 2.

【 在 heihuafei () 的大作中提到: 】
: 第二题确实题意不清楚。我也是民科出身,试着理解一下。
: 假设variable S 均值E(S) 方差是 var(S). 现在有100个sample,s[1,1,2...100]
: iid, 卤煮的意思应该是这样:如果 E{ [ (s1-E_100)^2 + (s1-E_100)^2 ... + (
: s100-E_100)]/100 }= 10, 【E{} 外面的 “E” Expectation运算不能去掉,否则 {}
: 内的部分还是个变量,题目的说法就没意义了】 那么求最小的整数N,满足 E{ [(
s1-
: E_N)^2 + (s1-E_N)^2 ... + (sN -E_N)]/N } = 2. where E_N是 E(s)使用N个
: sample的estimate,而不是 E(S):E_N = sum(si)/N 。 貌似这个题不简单
h
holydistance
64 楼
s啥分布都没关系

【 在 heihuafei () 的大作中提到: 】
: ahh 我理解的模型好像不对。应该就是是 VAR((S1+S2..+S100)/100) = 10, 求最小的
: N 使得 VAR ((S1+..SN)/N) =2。 S1, S2, ... SN ~ iid 。 如果S是正态分布那
: 么 VAR ((S1+S2..+SN)/N) = [VAR(S1)+VAR(S2)...VAR(SN)]/(N^2) = VAR(S)/N;
: 如果 N =100时候 VAR(S)/100 = 10, 那么 N = 500 时 VAR(S)/ N = 2.
: s1-
h
heihuafei
65 楼
agreed
【 在 holydistance (植物猫) 的大作中提到: 】
: s啥分布都没关系
t
timetodo
66 楼
这几年我面了n多DS了,n好几百,啥奇葩都有,这里谈谈体会。

先说点技术的吧,问这个题,相当于在高考数学里问:请证明勾股定理。
这玩意人人都会用,但是没几个能证出来。
你还别不信,我国高考历史上真有这题。。。

再说点非技术的:
1. 这题最大的用处在于,刷掉那个我们都很讨厌的群体,说的谁,你懂的。我还考过
丫们一元一次方程。想干掉他们,有一万种方法。
2. 招人的原则:不在于他能不能答上来,关键是表现如何。在面试官引导下,能不能
一步步思考接近答案。很多知识点临时不会没关系,之后态度好智力正常,招进来慢慢学都没问题。关键是看态度,看交流能力,看思维方式。这个只能靠面试官自己体会。3. 要是还不放心,就看学历,看GPA。名校高分的,都不会太差。我不是学校歧视,而是这方法久经考验。

再回到技术上:
你要真想招个技术好上来能干活的,要么给他个小project,限期一天做完。要么问些
开放性的易答难精的问题,比如:
1. 如何对付数据中的missing value;
2. 如何对付over fitting;
3. 结合你以前干过的活,结合domain knowledge,再谈谈前两题;
尤其是前两题,看上去很简单,网上也有很多答案,但是干过几个月和干过几年十几年的,干银行的干互联网广告的,回答起来是相当有区别的。有点类似于魂斗罗30条命还是3条命通关。易学难精。
N
Nisayer
67 楼
搞啊三太容易了 上来问贝叶斯 贝叶斯问完了问clt 强大数定律弱大数定律区别 问的细一点 然后三大分布的应用

对方要真能都答得挺好 我也就招了

【 在 timetodo(time2do) 的大作中提到: 】

: 这几年我面了n多DS了,n好几百,啥奇葩都有,这里谈谈体会。

: 先说点技术的吧,问这个题,相当于在高考数学里问:请证明勾股定理。

: 这玩意人人都会用,但是没几个能证出来。

: 你还别不信,我国高考历史上真有这题。。。

: 再说点非技术的:

: 1. 这题最大的用处在于,刷掉那个我们都很讨厌的群体,说的谁,你懂的。我
还考过

: 丫们一元一次方程。想干掉他们,有一万种方法。

: 2. 招人的原则:不在于他能不能答上来,关键是表现如何。在面试官引导下,
能不能

: 一步步思考接近答案。很多知识点临时不会没关系,之后态度好智力正常,招进来慢慢

: 学都没问题。关键是看态度,看交流能力,看思维方式。这个只能靠面试官自己体会。
: ...................
N
Nisayer
68 楼
我曾经问过一个问题 蒙特卡洛模拟 用的fortran自带的随机数种子 十亿次 模拟后 再增加模拟次数到100亿次 结果无法改进 请分析可能原因

【 在 timetodo(time2do) 的大作中提到: 】

: 这几年我面了n多DS了,n好几百,啥奇葩都有,这里谈谈体会。

: 先说点技术的吧,问这个题,相当于在高考数学里问:请证明勾股定理。

: 这玩意人人都会用,但是没几个能证出来。

: 你还别不信,我国高考历史上真有这题。。。

: 再说点非技术的:

: 1. 这题最大的用处在于,刷掉那个我们都很讨厌的群体,说的谁,你懂的。我
还考过

: 丫们一元一次方程。想干掉他们,有一万种方法。

: 2. 招人的原则:不在于他能不能答上来,关键是表现如何。在面试官引导下,
能不能

: 一步步思考接近答案。很多知识点临时不会没关系,之后态度好智力正常,招进来慢慢

: 学都没问题。关键是看态度,看交流能力,看思维方式。这个只能靠面试官自己体会。
: ...................
P
PNSH
69 楼
为什么改变采样会降低方差?

【 在 bobohu (bobohu) 的大作中提到: 】
: 给DS的题。
: 第一道 P(A|B)=P(AB)*? 把问号部分填上,写啥都行。
: 第二道,100个采样方差10,问把方差降到2,估计大概需要多少采样。
: (具体问的时候,是说100个用户给出评价,评价的方差是10,觉得太大了,想降低
到2
: ,然后问大概要多少用户)
: 然后把面试的人搞得很难过,一直说我忘记了,2016年DS master毕业的,我就不敢再
: 问了。
: 我是不是问的太难了?是不是不该问数学概率题了? 应该问你用过tensorflow 哪个
: 包,干了啥事。
l
llcare
70 楼
太简单

人家怕你不怀好意
m
memeda
71 楼
支持lz,这俩问题很基础。一个条件概率,一个样本均值的方差。如果搞ds的不懂这个,绝对刷新我对ds这行业水平的认知。

by the way我是计量经济口的
a
akasha663
72 楼
本科理工科但凡学过一门概率统计的都应该能答出来,说难的都是文科生???
w
wwzz
73 楼
你,新毕业生?我二十多年前学的概率论,
然后从来没用过,你让我答?
【在 akasha663(akasha)的大作中提到:】
:本科理工科但凡学过一门概率统计的都应该能答出来,说难的都是文科生???
a
akasha663
74 楼
工作连条件概率都用不到还面什么ds

【 在 wwzz (一辈子当码工) 的大作中提到: 】
: 你,新毕业生?我二十多年前学的概率论,
: 然后从来没用过,你让我答?
: :本科理工科但凡学过一门概率统计的都应该能答出来,说难的都是文科生???
m
minigun
75 楼
P(AB)是啥意思? P(A)*P(B) 还是 P(AnB)
显然是P(AnB)
第二题,就算楼主出错了不严谨,统计口的含生统,经济phd等,显然知道楼主的意图
是什么。就是考sample mean的variance和sample obs的关系。别说没用。看工作性质
。最简单的就是做模拟的时候如果结果不稳定,看看加多少次可以让波动变小。
【 在 GDBS (()) 的大作中提到: 】
: 统计口的会怎么样?
a
abracadabra
76 楼
这都是基本功。

第一个是基础之基础。被噎死得基本。

误差~1/sqrt(N),是设计实验得基本准则。对这个不是烂熟于心得,搞个屁得数据处
理。

【 在 bobohu (bobohu) 的大作中提到: 】
: 给DS的题。
: 第一道 P(A|B)=P(AB)*? 把问号部分填上,写啥都行。
: 第二道,100个采样方差10,问把方差降到2,估计大概需要多少采样。
: (我写的具体一些,是说100个用户给出评价,平均分是55,标准差是10,经理觉得可
: 信度不太高,想把标准差降低到2
: ,然后问大概要多少用户。 我还画了图演示)
: 然后把面试的人搞得很难过,一直说我忘记了,2016年DS master毕业的,我就不敢再
: 问了。
: 我是不是问的太难了?是不是不该问数学概率题了? 应该问你用过tensorflow 哪个
: 包,干了啥事。
m
minigun
77 楼
同意
【 在 abracadabra (abracadabra) 的大作中提到: 】
: 这都是基本功。
: 第一个是基础之基础。被噎死得基本。
: 误差~1/sqrt(N),是设计实验得基本准则。对这个不是烂熟于心得,搞个屁得数据处
: 理。
m
minigun
78 楼
20多年不用了,还想入这个行?你可以拿30万的马工包袱,但拿不了10万的真正DS包袱。
【 在 wwzz (一辈子当码工) 的大作中提到: 】
: 你,新毕业生?我二十多年前学的概率论,
: 然后从来没用过,你让我答?
: :本科理工科但凡学过一门概率统计的都应该能答出来,说难的都是文科生???
w
wwzz
79 楼
我是回楼上的。

本科理工科但凡学过一门概率统计的都应该能答出来,说难的都是文科生?

【在 minigun(lool)的大作中提到:】
:20多年不用了,还想入这个行?你可以拿30万的马工包袱,但拿不了10万的真正DS包袱。
:【 在 wwzz (一辈子当码工) 的大作中提到: 】
d
dimorphism
80 楼
第二题回答不出情有可原,毕竟细节。但第一个回答不出很难想象是ds专业出来的人会完全不懂概率最初级的东西
d
dimorphism
81 楼
搞不懂说难的都是什么人。第一题对搞ds的应该就和1加1对我儿子的难度一样

【 在 wwzz (一辈子当码工) 的大作中提到: 】
: 我是回楼上的。
: 本科理工科但凡学过一门概率统计的都应该能答出来,说难的都是文科生?
: :20多年不用了,还想入这个行?你可以拿30万的马工包袱,但拿不了10万的真正DS包
: 袱。
: :【 在 wwzz (一辈子当码工) 的大作中提到: 】
R
Rolling
82 楼
楼主把题目改的具体了,如下,

(我写的具体一些,是说100个用户给出评价,平均分是55,标准差是10,经理觉得可
信度不太高,想把标准差降低到2
,然后问大概要多少用户。 我还画了图演示)

大家不要废话,直接给答案吧。

【 在 bobohu (bobohu) 的大作中提到: 】
: 给DS的题。
: 第一道 P(A|B)=P(AB)*? 把问号部分填上,写啥都行。
: 第二道,100个采样方差10,问把方差降到2,估计大概需要多少采样。
: (我写的具体一些,是说100个用户给出评价,平均分是55,标准差是10,经理觉得可
: 信度不太高,想把标准差降低到2
: ,然后问大概要多少用户。 我还画了图演示)
: 然后把面试的人搞得很难过,一直说我忘记了,2016年DS master毕业的,我就不敢再
: 问了。
: 我是不是问的太难了?是不是不该问数学概率题了? 应该问你用过tensorflow 哪个
: 包,干了啥事。
T
TheMatrix
83 楼
我觉得这个表述问题更大了。不过我不是DS的,我也不确定。跟大家探讨一下。

一个商品的评价假设是一个0到100之间的数,是一个random variable,有一个想象中
的distribution,这个distribution有mean有标准差。我们的目标就是搞清楚这个
distribution的mean和standard deviation,进而搞清楚这个distribution的整体形状。

方法就是sampling。要定sample size。比如先定个100。做一次采样就是得到100个数
,平均值是55这个好理解。标准差是10,这句话有问题。直接的理解是这100个数的标
准差。如果这样理解的话,那这个标准差是对原distribution的标准差的一个估计。增加sample size不能确定使这个估计变得更大或更小(因为原distribution的标准差可
能就是10左右)。

所谓增加sample size能降低的这个标准差是the standard deviation of the
sampling distribution of the sample mean。其过程是这样的:比如这100个点的采
样这个事情你做20次,每次都得到100个数,每次都可以算这100个数的平均值。比如第一次你的平均值55,第二次你可能的平均值63,第三次你得平均值是46,等等。把这20个平均值放在一起(55,63,46,...),这就基本上是sampling distribution of the
sample mean。这个distribution也有standard deviation,假设它是10,那么这个标
准差可以被降低--通过增加sample size。比如你sample size是1000。你还是做20次采样,每次采样变成1000个点。也就是每次得到1000个数,每次计算这1000个数的平均值。比如第一次得到平均值57,第二次得到平均值61,第三次得到平均值58,等等,把这20个数放在一起(57,61,58,...),这个distribution的standard deviation就应该小于10,关系是~1/sqrt(N).

【 在 Rolling (A Rolling Stone) 的大作中提到: 】
: 楼主把题目改的具体了,如下,
: (我写的具体一些,是说100个用户给出评价,平均分是55,标准差是10,经理觉得可
: 信度不太高,想把标准差降低到2
: ,然后问大概要多少用户。 我还画了图演示)
: 大家不要废话,直接给答案吧。
m
minigun
84 楼
难道觉得回答出来很了不起么?

我们这一个培训,讲communication的。讲师原来是海军陆战队出身。典型的体育老师+文科僧了吧。

人家举例的时候,随口的例子就是,“泊松分布的probability density fucntion是。。" 然后把具体的form背了出来.

不过后来我想,会不会人家是雷达口的?那对ROC,泊松这些肯定特熟悉。不过能写出
form,基本功还是很了不起。毕竟不是Normal distribution。

【 在 Rolling (A Rolling Stone) 的大作中提到: 】
: 楼主把题目改的具体了,如下,
: (我写的具体一些,是说100个用户给出评价,平均分是55,标准差是10,经理觉得可
: 信度不太高,想把标准差降低到2
: ,然后问大概要多少用户。 我还画了图演示)
: 大家不要废话,直接给答案吧。
h
heihuafei
85 楼
估计出题人想要的答案是 N = 100*sqrt(10/2)

但是这个题还是出的有问题。

(1) std deviation s = sqrt (sum(x(i)-u)^2/N) 是个 random variable, 因为每
个sample x(i)是 random variable.

(2) standard deviation的期望值/均值 是个constant: E(s) = E[sqrt (sum(x(i)-u)^2/N) ] = C

(3)均值的估计值的误差也是个 random variable: ue= sum(x_i)/N - u; E(ue) = 0; var(ue) = var(x)/N;
b
bobohu
86 楼
要是面试的人能像你一样写那么多出来,马上就收了。

【 在 heihuafei () 的大作中提到: 】
: 估计出题人想要的答案是 N = 100*sqrt(10/2)
: 但是这个题还是出的有问题。
: (1) std deviation s = sqrt (sum(x(i)-u)^2/N) 是个 random variable, 因为每
: 个sample x(i)是 random variable.
: (2) standard deviation的期望值/均值 是个constant: E(s) = E[sqrt (sum(x(i)
: -u)^2/N) ] = C
: (3)均值的估计值的误差也是个 random variable: ue= sum(x_i)/N - u; E(ue)
: = 0; var(ue) = var(x)/N;
T
TheMatrix
87 楼
应该是100*sqr(10/2)=2500吧。

【在 heihuafei()的大作中提到:】
:估计出题人想要的答案是 N = 100*sqrt(10/2)
r
repast
88 楼
第二题耍流氓了,自己都不合格
r
repast
89 楼
应该是 joint distribution 把

【在 GDBS(())的大作中提到:】
:楼主,你这两道题都出得有问题,就别光怪面试者了。
r
repast
90 楼
更有趣的是画直条投针数相交数来估计 pi 的

【在 Nisayer(si fata sinata)的大作中提到:】
:第二个题我通常这么问
r
repast
91 楼
Poisson 分布就是研究生第一门课或者本科生高年级的课会讲

【在 minigun(lool)的大作中提到:】
:难道觉得回答出来很了不起么?
b
bobohu
92 楼
呵呵,说的对。
仔细想想,的确我的不对,下次改个好点的例子。不过我也没fail人家的面试。

【 在 repast (xebec) 的大作中提到: 】
: 第二题耍流氓了,自己都不合格
d
didadida
93 楼
开卷不?

【 在 bobohu (bobohu) 的大作中提到: 】
: 给DS的题。
: 第一道 P(A|B)=P(AB)*? 把问号部分填上,写啥都行。
: 第二道,100个采样方差10,问把方差降到2,估计大概需要多少采样。
: (我写的具体一些,是说100个用户给出评价,平均分是55,标准差是10,经理觉得可
: 信度不太高,想把标准差降低到2,然后问大概要多少用户。 我还画了图演示.
: 不过我现在仔细想想,这道题出的很有问题,要改改)
: 然后把面试的人搞得很难过,一直说我忘记了,2016年DS master毕业的,我就不敢再
: 问了。
: 我是不是问的太难了?是不是不该问数学概率题了? 应该问你用过tensorflow 哪个
: 包,干了啥事。
s
su35
94 楼
第二题当年面果家DS面到过~如果是偏统计的DS职位~这些题真心不难
m
minigun
95 楼
但海军陆战队退役然后做communication培训的老师能说出来还是厉害。再说,你记得
定义,但是能像人家那样随手写出pdf的形式么?何况你是干啥工作的,人家干啥的。
。。
【 在 repast (xebec) 的大作中提到: 】
: Poisson 分布就是研究生第一门课或者本科生高年级的课会讲
: :难道觉得回答出来很了不起么?
: :
a
abracadabra
96 楼
应该是100*(10/2)^2=2500.

采样要估计的是population mean X。不是sample mean x。 sample mean是population mean的一个estimator X* 。 estimator和underlying population mean的偏差,当样本足够大时可以认为是正态分布。如果estimator 是unbiased, 该正态分别的均值为0
。样本越大,该正态分布的方差越小。渐近关系是σ~sqrt(N).

这些结果都是从大数定理和中心极限定理导出的。

【 在 TheMatrix(TheMatrix) 的大作中提到: 】
<br>: 应该是100*sqr(10/2)=2500吧。
<br>: :估计出题人想要的答案是 N = 100*sqrt(10/2)
<br>: :
<br>
r
rgg
97 楼
DS这一帮,是不是在统计的鄙视链底下的?不讲究算置信区间,拿kernel regression
当宝的。

【 在 bobohu (bobohu) 的大作中提到: 】
: 给DS的题。
: 第一道 P(A|B)=P(AB)*? 把问号部分填上,写啥都行。
: 第二道,100个采样方差10,问把方差降到2,估计大概需要多少采样。
: (我写的具体一些,是说100个用户给出评价,平均分是55,标准差是10,经理觉得可
: 信度不太高,想把标准差降低到2,然后问大概要多少用户。 我还画了图演示.
: 不过我现在仔细想想,这道题出的很有问题,要改改)
: 然后把面试的人搞得很难过,一直说我忘记了,2016年DS master毕业的,我就不敢再
: 问了。
: 我是不是问的太难了?是不是不该问数学概率题了? 应该问你用过tensorflow 哪个
: 包,干了啥事。
T
TheMatrix
98 楼
对。sample mean的mean等于population mean。sample mean的distribution趋近于
normal distribution。

【 在 abracadabra (abracadabra) 的大作中提到: 】
: 应该是100*(10/2)^2=2500.
: 采样要估计的是population mean X。不是sample mean x。 sample mean是
population
: mean的一个estimator X* 。 estimator和underlying population mean的偏差,当样
: 本足够大时可以认为是正态分布。如果estimator 是unbiased, 该正态分别的均值为
0
: 。样本越大,该正态分布的方差越小。渐近关系是σ~sqrt(N).
: 这些结果都是从大数定理和中心极限定理导出的。
:
: 应该是100*sqr(10/2)=2500吧。
:
: :估计出题人想要的答案是 N = 100*sqrt(10/2)
:
: :
:
R
Rolling
99 楼
我也来讨论一下。那些光喊容易不给答案的机器人就不要来掺乎了. :-)

这是楼主改了几遍的原题,还是一团乱麻,

(我写的具体一些,是说100个用户给出评价,平均分是55,标准差是10,经理觉得可
信度不太高,想把标准差降低到2,然后问大概要多少用户。 我还画了图演示.

我同意wdong所说,如果样本是iid,不管样本size多大,样本标准差(sample standard deviation, which is an estimation of standard deviation of population)是差不多的。第一个标准差应该就是指这个。那第二个标准差就只能理解成样本平均值(x_
bar=sum(x1:xn)/n, which is a random variable)的标准差了。我知道从题目的表述
来看这么理解很牵强,但只能这样,要不然没题可做。

给定样本size 100, 样本平均值x_bar的标准差只有1 (population std which is 10, divided by sqrt(100)).这其实很直观:随便抽一个,标准差大概10. 100个平均下来
标准差只剩1不奇怪。

所以现在不是降低样本平均值的标准差到2,而是升到2!样本size要减少,大概25就够了! (2=10/sqrt(25))

【 在 TheMatrix (TheMatrix) 的大作中提到: 】
: 对。sample mean的mean等于population mean。sample mean的distribution趋近于
: normal distribution。
: population
: 0
T
TheMatrix
100 楼
对。这个我也注意到了。标准差为10对于一个(0,100)取值的评价分数的random
variable来说比较正常。但是如果说它是sample mean的标准差,那绝对太大了。所以
题出的确实欠考虑。

【 在 Rolling (A Rolling Stone) 的大作中提到: 】
: 我也来讨论一下。那些光喊容易不给答案的机器人就不要来掺乎了. :-)
: 这是楼主改了几遍的原题,还是一团乱麻,
: (我写的具体一些,是说100个用户给出评价,平均分是55,标准差是10,经理觉得可
: 信度不太高,想把标准差降低到2,然后问大概要多少用户。 我还画了图演示.
: 我同意wdong所说,如果样本是iid,不管样本size多大,样本标准差(sample
standard
: deviation, which is an estimation of standard deviation of population)是差
: 不多的。第一个标准差应该就是指这个。那第二个标准差就只能理解成样本平均值(x_
: bar=sum(x1:xn)/n, which is a random variable)的标准差了。我知道从题目的表述
: 来看这么理解很牵强,但只能这样,要不然没题可做。
: 给定样本size 100, 样本平均值x_bar的标准差只有1 (population std which is 10,
: ...................