我出的面试题是不是太难了 - 2018年1月24日未名空间存档 (第 2 页)

6 年多

101 楼

【在 Rolling (A Rolling Stone) 的大作中提到: 】
: 我也来讨论一下。那些光喊容易不给答案的机器人就不要来掺乎了. :-)
: 这是楼主改了几遍的原题，还是一团乱麻，
: （我写的具体一些，是说100个用户给出评价，平均分是55，标准差是10，经理觉得可
: 信度不太高，想把标准差降低到2，然后问大概要多少用户。我还画了图演示.
: 我同意wdong所说，如果样本是iid，不管样本size多大，样本标准差(sample
standard
: deviation， which is an estimation of standard deviation of population)是差
: 不多的。第一个标准差应该就是指这个。那第二个标准差就只能理解成样本平均值(x_
: bar=sum(x1:xn)/n, which is a random variable)的标准差了。我知道从题目的表述
: 来看这么理解很牵强，但只能这样，要不然没题可做。
: 给定样本size 100, 样本平均值x_bar的标准差只有1 (population std which is 10,
: ...................

但凡你找本大学实验物理的书数据处理部分看看你也不会这么离谱了

或者任何一本蒙特卡洛模拟的书的第一章

guvest

6 年多

102 楼

你们不要质疑楼主的水平。他这题看的是你有没有实际处理过真实的数据问题或者噪声问题。（包括物理实验，电子实验等等）不是看书背的如何。

这题目不是抠字眼的问题。也跟正态分布什么无关。
你查查Chebyshev不等式，萨缪尔森不等式啥的。
再查查测花粉什么的算玻尔兹曼常数。具体的成功应用
统计的例子里，无数sqrt(N)。无数数学家各种估计的文章
都围绕这个做文章。

撒骰子60个一起撒，和2个撒。中间聚集的
密度和6/2=3之间的规律是什么？凡是有这种互相抵消物理过程的，首先猜sqrt(n)

有这功夫，不如去算算股票周波动率和日波动率的比例
是不是根号5

【在 TheMatrix(TheMatrix) 的大作中提到: 】
 : 对。这个我也注意到了。标准差为10对于一个（0，100）取值的评价分数的
random
 : variable来说比较正常。但是如果说它是sample mean的标准差，那绝对
太大了
。所以
 : 题出的确实欠考虑。
 : standard
 : ,

TheMatrix

6 年多

103 楼

大神你的贴我基本都拜读了，思想广度和深度之大，我经常跟不上。

【在 guvest (我爱你老婆Anna) 的大作中提到: 】
: 你们不要质疑楼主的水平。他这题看的是你有没有实际处理过真实的数据问题或者噪声
: 问题。（包括物理实验，电子实验等等）不是看书背的如何。
: 这题目不是抠字眼的问题。也跟正态分布什么无关。
: 你查查Chebyshev不等式，萨缪尔森不等式啥的。
: 再查查测花粉什么的算玻尔兹曼常数。具体的成功应用
: 统计的例子里，无数sqrt(N)。无数数学家各种估计的文章
: 都围绕这个做文章。
: 撒骰子60个一起撒，和2个撒。中间聚集的
: 密度和6/2=3之间的规律是什么？凡是有这种互相抵消物理过程的，首先猜sqrt(n)
: 有这功夫，不如去算算股票周波动率和日波动率的比例
: ...................

guvest

6 年多

104 楼

除了sqrt(N)这个因子有共性

具体问题下
前面的其他系数可以非常复杂
用的时候查最新文献就可以了
很难深究……数学天赋者除外

【在 TheMatrix(TheMatrix) 的大作中提到: 】
 : 大神你的贴我基本都拜读了，思想广度和深度之大，我经常跟不上。

magliner

6 年多

105 楼

我也好奇了好多年，为什么到处都是平方开方。直到有一天，有位大师告诉我这一切
的一切，都是勾股定律的结果。我才恍然大悟。统计上的很多定律，比如total
variance formula（一连串的sum square）都是勾股定律的应用. 高斯-马尔科夫说
least square estimator是线性系统里是最棒的，是不是也受到勾股定律的启发？不
清楚。

guvest

6 年多

106 楼

牛顿当初猜万有引力定律，似乎猜的不是平方反比。胡克猜的是对的.因为这点烂事，
胡克死后，牛顿销毁了胡克所有的画像。乃至于至今没有胡克的像留存。

以上内容回忆自V.I.Arnold的一本讲牛顿巴罗胡克的书。

哎，我今天又得罪了一些微信群里的AI知名学者，
心情沉痛啊。为毛啊，三分钟我就把人得罪光了……
看来每天要多读读胡克的故事

【在 magliner(magliner) 的大作中提到: 】
 : 我也好奇了好多年，为什么到处都是平方开方。直到有一天，有位大师
告诉我
这一切
 : 的一切，都是勾股定律的结果。我才恍然大悟。统计上的很多定律，比
如total
 : variance formula（一连串的sum square）都是勾股定律的应用. 高斯-马尔
科夫说
 : least square estimator是线性系统里是最棒的，是不是也受到勾股定律的启发
？不
 : 清楚。

Testimone

6 年多

107 楼

我觉得DS最重要的还是为什么要这么做，这些算法里的数学问题本来就不是DS应该去
关心的。 DS还是要从intuition出发，问问做过的项目数据是咋样的，为什么要选这
种machine learning方法，以及怎么去evaluate这种方法才是合理的。这种才是DS的基本素质。当然只是硕士什么的码码code的就无所谓了。

abracadabra

6 年多

108 楼

嗯，这个是中心极限定理得结果。N个随机变量，尽管本身都不是正太，但是相加和会
趋紧正太。所以有多种随机噪声得测量，基本都可以认为误差是正太，是有理论依据的。

【在 guvest (我爱你老婆Anna) 的大作中提到: 】
: 凡是有这种互相抵消物理过程的，首先猜sqrt(n)
:

abracadabra

6 年多

109 楼

但是绝对有可能出现。所以老板才会叫多测几个。

这种时候sqrt(n)估计绝对重要。如果问卷一个人要给10块，那在加2400人，就得花2万4千块。这可能决定要不要继续这个项目的问题。

【在 TheMatrix (TheMatrix) 的大作中提到: 】
: 对。这个我也注意到了。标准差为10对于一个（0，100）取值的评价分数的random
: variable来说比较正常。但是如果说它是sample mean的标准差，那绝对太大了。所以
: 题出的确实欠考虑。
: standard
: ,

TheMatrix

6 年多

110 楼

来做个简单的估算：一个（0，100）取值的random variable的标准差上限是100吧？那么sample size 100的sample mean的标准差的上限是10，实际情况不可能达到。所以原题的数字不合理。

【在 abracadabra(abracadabra)的大作中提到：】
：
：但是绝对有可能出现。所以老板才会叫多测几个。

TheMatrix

6 年多

111 楼

对。我觉得这个解释是合理的。为什么到处都是sqrt？直接原因是因为你研究的量里有square。比如方差。为什么到处都有square？这可能是因为勾股定理，因为空间距离满足勾股定理。

【在 magliner(magliner)的大作中提到：】
：我也好奇了好多年，为什么到处都是平方开方。直到有一天，有位大师告诉我这一切
：的一切，都是勾股定律的结果。我才恍然大悟。统计上的很多定律，比如total

magliner

6 年多

112 楼

后来我又学了什么hilbert 空间, L_p 空间，才知道这空间这p不一定非等于2，可以等于0,1,2,3，3.5一直到无穷。那么为什么勾股定理非得用2 ？

首先用奇数可能不行，搞不好计算的时候弄出一堆负数。那么用2.5呢？好像有些莫名其妙。所以上帝，或者别的大神，造世界的时候说，我造的这个世界不能太简单，怕你们闲的无聊，所以p不能太小。又不能太复杂，太复杂了，你们考试怎么考？太长的公式怕你们记不住。我造的这个世界，让你们可以求导，还可以求导数的导数就可
以了。满足这两点，学统计的只需搞懂均值，方差；炒股票的只需明白sqrt(t); 聪
明一点的可以琢磨hessian matrix 推导各种公式。

让你们每天有事情做，有楼可以盖。所以勾股定理p要选2
【在 TheMatrix (TheMatrix) 的大作中提到: 】
: 对。我觉得这个解释是合理的。为什么到处都是sqrt？直接原因是因为你研究的量里有
: square。比如方差。为什么到处都有square？这可能是因为勾股定理，因为空间距离满
: 足勾股定理。
: ：我也好奇了好多年，为什么到处都是平方开方。直到有一天，有位大师告诉我这
一切
: ：的一切，都是勾股定律的结果。我才恍然大悟。统计上的很多定律，比如total

rgg

6 年多

113 楼

勾股定理中学生都该会证。面试的时候要是更进一步，问勾股定理是从哪一条公理推出的，到底为什么是对的，norm-2 特殊到哪里，就又能蒙到一片了。

【在 magliner (magliner) 的大作中提到: 】
: 后来我又学了什么hilbert 空间, L_p 空间，才知道这空间这p不一定非等于2，可以等
: 于0,1,2,3，3.5一直到无穷。那么为什么勾股定理非得用2 ？
: 首先用奇数可能不行，搞不好计算的时候弄出一堆负数。那么用2.5呢？好像有些莫名
: 其妙。所以上帝，或者别的大神，造世界的时候说，我造的这个世界不能太简单，怕
: 你们闲的无聊，所以p不能太小。又不能太复杂，太复杂了，你们考试怎么考？太长
: 的公式怕你们记不住。我造的这个世界，让你们可以求导，还可以求导数的导数就可
: 以了。满足这两点，学统计的只需搞懂均值，方差；炒股票的只需明白sqrt(t); 聪
: 明一点的可以琢磨hessian matrix 推导各种公式。
: 让你们每天有事情做，有楼可以盖。所以勾股定理p要选2
: 一切

iBrick

6 年多

114 楼

你没听说过“多次测量取平均值”的说法么？方差不降低取平均值干嘛。
【在 wdong (万事休) 的大作中提到: 】
: 第二个我也不会。
: 方差由分布决定，和增加采样有什么关系。
: 标准正太分布方差就是1, 再怎么采样也还是1，最多估计的精确点。
: 我又去查了下google，确定我理解没有错误。
: 肯定是你问的不对，自己搞错概念了。