统计

样本标准差的意义是什么?

是为了估计总体嘛?和样本本身的关系如何?
关注者
162
被浏览
527,419

5 个回答

来来,一起聊聊,从为什么有这个东东,到这个东东怎么应用。

1.标准差有啥卵用?

在描述统计学历四分位数( 猴子:四分位数的位置计算原理?)的优点是可以从整体上描述出数据的分布状态,却无法告诉我们数据的波动性有多大

我们举个具体的例子,在NBA中,平均数据用来衡量一个球员的战斗力,比如场均得分,盖帽,抢断,助攻等。

那么我们现在想一个问题。如果你是教练,你想知道哪位球员发挥最稳当。因为你需要一支值得信赖的球员队伍,他最不想要的就是表现时好时坏,水平反复无常,波动很大的队员。他需要得是分高,且发挥稳定的球员。

而标准差就是为了描述数据集的波动大小而发明的。

2. 什么是数据的波动大小?

很多统计概率的书本上会用离散程度和变异大小来表示数据集之间偏离平均值的程度。我一度被离散程度这四个字搞的摸不着头脑,因为大脑里根部无法直观的理解这四个字。想不通为何统计学家起名字的时候就不能通俗易懂嘛。

直到有一天,我想到“波动大小”可以直观的替代“离散程度”这个专业术语,我的内心是一阵狂喜。想想,我们日常生活中对一件事情的波动大小是有直观的理解的。

如果你像巴菲特一样在做价值投资,面对两支股票历年股价的曲线图,你可以直观的感受到哪只股票的波动比较大。

在例如你日常看新闻,会看懂腾讯2017年一季度盈利145亿,比去年同期增长
57%,也就是每天赚1.6亿,你会惊叹腾讯股价的波动性好大。想想王健林早上说定个小目标,马化腾下班时就完成了。

所以,以后遇到“离散程度”,“变异性”这些词理解不了的时候,你的大脑自动切换到“波动大小”这四个字,就理解了,因为他们说的是一个意思。


3. 标准差表示数据集的波动大小,那如何计算标准差呢?

直接上图吧(我喜欢画图,能用图说明的就不用文字)。

解释下上面的图,假设数据集中有三个数,分别是x1,x2,x3。

第1步,先计算方差,每个数值减去平均数μ(miu),的平方,相加,然后除以数据集总数n,这里有3个数,所以n=3。

这样就算出了各个数值与平均值的平均距离。

第2步,方差开方就是标准差,标准差符号读西格玛。

别担心,当数据集中的数据很多时,会有专门的工具来计算出标准差。这里介绍公式是让你知道标准差是怎么计算出来的,对于后面的应用和理解会很有帮助。

4. 回到你的问题,为啥有了标准差,还要方差?

如果你理解了上面的公式,就会自动最终我们想要的是标准差,方差只不过是计算的中间过程。

你都衡量数据了,肯定要和你衡量的数据单位一致,不然比较个啥,标准差单位才是和数据一致。


5. 标准差应用案例

没有使用案例,懂的太多知识用不上就是耍流氓,下面案例不详细说了,来图吧。

很多人其实忘记了样本标准差的目的是干什么用的,我对复杂的数学公式证明不感兴趣(反正书上有),下面我聊下这背后的原因。


6.样本标准差的意义是用于估计总体标准差,你需要理解下面2个内容:

1)样本标准差为什么除以n-1

当你选择一个样本后,相比总体,你拥有数据的数量是变少了,因此,与总体中的数值偏离平均值的程度相比,样本中很有可能把较为极端的数值排除在外,这样使得数值更有可能以更紧密的方式聚集在均值周围。

也就是说,样本的标准差要小于总体标准差。

所以,为了更好的用样本估计总体的标准差,统计学家就将标准差的公式做了改造:即原来的标准差公式是除以n,为了用样本估计总体标准差,现在是除以n-1。这样就使得标准差略大。弥补了样本的标准差小于总体标准差的不足。


所以很多书上会直接把除以n-1的标准差叫做样本标准,其实这个样本标准差的目的是用于估计总体标准差。


2)你可能会疑惑,那我什么时候标准差除以n还是n-1呢?

其实,这个问题我的一个社群会员@胡小白 也问过这个问题:


只要你记住使用标准差的目的是什么,就不会搞错了。

如果你只是想计算一个数据集的标准差,那么就除以n。例如你有100个毕业与清华人的收入,只是想了解这100个人构成的数据集的波动大小,那你就用除以n的标准差公式。

如果你想用样本来估计总体的标准差,那就用除以n-1的标准差公式。例如你想把刚才例子中这100个人当成一个样本,用这个样本来估计出总体(所有毕业与清华人的收入)的标准差,那么就除以n-1的标准差公式。

————领取福利分界线——————

我是猴子,中科院硕士/前IBM高级软件工程师/豆瓣8分《数据分析思维》作者,我和知乎知学堂研职在线联合出品的「数据分析训练营」即将开课,3天带你掌握数据分析实用技巧,包含课程+实战带练,工作提效、升职加薪必备神器!

报名还有独家Excel自学资料领取,点击开启数据分析升职加薪密码:

编辑于 2023-04-24 19:29

举个例子,统计篮球队员身高


两支队伍平均身高都是180,看起来似乎差不多

但如果画图的话,得到结果如下


很显然,蓝色队队员身高更加整齐一些,橙色队身高显得参差不齐

为了反映一组数据,偏离平均值的程度,就有了”标准差“这个概念


如果数据量很大,比如几万人的身高,我们不容易从折线图看出来,可以直接用公式计算

在excel有一个STDEV函数(Standard Deviation 标准差的缩写)




很明显,橙色队的标准差比蓝色队标准差大很多

金融市场中,标准差用来反映股票的波动程度



在NBA中,平均数据用来衡量一个球员的战斗力,比如场均得分,盖帽,抢断,助攻等


但衡量一个球员的稳定性,使用的是标准差



心理测量学,智商测试

WAIS-RC 韦氏成人智力测验 —— 分测验量表转换为平均分100,标准差位15的离差智商

这说明同一个群体的智商在 [100-15,100+15] 这个范围内浮动

以上这些都是”标准差“存在的意义

编辑于 2015-11-04 18:19

楼上的兄弟,人家问的是样本标准差的意义,不是标准差的意义,这是两个概念。

样本标准差是总体标准差的点估计,当调查量非常大或者生产线一直生产某类产品,无法估计总体平均值和总体标准差时,才用样本的点估计,估计总体参数。并获得一个大概的可能值。

而这时,由于总体量非常大,普查根本不可能,无法普查,那么标准差和平均值只能是估计值,所以用抽样的方式获得平均值和样本误差,从而衡量估计值。

编辑于 2016-02-14 16:12
概率论与数理统计(40)总体与样本
2054 播放 · 1 赞同
发布于 2022-05-27 22:23· 463 次播放

在wiki上发现了Bessel's correction

发布于 2020-10-22 22:07
( 为什么?)