标准差公式举例 标准差公式


标准差公式举例 标准差公式

文章插图
数据给你一双看透本质的眼睛,这里是《数据分析思维课》 。
前面我们讲过平均值不能够代表整体的水平,也给你讲了大数定律、散点图这些知识 。接下来我们再进入一个常见的问题:怎样能快速看清一组数据的大概情况?
对于这个问题来说,我们不必用非常复杂的散点图或者文字来进行表述,这个时候就轮到标准差登场了 。标准差和数据分布、平均值一起就可以很方便地描述一组数据的大致情况 。
标准差还有一个孪生兄弟叫做标准误差,这两个兄弟确实很像,我们也会经常能听到说“这个问题在误差允许的范围里 。”感觉一旦说了这句话,好像这个东西就很靠谱了,但真的是这样吗?今天我就给你展开讲讲标准差和标准误差 。
标准差
标准差的概念比较简单,它代表一组数值和平均值相比分散开来的程度 。也就是说,标准差大代表大部分的数值和平均值差异比较大,标准差小代表这组数字比较接近平均值 。
标准差的计算公式我给你放在了附录里,公式看上去稍微复杂一点,但主要就是算每一个数据和平均值之间的差异距离 。你经常听说某市平均薪资是 X 万,你很纳闷我和周边人薪资这么少,为啥平均薪资那么高,我是怎么“被涨薪”的?我们可以看一下下面这个例子,假如两个小组的月薪大概是如下这个样子,单位都是“万” 。
第一组:[1.72,1.70,1.68,1.71,1.69] ;第二组:[1.70,5.20,0.60,0.2,0.8] 。
这两组人你可以简单计算一下,你会发现平均月薪都是 1 万 7 。但很明显,第 2 组人的薪酬高低差异要比第 1 组人大很多 。第一组人都是 1 万 7 左右的薪资,差异不大 。你很不巧在第二组里,你月薪 6000,周边都是 2000、8000 的小伙伴,但是实际上,你这组里有月薪 5 万的人你不认识,于是,你就“被涨薪”了 。
通过公式或者 Excel 函数(我在最后一章会教你如何方便地计算),你能算出来第一组标准差是 0.014,第二组是 1.818,差异能有一百多倍 。如果每次只给你某地区或者某部门的平均薪酬,但是不告诉你这个地区部门它的标准差有多大,那我们难免就会觉得困惑,“不患寡而患不均”用在这里依旧很合适 。
所以看薪资的时候,你不仅需要知道一个平均值,同时还需要知道一个标准差,你才能知道整体薪资水平、你自己的水平以及你将来的天花板在哪里 。
但是只有这个概念还不够,假设对于第 1 组的薪资单位来说,我用的是不是“万元”,而是用“百元”甚至“元”作为单位的话,它的标准差就会到 1.414 和 141.4 。这个时候再和第 2 组人员去比,感觉好像标准差的离散度更高,但是实际数据却不是如此 。
所以一般我们真的在做数据分析的时候,我们会常用另外一个数据来规避这种问题,它叫做离散系数 CV(coefficient of variation) 。它的计算公式很简单,就是用标准差除以平均值(离散系数 = 标准差 / 平均值),这样的话就规避了单位或者其他因素的这些差异 。我们直接看离散系数这个数据,就能知道这几组数据之间的离散程度和差异是什么样的 。
下次你再去问人力资源部门的平均薪酬的时候,你可以多问一句“这个部门的离散系数有多少?”你大概就会知道,你可以要到最高多少的薪酬和你将来的涨薪空间会有多大了 。
标准差的具体使用
标准差除了衡量一个群体里面具体数值之间差异有多大,比如说衡量我们的薪酬、身高、体重这些差异之外,它还有什么用呢?
它也会用于衡量一个人或者一个团队的稳定性,比如说 。在你常见的 NBA 里我们会用平均数据来衡量一个球员的战斗力,比如场均得分,盖帽,抢断助攻等等 。
标准差公式举例 标准差公式

文章插图
同时,我们会使用标准差来衡量一个球员的稳定性 。
如果只看场均得分达到 20+ 的球员中,当属勒布朗 - 詹姆斯最稳定,标准差为 5.8 分,遍历他本赛季所有的比赛,他既没有超过 40 分的狂飙,也无低于 13 分的低迷 。
类似的,我们在衡量一个团队的销售业绩整体情况的时候,我们会使用平均值 。但是如果我们要看的是一段时间内团队成员的收入稳定情况和能力,我们就会看他最近成单的标准差 。
同样,对应到做管理上,比如我做 CTO 管理程序员的时候,我会去留意大家提交代码的节奏 。有的人就是喜欢所有事情都到最后一天才完成提交,有的人就喜欢平均用力,在各个时间段里都有提交 。

秒懂生活扩展阅读