很多小伙伴想知道:做数据分析,到底要懂多少统计学?小熊妹很认真地做一个懒人攻略,不讲复杂的理论,直接讲实际操作,希望能帮助到大家哦 。
如果要讲统计学,第一个概念要从区间估计讲起,这是后续很多方法的基础 。
一听:“区间估计”的名字,很多小伙伴会一脑袋问号:
今天的分享就从这里开始 。
一、什么是“估计”“估计”是指用抽样的数据估计全体的数据情况 。之所以这么做,是因为很多时候,想全体采集数据太难了!比如生产真空包装鸡腿的企业,要检查质量,就得把包装拆开,那鸡腿就不能再卖了 。这是多大的损失呀!所以必须抽样 。
如果直接用抽样数据代表全体数据,就是所谓:点估计 。
常见的点估计指标有2个:
- 平均值:比如抽样鸡腿的平均重量为150克 。
- 比例:比如抽样鸡腿的卫生合格率为99.9% 。
二、什么是“区间估计”通俗地讲:区间估计是在点估计的基础上,给一个合理取值范围 。
比如:抽样鸡腿的平均重量为150克,是一个点估计值 。抽样鸡腿的平均重量为145克到155克之间,是一个区间估计 。
其中,145到155称为置信区间 。这很符合人们的常规理解:东西很难100%准确,有个范围也是可以理解的 。
但这个范围有多大可信度呢?人们用置信置信水平来衡量,即:“我们有多大把握,真实值在置信区间内” 。一般用(1-α)表示 。如果α取0.05,则置信水平为0.95,即95%的把握 。
置信区间与置信水平连起来,完整的表达为:“我们有95%的把握,鸡腿平均重量在145至155克之间 。”
有小伙伴会好奇,为啥置信水平不是100%!通俗地说,当置信水平太高时,置信区间会变得非常大,从而产生一些正确但无用的结论 。
比如:我们有100%的把握,小熊妹颜值在负分滚粗(-10分)与美若天仙(10分)之间……这是句正确的废话 。
【区间估计和置信区间 置信区间什么意思】再比如:我们有95%的把握,小熊妹是个颜值8分的美女(10分满分)……这个结论是不是有用多了!
三、如何做区间估计做区间估计需要四步,不想看原理的小伙伴,死记硬背即可 。
- 第一步:确认抽样对象和要计算的指标(看算平均值还是比例);
- 第二步:进行抽样,获得样本数据(平均值、比例、方差、样本量);
- 第三步:给定置信水平(1-α值);
- 第四步:利用Z分布,求出对应置信区间范围 。
文章插图
只要把公式的参数,套进去即可 。其中标准差,Z值/t值,平均值等参数,在各种计算工具里都有现成的公式可以用 。
四、两个简单的例子某公司主要针对中老年群体开发产品,用户在购买时无需提供身份信息,因此不清楚用户年龄 。
现需抽样,调查其目标客户的年龄是否符合“中老年”的范畴,抽样数据如下,请计算90%置信水平下的目标客户年龄置信区间(如下图) 。
文章插图
再看个比例的例子 。某公司想了解用户满意度,而有相当比例的用户没有在商品评价里打分,因此采用调查方法,抽300名未在网站打分用户调查,其中182名用户表示满意,求95%置信水平下,用户满意率的置信区间(如下图) 。
文章插图
秒懂生活扩展阅读
- 小说六要素和三要素的区别
- 观察七星瓢虫的特征和生活习性
- 唐山市区海拔多少米
- iqooneo5怎么分屏
- 字音和音序是什么
- 皮鞋出白碱是怎么回事
- 你对旅行和旅游的理解是什么?
- 沈阳航空航天大学和南昌航空大学哪个好
- 轮胎上的数字和字母是什么意思
- 美国民主共和党一直这样斗下去,美国全球战略怎么办?国内经济发展怎么办?