描述统计学:极差、方差、标准差

变异程度的度量(离散程度的度量)

交货时间的变异性造成按时完成生产任务的不确定性

极差

极差=最大值-最小值

最简单的变异程度的度量

但很少单独用来度量变异程度。仅有两个观测值,异受极端值的影响

四分位数间距

能够克服极端值的影响,因为四分位数是中间的50%数据的极差.

方差

是用所有数据对变异程度所做的一种度量。

对于样本平均数的离差=

对于总体平均数的离差=

总体方差

样本方差

样本方差是总体方差的点估计,平均数的离差之和永远为0。

例子:

第一组的鸡的斤数分别是 2.5,3,3.5

第二组的鸡的斤数分别是 1,3,5

很显然我们能看出第一组鸡看起来重量的差别不大,第二组鸡的差别就很大,因为鸡本身重量并不大,相差两斤的话一下子就能看出来

可是我们发现这两组鸡重量的平均数是一样的,但是这两组鸡却有明显的差别,这是平均数就不能体现二者的差别,所以我们引入了方差的概念

方差越大,说明数据的差别越大。反应了一组数据的稳定性。

标准差

方差的平方根

样本标准差:

总体标准差

标准差更容易与平均数等其他统计量进行比较,这是由于它们的单位与原始数据是相同的。

标准差系数

(标准差/平均数)*100%

在变量的标准差和平均数都不相同时,比较它们的变异程度,标准差系数是一个有用的统计量。

练习

  1. 考虑数据值为10,20,12,17和16的一个样本,计算方差和标准差。
new_list = [10,20,12,17,16]
data = Series(new_list)
# 方差
data.var()
3.125
# 标准差
data.std()
1.7677669529663689

new_list = [182,168,184,190,170,174]
data = Series(new_list)
# 方差
data.var()
75.2
# 标准差
data.std()
8.67179335547152
# 平均数
data.mean()
178.0
# 极差
data.max()-data.min()
22
# 标准差系数
(data.std()/data.mean())*100%
4.87%

# 平均数
car.mean()
38.0
# 标准差
car.std()
9.848857801796104
# 方差
car.var()
97.0

虽让东西部的租车费用的平均数相同,但是标准差东部的数值远远大于西部的,可见东部的各个城市间的租车费用差异性比较大,离散度较高,西部的各个城市间的租车费用相对来说差别不大,比较稳定。

dawson = [11,10,9,10,11,11,10,11,10,10]
clark = [8,10,13,7,10,11,10,7,15,12]
shop = pd.DataFrame([dawson,clark],index=[‘dawson‘,‘clark‘])
shopT = shop.T
shopT

    dawson  clark
0   11  8
1   10  10
2   9   13
3   10  7
4   11  10
5   11  11
6   10  10
7   11  7
8   10  15
9   10  12

diff_vale = shopT.max()-shopT.min()
diff_vale
# 极差
dawson    2
clark     8

s = shopT.std()
s
# 标准差
dawson    0.674949
clark     2.584140

由两家的极差和标准差可见,稳定性dawson远远高于clark。

Bonita_2005 = [74,78,79,77,75,73,75,77]
Bonita_2006 = [71,70,75,77,85,80,71,79]
golf_person = pd.DataFrame([Bonita_2005,Bonita_2006],index = [2005,2006])
# 平均数
golf_person.mean(axis=1)
2005    76.0
2006    76.0
# 标准差
golf_person.std(axis=1)
2005    2.070197
2006    5.264436

golf_person.T.describe()
        2005            2006
count   8.000000    8.000000
mean    76.000000   76.000000
std 2.070197    5.264436
min 73.000000   70.000000
25% 74.750000   71.000000
50% 76.000000   76.000000
75% 77.250000   79.250000
max 79.000000   85.000000

虽然平均数是相同的,但是看的出来,2006年的比赛,心态并不稳定,但是最大值和最小值的差值从2005的6,2006年的15反映出该运动员的水平是得到了提高的。

原文地址:https://www.cnblogs.com/lishi-jie/p/9924590.html

时间: 2024-10-10 06:52:04

描述统计学:极差、方差、标准差的相关文章

2.13 描述性统计(平均数,中位数,中数,数据的离散度(极差,平均绝对偏差,方差标准差))

统计分析包括描述统计和推断统计两个部分. 对已有的数据整理,计算数据指标,平均数,中位数,中数,数据的离散度(极差,平均绝对偏差,方差标准差)是最常用的技术手段,也是最容易的. # hanbb # come on!!! import tushare as ts import matplotlib.pyplot as plt # 股票数据获取 data_zglt = ts.get_hist_data('600050',start='2015-06-23',end='2017-11-16') dat

C语言之文件操作07——读取文件数据并计算均值方差标准差

//文件 /* =============================================================== 题目:从文本文件"high.txt"中取出运动员的身高数据,并计算平均值,方差和标准差! =============================================================== */ #include<stdio.h> #include <math.h> #define hh pr

方差+标准差+四分位数+z-score公式

一.方差公式 $S^2 = \frac{1}{N}\sum_{i=1}^{N}(X_i - \mu)^2 = \frac{1}{N}[(X_1-\mu)^2 + (X_2-\mu)^2 + ... + (X_N - \mu)^2]$ 其中公式中μ为平均数,N为这组数据的个数,x1.x2.x3--xN为这组数据具体数值. 二.标准差公式 $S = \sqrt{S^2} = \sqrt{\frac{1}{N}\sum_{i=1}^{N}(X_i - \mu)^2}$ 其中公式中数值X1,X2,X3,

基于R语言的数据分析和挖掘方法总结——描述性统计

1.1 方法简介 描述性统计包含多种基本描述统计量,让用户对于数据结构可以有一个初步的认识.在此所提供之统计量包含: 基本信息:样本数.总和 集中趋势:均值.中位数.众数 离散趋势:方差(标准差).变异系数.全距(最小值.最大值).内四分位距(25%分位数.75%分位数) 分布描述:峰度系数.偏度系数 用户可选择多个变量同时进行计算,亦可选择分组变量进行多组别的统计量计算. 1.2 详细介绍 1.2.1 样本数和总和 1. R语言涉及的方法:length(x) 1.2.2 均值(Mean) 1.

统计学 一 集中趋势

预览 参考书籍:浙大概率论与数理统计, 俄罗斯的概率教材, 概率-施利亚耶夫著作, 统计学及应用-sarah boslaugh著作???? 统计学分类: ????描述统计学:展示数据, 描述数据的集中和离散程度 ????推断统计学:根据样本数据推断总体的数据特征 统计趋势: ????集中趋势, 离散趋势 统计学应用: ????有数据, 就有统计分析的需求 把握要点: 概率论是统计学实施的基础, 统计学倾向于解决实际问题 ????常用符号: ????????μ: 总体均值 ????????σ:总体

【读书笔记-数据挖掘概念与技术】认识数据

属性分类: 标称属性(定性) 二元属性(定性) 序数属性(定性) 数值属性(定量) 标称属性--"与名称相关",它的值是一些符号或事物的名称. eg.头发颜色(黑色.棕色.淡黄色.红色) 婚姻状况(单身.已婚.离异.丧偶) 二元属性--标称属性的一种,只有两个类别或状态:0或1(布尔属性). 有对称与非对称之分,对称--两种状态具有同等价值并且携带相同的权重eg.性别 非对称--其状态的结果不是同样重要eg.化验结果(阴性0.阳性1) 序数属性--它的值之间具有有意义的序或秩评定,但相

R语言数据挖掘实战系列(3)

三.数据探索 通过检验数据集的数据质量.绘制图表.计算某些特征量等手段,对样本数据集的结构和规律进行分析的过程就是数据探索. 数据质量分析 数据质量分析的主要任务是检查原始数据中是否存在脏数据,脏数据一般是指不符合要求,以及不能直接进行相应分析的数据.常见的脏数据包括:缺失值.异常值.不一致的值.重复数据及含有特殊符号的数据. 缺失值分析 数据的缺失主要包括记录的缺失和记录中某个字段信息的缺失.产生的原因有(1)有些信息暂时无法获取,或者获取信息的代价太大:(2)有些信息是被遗漏的:(3)属性不

统计学方法与数据分析学习笔记1

用于质量改进和再造工程的统计工具.技术和方法: 直方图 数值描述量(均值.标准差.比例等) 散点图 线图(在散点图中用线连接各点) 控制图:(样本均值),r(样本极差),及s(样本标准差) 抽样方案 试验设计 收集数据要有意识的做好以下几步: 详细说明研究.调查或试验的目标 确定所关心的变量 为调查或科学研究选择适当的设计方案 收集数据 抽样的方法: 简单随机抽样 分层随机抽样 比估计 整体抽样 系统抽样 统计领域可以分为两个主要分支:描述统计与推断统计 适当的概括性度量可以为原始测量值的集合提

《爱上统计学》笔记(二) 理解变异性

变异性(也叫散步或离散度)可被看作是对不同数值之间的差异性的测量. 如果把变异性看作是每个数值与特定值的差异程度可能更精确.那么你认为哪个"数值"可能被作为那个特定值呢?通常情况下这个特定值就是均值.因此,变异性成为测量数据组中每一个数值与均值的差异性的数量. 变异性的三种量数通常用于反映一组数据的变异性.散布或者离散度.这三种量数就是极差.标准差和方差. 我们最初正常的想法可能是计算数据组的均值,接着用均值减去每一个数值.然后计算这些距离的平均数.但实际上这并不管用,举个例子看看 数