箱图及其统计学意义

盒形图英文名称为boxplot,中文名称又有如下说法:箱图、箱线图、盒子图。盒形图相对简单,使用方便,相对于另外三种图形有自身独特优点。

例:图的左边一个是根据地区1 高三男生的身高数据所绘的盒形图;其右边的图代表另一个地区(地区2 )的高三学生的身高。


盒图(boxplot)对于显示数据的离散的分布情况效果不错

盒图是在1977年由美国的统计学家约翰·图基(John Tukey)发明的。它由五个数值点组成:最小值(min),下四分位数(Q1),中位数(median),上四分位数(Q3),最大值(max)。也可以往盒图里面加入平均值(mean)。如上图。下四分位数、中位数、上四分位数组成一个“带有隔间的盒子”。上四分位数到最大值之间建立一条延伸线,这个延伸线成为“胡须(whisker)”。

由于现实数据中总是存在各式各样地“脏数据”,也成为“离群点”,于是为了不因这些少数的离群数据导致整体特征的偏移,将这些离群点单独汇出,而盒图中的胡须的两级修改成最小观测值与最大观测值。这里有个经验,就是最大(最小)观测值设置为与四分位数值间距离为1.5个IQR(中间四分位数极差)。即

  • IQR = Q3-Q1,即上四分位数与下四分位数之间的差,也就是盒子的长度。
  • 最小观测值为min = Q1 - 1.5*IQR,如果存在离群点小于最小观测值,则胡须下限为最小观测值,离群点单独以点汇出。如果没有比最小观测值小的数,则胡须下限为最小值。
  • 最大观测值为max = Q3 -1.5*IQR,如果存在离群点大于最大观测值,则胡须上限为最大观测值,离群点单独以点汇出。如果没有比最大观测值大的数,则胡须上限为最大值。

通过盒图,在分析数据的时候,盒图能够有效地帮助我们识别数据的特征:

    1. 直观地识别数据集中的异常值(查看离群点)。
    2. 判断数据集的数据离散程度和偏向(观察盒子的长度,上下隔间的形状,以及胡须的长度)

参考:

http://cn.mathworks.com/help/stats/boxplot.html

http://baike.baidu.com/item/%E7%9B%92%E5%BD%A2%E5%9B%BE

http://www.blogjava.net/norvid/articles/317235.html

时间: 2024-12-09 17:40:42

箱图及其统计学意义的相关文章

小提琴图解读 - 统计学

小提琴图现在比较流行,在文章里很常见. [小提琴图]其实是[箱线图]与[核密度图]的结合,[箱线图]展示了分位数的位置,[小提琴图]则展示了任意位置的密度,通过[小提琴图]可以知道哪些位置的密度较高. 实例解析 在上图中,白点是中位数,黑色盒型的范围是下四分位点到上四分位点,细黑线表示须.外部形状即为核密度估计(在概率论中用来估计未知的密度函数,属于非参数检验方法之一). 数据化分析解读: 1.通常汽缸数量少的汽车每加仑汽油可以行驶更多里程数: 2.4缸汽车的油耗分布比较分散,6缸汽车的油耗分布

Matlab boxplot for Multiple Groups(多组数据的箱线图)

在画之前首先介绍一下Matlab boxplot,下面这段说明内容来自http://www.plob.org/2012/06/10/2153.html 由于matlab具有强大的计算功能,用其统计数据功能优点显而易见,这里分享使用matlab中的boxplot的一些技巧,供大家参考. Matlab boxplot命令 格式如下 boxplot(X):产生矩阵X的每一列的盒图和“须”图,“须”是从盒的尾部延伸出来,并表示盒外数据长度的线,如果“须”的外面没有数据,则在“须”的底部有一个点. www

统计学中的P值与显著性的意义

统计学意义(p值) 结果的统计学意义是结果真实程度(能够代表总体)的一种估计方法.专业上,p值为结果可信程度的一个递减指标,p值越大,我们越不能认为样本中变量的关联是总体中各变量关联的可靠指标.p值是将观察结果认为有效即具有总体代表性的犯错概率.如p=0.05提示样本中变量关联有5%的可能是由于偶然性造成的.即假设总体中任意变量间均无关联(变量之间的独立性成立),我们重复类似实验,会发现约20个实验中有一个实验,我们所研究的变量关联将等于或强于我们的实验结果.(这并不是说如果变量间存在关联,我们

十月第二周统计学~王菲

spss发新版本的说法正确的是B A  两年发行一个版本 B 一年发行一个新版本 C.没有任何规律 D 三点发行一个新版本 2.哪些是SPSS统计分析软件的基本窗口:A A.结果查看器窗口B.枢轴表窗口 C.决策树视图窗口D.箱图编辑窗口 SPS帮助系统可以损供D A.算法指导 C.根据统计分析主题组织的帮助系统 D.以上都对 B.语法命令参 4.下列哪些模块是SPSS18.0的新增模块C A.回归分析模块B.自抽样模块C.神经网络模块D.市场直销模块 5.些方式不是SPS提供的运行方式A A.

3个细节,轻松区分效果图和原型图

产品设计是一个相对宽泛的概念,其中包含的内容不胜枚举.尤其对于新人小白来说,产品设计的分工分类着实令他们头痛.有些设计人员很多时候连自己画的到底是什么都不知道.领导叫你画个图,结果拿过来一看:天哪!你画了个什么?今天我们就来讲一下,效果图和原型图,这对常常扰乱大家工作的完美CP. 首先,我们需要对两者有一个充分的认识: 原型图,是产品或数据系统的一个基本的实用模型,通常为示范目的或开发程序的部份结构.在一个完整的系统开发生命周期中,需要设计原型模型,即建构和测试系统的一个基本版本,如果必要的话还

第1本:《赤裸裸的统计学》

第1本:<赤裸裸的统计学> 严格的说这本书是在2013年12月去新疆的飞机上开始看的,前面几章讲得比较浅显, 几乎没有什么公式,后面读起来就有点不太容易了,里面的一些统计的例子挺有意思,第9.10.12章涉及到一些概念和公式,就需要慢慢理解了,总体看来这 本书还是非常适合统计学入门,拥抱大数据时代! 第1章 统计学是大数据时代最炙手可热的学问 学习统计学的意义是什么?用我自己的话来说,可以让我们不被淹没在浩瀚的数据海洋中,而在其中找出反映其本质的规律或相关性来. 在未来10年内统计学家将会成为

用R作Polar图等

用R作如下的各国Gini系数的Polar barChart: 作上图的R代码为: library(ggplot2) GiniData<- read.csv('IncomeInequality.csv',head=T) Gini<- ggplot(GiniData, aes(x=paste(GiniIndex,Country),y=GiniIndex,fill=GiniIndex%/%10)) Gini<- Gini +geom_bar(stat="identity",

R语言之脸谱图

脸谱图和星图类似,但它却比星图可以表示更多的数据维度.用脸谱来分析多维度数据,即将P个维度的数据用人脸部位的形状或大小来表征.脸谱图在平面上能够形象的表示多维度数据并给人以直观的印象,可帮助使用者形象记忆分析结果,提高判断能力,加快分析速度.目前已应用于多地域经济战略指标数据分析,空间数据可视化等领域. 脸谱图一般采用15个指标,各指标代表的面部特征为: 1 脸的高度 2脸的宽度3 脸型4嘴巴厚度  5, 嘴巴宽度6 微笑7 眼睛的高度8 眼睛宽度 9 头发长度 10 头发宽度11头发风格12

信息图形化的一些看法

1. 信息图形化的意义:        在信息无处不在的时代,人们对信息的接收将更加懒惰,人们只想花最少的时间来阅读最有价值的信息. 因此,更易识易记,更轻松阅读,直观,感知易,更适合于移动阅读.快速传达的图形化信息将成为信息传播的主流形态.    信息图形化的特点:简明直观,生动悦读,准确可信,通用易识. 2. 信息图形化的设计原则:    简明易懂,更有效的信息传达(归纳梳理信息,找出最重要的信息数据):    直观生动,更有趣的信息传达(将枯燥无味的信息用生动的图形层次清晰地表现出来):