盒图(boxplot)

最近在摆弄数据离散度的时候遇到一种图形,叫做盒图(boxplot)。它对于显示数据的离散的分布情况效果不错。

盒图是在1977年由美国的统计学家约翰·图基(John Tukey)发明的。它由五个数值点组成:最小值(min),下四分位数(Q1),中位数(median),上四分位数(Q3),最大值(max)。也可以往盒图里面加入平均值(mean)。如上图。下四分位数、中位数、上四分位数组成一个“带有隔间的盒子”。上四分位数到最大值之间建立一条延伸线,这个延伸线成为“胡须(whisker)”。

由于现实数据中总是存在各式各样地“脏数据”,也成为“离群点”,于是为了不因这些少数的离群数据导致整体特征的偏移,将这些离群点单独汇出,而盒图中的胡须的两级修改成最小观测值与最大观测值。这里有个经验,就是最大(最小)观测值设置为与四分位数值间距离为1.5个IQR(中间四分位数极差)。即

· IQR = Q3-Q1,即上四分位数与下四分位数之间的差,也就是盒子的长度。

· 最小观测值为min = Q1 - 1.5*IQR,如果存在离群点小于最小观测值,则胡须下限为最小观测值,离群点单独以点汇出。如果没有比最小观测值小的数,则胡须下限为最小值。

· 最大观测值为max = Q3 + 1.5*IQR,如果存在离群点大于最大观测值,则胡须上限为最大观测值,离群点单独以点汇出。如果没有比最大观测值大的数,则胡须上限为最大值。

通过盒图,在分析数据的时候,盒图能够有效地帮助我们识别数据的特征:

  1. 直观地识别数据集中的异常值(查看离群点)。
  1. 判断数据集的数据离散程度和偏向(观察盒子的长度,上下隔间的形状,以及胡须的长度)。
R语言举例

> x = c(29.6, 28.2, 19.6, 13.7, 13.0, 7.8, 3.4, 2.0, 1.9, 1.0, 0.7, 0.4, 0.4, 0.3, 0.3, 0.3, 0.3, 0.3, 0.2, 0.2, 0.2, 0.1, 0.1, 0.1, 0.1, 0.1)
> boxplot(x)
时间: 2025-01-04 07:30:40

盒图(boxplot)的相关文章

4-4 盒图绘制

盒图¶ In [1]: %matplotlib inline np.random.normal()的意思是一个正态分布:numpy.random.normal(loc=0,scale=1e-2,size=shape) 参数loc(float):正态分布的均值,对应着这个分布的中心.loc=0说明这一个以Y轴为对称轴的正态分布, 参数scale(float):正态分布的标准差,对应分布的宽度,scale越大,正态分布的曲线越矮胖,scale越小,曲线越高瘦. 参数size(int 或者整数元组):

数据分析2:盒图介绍及相关算法实现

首先我们要简单的介绍一下盒图这种东西: 盒图是在1977年由美国的统计学家约翰·图基(John Tukey)发明的.它由五个数值点组成: 最小值(min),下四分位数(Q1),中位数(median),上四分位数(Q3),最大值(max).也可以往盒图里面加入平均值(mean).如图.下四分位数.中位数.上四分位数组成一个"带有隔间的盒子".上四分位数到最大值之间建立一条延伸线,这个延伸线成为"胡须(whisker)". 由于现实数据中总是存在各式各样地"脏

箱形图/盒图(转)

http://zh.wikipedia.org/wiki/%E7%AE%B1%E5%BD%A2%E5%9C%96 http://www.blogjava.net/norvid/articles/317235.html 箱形图(英文:Box-plot),又称为盒须图.盒式图.盒状图或箱线图,是一种用作显示一组数据分散情况资料的统计图.因型状如箱子而得名.在各种领域也经常被使用,常见于品质管理.不过作法相对较繁琐. 箱形图于1977年由美国著名统计学家约翰·图基(John Tukey)发明.它能显示

python可视化---箱线图boxplot()

函数功能:绘制箱线图. 调用签名:plt.boxplot(x) x:绘制箱线图的输入数据 代码实现: import matplotlib.pyplot as plt import matplotlib as mpl import numpy as np mpl.rcParams["font.sans-serif"] = ["FangSong"] mpl.rcParams["axes.unicode_minus"] = False x = np.r

matlab 将多个盒图放在一张图上

x1 = normrnd(5,1,100,1)';x2 = normrnd(6,1,200,1)';X = [x1 x2];G = [zeros(size(x1)) ones(size(x2))];boxplot(X, G); %如果组别非常多,建议用compact格式: boxplot(X, G,'plotstyle','compact');

箱图及其统计学意义

盒形图英文名称为boxplot,中文名称又有如下说法:箱图.箱线图.盒子图.盒形图相对简单,使用方便,相对于另外三种图形有自身独特优点. 例:图的左边一个是根据地区1 高三男生的身高数据所绘的盒形图:其右边的图代表另一个地区(地区2 )的高三学生的身高. 盒图(boxplot)对于显示数据的离散的分布情况效果不错 盒图是在1977年由美国的统计学家约翰·图基(John Tukey)发明的.它由五个数值点组成:最小值(min),下四分位数(Q1),中位数(median),上四分位数(Q3),最大值

Matlab boxplot for Multiple Groups(多组数据的箱线图)

在画之前首先介绍一下Matlab boxplot,下面这段说明内容来自http://www.plob.org/2012/06/10/2153.html 由于matlab具有强大的计算功能,用其统计数据功能优点显而易见,这里分享使用matlab中的boxplot的一些技巧,供大家参考. Matlab boxplot命令 格式如下 boxplot(X):产生矩阵X的每一列的盒图和“须”图,“须”是从盒的尾部延伸出来,并表示盒外数据长度的线,如果“须”的外面没有数据,则在“须”的底部有一个点. www

可视化库-Matplotlib-盒图(第四天)

盒图由五个数值点组成,最小观测值,下四分位数,中位数,上四分位数,最大观测值 IQR = Q3 - Q1  Q3表示上四分位数, Q1表示下四分位数,IQR表示盒图的长度 最小观测值 min =Q1 - 1.5*IQR 最大观测值 max=Q3 + 1.5*IQR  , 大于最大值或者小于最小值就是离群点 1. 画出一个盒图 plt.boxplot(tang_array, notch=False, sym='o', vert=True)  #  tang_array表示输入的列表, notch表

箱型图

箱型图是在1977年由美国的统计学家约翰·图基(John Tukey)发明的.它由五个数值点组成:最小值(min),下四分位数(Q1),中位数(median),上四分位数(Q3),最大值(max).也可 以往盒图里面加入平均值(mean).如上图.下四分位数.中位数.上四分位数组成一个"带有隔间的盒子".上四分位数到最大值之间建立一条延伸线,这个 延伸线成为"胡须(whisker)". 由于现实数据中总是存在各式各样地"脏数据",也成为"