四分位数

四分位数是统计学里一个很重要的概念,实际应用中,所画出来的箱图,就使用到了这个概念,只有懂了四分位的概念才能看懂箱图所表达的意思。我这里通过一个实际的案例来说明四分位数的求取过程。

首先我们看下数据的情况,如下图所示,数据的总个数为10个

1、在求取四分位数据时,首先必须做的是要对数据进行升序排序,如下图。

2、四分位求取,首先需要得出该四分位数的位置,如下是四分位数在排序后数据中的位置的公式

在Excel中使用以上的公式来计算第0、1、2、3、4个四分位值处的位置,得出如下结果

3、四分位数的求取,使用的是以下所说明的一套计算规则

公式可能看起来较为复杂,说明一下:

1、四分位数最终的结果由2部分相加得到,其一是四分位位置的整数部分对应的数据,其二是四分位位置的小数部分乘以差值得到

2、差值是四分位位置整数部分对应数据的下一个数据减去四分位位置整数部分对应的数据。

在Excel中将上面那个公式实现的结果如下:

注意:如果数据的总个数n减去1,得到的结果是4的整数倍的话,那么四分位数的位置都是整数值,各四分位数就可以在升序排序后的数列中直接找到,否则就需要通过以上方式计算小数部分。

例如:n的值为5、9、13等等,就是可以在数列中直接找到各四分位数。

最后我们用一张图来看看箱图中各个图形元素:

1、Q1表示第1个四分位值,Q2表示第2个四分位值,即中位数,Q3表示第3个中位数

2、IQR是第3个中位数与第1个中位数的差值

3、虚线最左侧的划线表示Q1-1.5倍IQR,虚线最右侧的划线表示Q1+1.5倍IQR

4、左右的黑点是离群点,最左侧的离群点是最小值,最右侧离群点是最大值

从以上结果可以解答以往对四分位数的误区:

1、四分之一分位数并非中位数的2倍,也并非是四分之三分为的3倍

2、不要将箱图虚线左右侧的划线理解为四分之0分位,四分之四分位值,这2个分位值分别是最小值和最大值,它们可能会成为离群点

原文地址:https://www.cnblogs.com/alexywt/p/11408460.html

时间: 2024-11-24 09:35:30

四分位数的相关文章

四分位数(转)

http://zh.wikipedia.org/wiki/%E5%9B%9B%E5%88%86%E4%BD%8D%E6%95%B0 四分位数(Quartile)是统计学中分位数的一种,即把所有数值由小到大排列并分成四等份,处于三个分割点位置的数值就是四分位数. 目录 [隐藏] 1 概念 2 运算过程 3 例如 4 应用 5 参考文献 概念[编辑] 第一四分位数 (Q1),又称“较小四分位数”,等于该样本中所有数值由小到大排列后第25%的数字. 第二四分位数 (Q2),又称“中位数”,等于该样本中

方差+标准差+四分位数+z-score公式

一.方差公式 $S^2 = \frac{1}{N}\sum_{i=1}^{N}(X_i - \mu)^2 = \frac{1}{N}[(X_1-\mu)^2 + (X_2-\mu)^2 + ... + (X_N - \mu)^2]$ 其中公式中μ为平均数,N为这组数据的个数,x1.x2.x3--xN为这组数据具体数值. 二.标准差公式 $S = \sqrt{S^2} = \sqrt{\frac{1}{N}\sum_{i=1}^{N}(X_i - \mu)^2}$ 其中公式中数值X1,X2,X3,

js 算数组平均值、最大值、最小值、偏差、标准差、中位数、数组从小打大排序、上四分位数、下四分位数

要算的数组命名为data var sum = function(x,y){ return x+y;}; //求和函数 var square = function(x){ return x*x;}; //数组中每个元素求它的平方 var data = [1,1,3,5,5]; // var mean = data.reduce(sum)/data.length; var deviations = data.map(function(x){return x-mean;}); var stddev =

四分位数计算方法

下四分位数的位置Q1=(n+1)*0.25 中位数的位置Q2=(n+1)*0.5 上四分位数的位置Q3=(n+1)*0.75 原文地址:https://www.cnblogs.com/bravesunforever/p/11217344.html

四分位数计算以及使用pandas计算

最近学习python数据分析,遇到了四分位数计算问题,因四分位数计算公式不一致,导致结果不一样,坑爹的百度只给了一种计算方法,容易迷惑初学者,故总结如下: 计算方法三个四分位数的确定:先按从小到大方法排序,然后使用下列方法.方法1:n+1法 Q1的位置= (n+1) × 0.25 Q2的位置= (n+1) × 0.5 Q3的位置= (n+1) × 0.75 n表示数据的数据个数. 上面的是大家常用的n+1法.还有一种是n-1法方法2:n-1法 Q1的位置=1+(n-1)x 0.25 Q2的位置=

数据分析概况02:《深入浅出统计学》——基本统计量1

1.信息图形化:直方图,概率密度函数和累积分布函数 直方图用于显示分组数值型数据,直方图用于表示定量数据,矩形之间没有间隔,数值通过连续的数字标度表示,长方形的面积与频数成正比(当数据区间宽度各不相等时,每个长方形的宽度反映每个区间的宽度,长方形的高度反映区间的频数密度). 概率密度分布函数(PDF):直方图归一化的结果. 累积分布函数(CDF):累积频数归一化的结果.(折线图) 2.集中趋势的量度——平均数(均值μ,中位数,众数) 平均数 计算方法 何时使用 均值μ μ=∑X/n=∑fX/∑f

机器学习(二):数据转换

 1.数据的标准化 标准化的原因: 在于如果有些特征的方差过大,则会主导目标函数从而使参数估计器无法正确地去学习其他特征. 消除量纲的影响.把一个百分制的变量与一个5分值的变量标准化到同一个量纲时才具有可比性 1.1 z_score标准化将特征数据的分布调整成标准正态分布,也叫高斯分布.代码实现:from sklearn.preprocessing import StandardScalerscaler = StandardScaler()X_train_std = scaler.fit_tra

【概率论与数理统计】小结2 - 随机变量概述

注:对随机变量及其取值规律的研究是概率论的核心内容.在上一个小结中,总结了随机变量的概念以及随机变量与事件的联系.这个小结会更加深入的讨论随机变量. 随机变量与事件 随机变量的本质是一种函数(映射关系),在古典概率模型中,“事件和事件的概率”是核心概念:但是在现代概率论中,“随机变量及其取值规律”是核心概念. 随机变量与事件的联系与区别 小结1中对这两个概念的联系进行了非常详细的描述.随机变量实际上只是事件的另一种表达方式,这种表达方式更加形式化和符号化,也更加便于理解以及进行逻辑运算.不同的事

2017.06.29数据挖掘基础概念第二.三章

第二章21.研究的属性类型标称属性:值是一些符号或事物的名称,代表某种类型.编码或状态二元属性:是一种标称属性,只有两个类别或状态,又称布尔属性序数属性:是一种属性,其可能的值之间具有有意义的序或秩评定,但是相续值之间的差是未知的数值属性:是定量的,即他是可度量的量,可用整数或实数值表示(区间和比率标度)22.数据散布常见的度量量(数据如何分散的方法/识别离群点)极差 四分位数.四分位数极差.五数概括图.方差和标准差23.审视数据的图形条形.饼图.线图.分位数图.分位数-分位数图.直方图和散点图