数据分布形态:峰度与偏度

1.什么是峰度与偏度?

峰度(kurtosis)是描述分布形态的陡缓程度。表征概率密度函数分布曲线在平均值处峰值高低的特征数。用bk表示。直观看来,峰度反映了数据尾部厚度

在相同的标准差下,峰度系数越大,分布就有更多的极端值,那么其余值必然要更加集中在众数周围,其分布必然就更加陡峭。

偏度(skewness),表征概率分布密度曲线相对于平均值不对称程度的特征数(因此它与方差有些类似)。用bs表示。直观看来就是密度函数曲线尾部的相对长度。所以哪边尾巴长就往哪边偏,左偏就是左尾长,右偏就是右尾长。

二者的比较基准是正态分布。正态分布的峰度为3,偏度为0。

bk<3称分布具有不足的峰度(数据峰度在正态分布峰度内),bk>3称分布具有过度的峰度(超出正态峰度)。若知道分布有可能在峰度上偏离正态分布时,可用峰度来检验分布的正态性。

bs<0称分布具有负偏离,也称左偏态,此时数据位于均值左边的比位于右边的少,直观表现为左边的尾部相对于与右边的尾部要长,因为有少数变量值很小,使曲线左侧尾部拖得很长;bs>0称分布具有正偏离,也称右偏态,此时数据位于均值右边的比位于左边的少,直观表现为右边的尾部相对于与左边的尾部要长,因为有少数变量值很大,使曲线右侧尾部拖得很长;而bs接近0则可认为分布是对称的。若知道分布有可能在偏度上偏离正态分布时,可用偏离来检验分布的正态性。

当某一数据的分布与标准正态分布的峰度相比较时,峰度就有了正峰度和负峰度的表现。

2.它们有什么用?

检验数据分布的正态性:(还有很多种方法)

若知道分布有可能在峰度上偏离正态分布时,可用峰度来检验分布的正态性。

若知道分布有可能在偏度上偏离正态分布时,可用偏离来检验分布的正态性。

3.众数、中位数、算术平均数在各分布形态中的关系?

右偏时一般有,算术平均数>中位数>众数,左偏时相反,即众数>中位数>平均数。正态分布三者相等。

即在一般情况下,根据次数分布的偏斜情况 , 算术平均数或大于众数 , 或小于众数 , 而中位数总居于两者之间 。

而在一些特别情况下,上述说法也不是绝对正确,如徐景范在《中位数、算术平均数、众数之我见》和王学民在《偏度和峰度概念的认识误区》中都有提到特例的情形。

细思之下发现,当数据只考虑数据和数据出现频率的情形的时,其分布形态不用考虑特殊的情形,肯定满足一般情况下的三数关系。且上例中列举的例子有一个问题的是,所给出的数据直方图不在同一个量纲。因此,考虑不同组数据峰度或偏度比较是,必然注意到量纲的统一性。

时间: 2024-11-06 03:29:41

数据分布形态:峰度与偏度的相关文章

R语言笔记 自定义峰度 和 偏度 函数

> mtcars<- function(x,na.omit=FALSE){ + if(na.omit) + x<-x[!is.na(x)] + m<-mean(x) + n<-length(x) + s<-sd(x) + skew<-sum((x-m)^3/s^3)/n + kurt<-sum((x-m)^4/s^4)/n-3 + return(c(n=n,mean=m,stdev=s,skew=skew,kurtosis=kurt)) + } vars&l

用Python学分析:集中与分散

散点图进阶,结合箱体图与直方图对数据形成全面的认识 描述数据集中趋势的分析量: 均值 - 全部数据的算术平均值 众数 - 一组数据中出现次数最多的变量值 中位数 - 一组数据经过顺序排列后处于中间位置上的变量值 描述数据离散程度的分析量: 方差 - 一组数据各变量值与其平均值离差平方和的平均数 标准差 - 方差的平方根 偏态 - 描述数据分布形态的统计量,其描述的是某总体取值分布的对称性.偏度 = 三阶中心距 / 标准差的三次方 峰度 - 描述总体中所有取值分布形态陡缓程度的统计量,这个统计量需

统计学基础

统计学基础 统计 本文主要是对公开课<简单统计学>及书本<商务与经济统计>的学习笔记及练习. 一.统计基本概念 统计基本范围 统计工作流程 随机变量的种类 二.常用统计量及统计图表 连续型数据特征值的计算 集中趋势的度量 平均数.中位数.众数: 分散趋势的度量 全距.方差(变异数).标准差: 分布形态的度量 偏度.峰度: 相关关系的度量 协方差.相关系数: 下面是一些用来表示样本统计量和总体参数的符号, 连续型数据特征值的应用 经验法则(切比雪夫定理的应用) 五数概括法(five-

正态分布与正态分布检验

一.正态分布 正态分布是最常见也是最重要的一种连续型数据分布,标准正态分布是正态分布的一种, 当 μ=0,σ=1时的正态分布为标准正态分布,为了应用方便,常将正态分布通过Z分数转换为标准正态分布,这种转换后的分布也称为u分布或z分布. 正态分布的主要特征: 1.集中性:正态曲线的高峰位于正中央,即均数所在的位置,正态分布的均值.中位数.众数都相等 2.对称性:正态曲线以均数为中心,左右对称,曲线两端永远不与横轴相交. 3.均匀变动性:正态曲线由均数所在处开始,分别向左右两侧逐渐均匀下降. 4.正

数据分析概率及统计学基础

一.数据分析概述 1. 数据分析的概念 数据分析就是分析数据,从一大堆数据中提取你想要的信息.比较专业的回答:数据分析是有针对性的收集.加工.整理数据,并采用统计.挖掘技术分析和解释数据的科学与艺术.比较客观的回答:从行业的角度看,数据分析是基于某种行业目的,有目的地对数据进行收集.整理.加工和分析,提炼有价值信息的过程. 理解数据分析的三个方面:目标.方法.结果. 2. 数据挖掘的概念 数据挖掘是从大量的.不完全的.有噪声的.模糊的.随机的数据集中识别有效的.新颖的.潜在有用的,以及最终可理解

【转】数据分析

详解 Kaggle 房价预测竞赛优胜方案:用 Python 进行全面数据探索 方法框架: 理解问题:查看每个变量并且根据他们的意义和对问题的重要性进行哲学分析. 单因素研究:只关注因变量( SalePrice),并且进行更深入的了解. 多因素研究:分析因变量和自变量之间的关系. 基础清洗:清洗数据集并且对缺失数据,异常值和分类数据进行一些处理. 检验假设:检查数据是否和多元分析方法的假设达到一致. 介绍:箱线图 数据异常值 箱形图为我们提供了识别异常值的一个标准:异常值被定义为小于Q1-1.5I

R语言学习笔记(二)

今天主要学习了两个统计学的基本概念:峰度和偏度,并且用R语言来描述. > vars<-c("mpg","hp","wt") > head(mtcars[vars]) mpg hp wt Mazda RX4 21.0 110 2.620 Mazda RX4 Wag 21.0 110 2.875 Datsun 710 22.8 93 2.320 Hornet 4 Drive 21.4 110 3.215 Hornet Sportab

【R】多元线性回归

R中的线性回归函数比较简单,就是lm(),比较复杂的是对线性模型的诊断和调整.这里结合Statistical Learning和杜克大学的Data Analysis and Statistical Inference的章节以及<R语言实战>的OLS(Ordinary Least Square)回归模型章节来总结一下,诊断多元线性回归模型的操作分析步骤. 1.选择预测变量 因变量比较容易确定,多元回归模型中难在自变量的选择.自变量选择主要可分为向前选择(逐次加使RSS最小的自变量),向后选择(逐

乙佳荣第一次作业

spss SPSS(Statistical Product and Service Solutions),"统计产品与服务解决方案"软件.最初软件全称为"社会科学统计软件包"(SolutionsStatistical Package for the Social Sciences),但是随着SPSS产品服务领域的扩大和服务深度的增加,SPSS公司已于2000年正式将英文全称更改为"统计产品与服务解决方案",标志着SPSS的战略方向正在做出重大调整