1.什么是峰度与偏度?
峰度(kurtosis)是描述分布形态的陡缓程度。表征概率密度函数分布曲线在平均值处峰值高低的特征数。用bk表示。直观看来,峰度反映了数据尾部厚度。
在相同的标准差下,峰度系数越大,分布就有更多的极端值,那么其余值必然要更加集中在众数周围,其分布必然就更加陡峭。
偏度(skewness),表征概率分布密度曲线相对于平均值不对称程度的特征数(因此它与方差有些类似)。用bs表示。直观看来就是密度函数曲线尾部的相对长度。所以哪边尾巴长就往哪边偏,左偏就是左尾长,右偏就是右尾长。
二者的比较基准是正态分布。正态分布的峰度为3,偏度为0。
bk<3称分布具有不足的峰度(数据峰度在正态分布峰度内),bk>3称分布具有过度的峰度(超出正态峰度)。若知道分布有可能在峰度上偏离正态分布时,可用峰度来检验分布的正态性。
bs<0称分布具有负偏离,也称左偏态,此时数据位于均值左边的比位于右边的少,直观表现为左边的尾部相对于与右边的尾部要长,因为有少数变量值很小,使曲线左侧尾部拖得很长;bs>0称分布具有正偏离,也称右偏态,此时数据位于均值右边的比位于左边的少,直观表现为右边的尾部相对于与左边的尾部要长,因为有少数变量值很大,使曲线右侧尾部拖得很长;而bs接近0则可认为分布是对称的。若知道分布有可能在偏度上偏离正态分布时,可用偏离来检验分布的正态性。
当某一数据的分布与标准正态分布的峰度相比较时,峰度就有了正峰度和负峰度的表现。
2.它们有什么用?
检验数据分布的正态性:(还有很多种方法)
若知道分布有可能在峰度上偏离正态分布时,可用峰度来检验分布的正态性。
若知道分布有可能在偏度上偏离正态分布时,可用偏离来检验分布的正态性。
3.众数、中位数、算术平均数在各分布形态中的关系?
右偏时一般有,算术平均数>中位数>众数,左偏时相反,即众数>中位数>平均数。正态分布三者相等。
即在一般情况下,根据次数分布的偏斜情况 , 算术平均数或大于众数 , 或小于众数 , 而中位数总居于两者之间 。
而在一些特别情况下,上述说法也不是绝对正确,如徐景范在《中位数、算术平均数、众数之我见》和王学民在《偏度和峰度概念的认识误区》中都有提到特例的情形。
细思之下发现,当数据只考虑数据和数据出现频率的情形的时,其分布形态不用考虑特殊的情形,肯定满足一般情况下的三数关系。且上例中列举的例子有一个问题的是,所给出的数据直方图不在同一个量纲。因此,考虑不同组数据峰度或偏度比较是,必然注意到量纲的统一性。