统计量

1. 表示集中趋势的计量

1.1均值

a. 算数平均数 = 总体标志总量 / 总体单位总量

b. 调和平均数: 又称倒数平均数,它是根据各变量的倒数来计算的平均数。是各变量值倒数的算数平均数的倒数

c. 几何平均数:是计算平均比率或平均发展速度的最常用的统计量,几何平均数可以反映现象总体的一般水平

根据同一组数据计算的结果是:算术平均数>=几何平均数>=调和平均数

1.2 中位数

中位数是将总体单位总一变量的各变量值按大小排序后,处于序列中间位置的那个变量值。当变量个数为偶数时,中位数是位于中间位置的两个变量的算数平均数。

1.3 众数(Mode)

众数是总体中出现次数最多的标志值。众数只有在总体上单位较多而又有明确的集中趋势的资料中才有意义。

若根据光滑的频数曲线来解释均值、中位数和众数这三种测度,可以说均值是变量分布的平衡点或重心;中位数把这个分布正好划分两半;众数正好在分布顶端出现。

在频数分布完全对称的情况下,均数=中位数=众数

在频数分布正偏时,众数<中位数<均值

在频数分布负偏时,均值<中位数<众数

1.4 百分位数

如果将一组数据排序,并计算相应的累计百分位,则某一百分位所对应数据的值就称为这一百分位的百分位数。百分位数适合于定序数据及更高级的数据,不能用于定类数据。百分位数的优点是不受极端值的影响。

2.表示离散趋势的统计量

2.1 方差与标准差

方差是总体各单位变量值与其算数平均数的离差的平方的数据平均数。方差的平方根就是标准差以σ表示。

与方差不同的是,标准差是具有量纲的,它与变量值的计量单位相同,其实际意义比方差清楚,

2.2 均值标准误差

均值标准误差就是标本均值的标准差,是描述样本均值和总体均值平均偏差程度的统计量

2.3 极差或范围

极差又称全距,它是总体单位中最大变量值与最小变量值之差,即两极之差。以R表示。

2.4 最大值

2.5 最小值

2.6 变异系数

变异系数是将标准差或平均差与其平均数对比度所得的比值,又称离散系数。最常用就是标准差系数。

变异系数的值越大,说明数据集中相对于均值的变化就越大。

3. 表示分布形态的统计量

3.1 偏度

偏度是对分布偏斜方向及程度的测度。常用三阶中心矩除以标准差的三次方,表示数据分布的相对偏斜程度记蒌a3。a3为正表示分布为右偏,值为负表示分布为左偏。

3.2 峰度

峰度是频数分布曲线与正态分布相比较,顶端的尖峭程度。统计上常用四阶中心矩测定峰度,记为a4.

当a4=3时,分布曲线为正态分布

当a4<3时,分布曲线为平峰分布

当a4>3时,分布曲线为尖峰分布

4.其它相关的统计量

4.1 Z标准化得分

Z标准化得分是某一数据与平均数的距离以标准差为单位的测量值。Z标准化数据越大,说明它离平均数越远。

SPSS提供的基本统计量可分为三类

.描述集中趋势的统计量

1. 均值(Mean):适用于数据均匀分布或正态分布

2. 中位数(Median):适用于数据分布不对称或有极端值

3. 众数(Mode):适用于初步认识一组数据

4. 四分位数(Quartiles)

5. 百分位数(Percentile Value):通过计算百分位数可以了解某个值在集体中的位置

分析:

如果Median与Mode相差很大说明变量值中存在异常值

如果Mean和Median相差太大说明数据的分布是偏态的

.描述离散程度的统计量

1. 样本方差(Variance):用来度量随机变量与期望(均值)之间的偏离程度。

2. 样本标准差(Std. deviation):样本方差的算术平方根,可以当作不确定性的一种测量

3. 均值标准误差(Standard Error of Mean):反映抽样误差大小的统计指标,是统计推算可靠性的指标。定义为各测量值误差的平方和的平均值的平方根,故又称为均方误差

4. 极差(Range):反映总体的差异范围,R=最大值-最小值

.描述总体分布形态的统计量

1. 偏度(Skewness)也称偏斜度,描述数据分布的偏斜程度与方向

正态分布的偏度为0。

偏度值为正值,分布左偏,右侧有长尾

偏度值是负值,分布右偏,左侧有长尾

如果偏度值在-1到1之间,则表明数据分布近似对称

1. 峰度(Kurtosis)是描述数据分布曲线陡峭平缓程度的统计量

正态分布的峰度值是0

峰度值为正,分布曲线比较陡峭,两端的尾部较长

峰度值为负,分布曲线比较平缓,两端的尾部较短

其它: 自由度degree of freedom(df),显著性水平singnificance(Sig)

   自由度指计算某一统计量时取值不受限制的变量个数。df=n-k, n为样本含量,k为被限制的条件数或变量个数。(其它解释:自由度是一组数据中可以自由取值的数据的个数。当样本数据的个数为n时,若样本均值确定后,只有n-1个数据可以自由取值,其中必有一个数据则不能自由取值。)

显著性水平指估计总体参数落在某一区间内时可能犯错的概率,用a表示。其值越大则原假设被拒绝的可能性就越大。1-a为置信度或置信水平表明了区间估计的可靠性。K-S统计量时,如果显著性水平Sig<0.05时,拒绝正态分布假设。

参考链接:

http://blog.sina.com.cn/s/blog_76d788950100toor.html

http://www.doc88.com/p-866116640471.html

http://wenku.baidu.com/link?url=er-Uo_5unEZGIcyg14wzZydaB5cqaUE-yAQddxCC7rS_rBtBBtsFgtVkVETRWZTs9irgn8TLn52ioW74zSUDXLDRBLePaEbRS1jPR-ZMGKC

时间: 2024-10-20 22:31:50

统计量的相关文章

SAS描述统计量

MEANS过程 MEAN过程默认输出的统计量有:观测总数.均值.标准差.最大值和最小值.如果要计算其他统计量或其中的某一些统计量,则可在PROC语句中指定统计量的关键字. BY语句规定了分组变量,要求在BY分组内计算描述性统计量 . proc means data=data.bank min p1 q1 mean median q3 p99 max ; run; UNIVARIATE过程 UNIVARIATE过程也可以提供描述统计量的计算,另外还有统计频数.绘制图形和假设检验的功能. 使用UNI

R语言笔记005——计算描述性统计量

数据的分布特征: 分布的集中趋势,反应各数据向其中心值靠拢或聚集的程度(平均数,中位数,四分位数,众数) 分布的离散程度,反应各数据远离其中心值的趋势(极差,四分位差,方差,标准差,离散系数) 分布的形状,反应数据分布的偏斜程度和峰度(偏态系数,峰度系数) ####################### 平均数(均值):一组数据相加后除以数据的个数而得到结果,称为平均数(mean) 中位数:一组数据排序后处于中间位置上的变量值,称为中位数(median) 四分位数:一组数据排序后处于25%(下四

流式数据中的数学统计量计算

在科技飞速发展的今天,每天都会产生大量新数据,例如银行交易记录,卫星飞行记录,网页点击信息,用户日志等.为了充分利用这些数据,我们需要对数据进行分析.在数据分析领域,很重要的一块内容是流式数据分析.流式数据,也即数据是实时到达的,无法一次性获得所有数据.通常情况下我们需要对其进行分批处理或者以滑动窗口的形式进行处理.分批处理也即每次处理的数据之间没有交集,此时需要考虑的问题是吞吐量和批处理的大小.滑动窗口计算表示处理的数据每次向前移N个单位,N小于要处理数据的长度.例如,在语音识别中,每个包处理

orale 查询每年、每月、每日统计量的sql语句

每年 select to_char(createtime, 'YYYY') 年, count(*) from table  group by to_char(createtime, 'YYYY'); 每季度 select to_char(createtime, 'q') 年, count(*) from table  group by to_char(createtime, 'q'); 每月 select to_char(createtime, 'YYYY') 年, to_char(create

R语言笔记 分组计算描述性统计量aggregate, summaryBy ,describe.by

在比较多组个体或观测时,关注的焦点经常是各组的描述性统计信息,而不是样本整体的描 述性统计信息.同样地,在R中完成这个任务有若干种方法.我们将以获取变速箱类型各水平的 描述性统计量开始. vars<- c("mpg","hp","wt") > aggregate(mtcars[vars],by=list(am=mtcars$am),median) am  mpg  hp   wt 1  0 17.3 175 3.52 2  1 22.

R语言笔记 计算描述性统计量的函数

其中包括Hmisc.pastecs和psych.由于这些包并未包括在基础安装中. > library(Hmisc) > describe(mtcars[vars]) mtcars[vars] 3  Variables      32  Observations ----------------------------------------------------------------------------------------------------------------------

常用统计量的分布

所谓统计量,就是指没有未知参数的样本的函数. 常见的统计量有: 样本均值: 样本方差: 一般认为 S > 0,称作是样本的标准差. 应当区别样本均值与变量的均值,样本的方差与变量的方差. 样本具有一天然的性质,他们与总体都是同分布的.我们统一设总体的均值是,方差是 . 值得一说的是,样本方差求和部分的 n 个值并不是完全相互独立的.应该认识到有一明显的约束: 从自由度的角度考虑,那 n 个变量的自由度只有 n - 1,那么样本方差的分母是 n - 1 而不是 n 这一点就不是难以理解的了. 类似

Oracle 统计量NO_INVALIDATE参数配置(上)

转载:http://blog.itpub.net/17203031/viewspace-1067312/ Oracle统计量对于CBO执行是至关重要的.RBO是建立在数据结构的基础上的,DDL结构.约束会将SQL语句分为不同的成本结构等级.而CBO是在数据结构的基础上,加入数据表细粒度信息,将成本结构细化为成本cost值. 相对于数据表的DDL结构,统计量反映了当下数据表数据分布情况,可变性更强.我们经常遇到这样的场景,数据导入操作之后,原有一个运行良好的作业突然效率低下.当我们手工收集一下统计

Oracle 统计量NO_INVALIDATE参数配置(下)

转载:http://blog.itpub.net/17203031/viewspace-1067620/ 本篇我们继续讨论NO_INVALIDATE参数. 从上篇(http://blog.itpub.net/17203031/viewspace-1067312/)讨论情况看,无论是取值true还是false,Oracle进行的行为都是缺乏考量的.如果选择true,表示旧的执行计划会持续的在shared pool中驻留,新的执行计划不会生成,如果系统SQL运行比较频繁.Age Out现象比较少,更

【数理统计基础】 02 - 统计量和三大分布

1. 样本和统计量 1.1 样本和统计量 数理统计讨论的问题不一定都是随机现象,比如人口信息的统计.具体数据的测量,它们的结果都是确定的.但实际问题的操作并不是数学所关心的,剥离问题的外壳,这些问题都可以用随机现象来描述,比如人口信息和测量误差都可以用一个正态分布来近似.建立统计的概率模型,正是数理统计区别于广义统计学的关键,为模型定义统一.明确的对象也是任何数学分支的起点. 既然这样,数理统计的研究对象其实还是随机变量,具体问题中所有可能的取值被称为全体,而每一个值称为个体.不同于概率论中研究