1.1.1.1. 集中趋势的描述(central tendency)
描述集中趋势的主要统计指标有算术平均数、几何平均数、中位数,这些指标也称为位置度量指标(measures of location)
1.1.1.1.1. 算术平均数(arithmetic mean)
算术平均数适用于频数分布对称数据。在有离群值的情况下,或频数分布不对称时,不适合选用算术均数描述数据的平均水位。
(1)一般地,总体均值用μ表示,样本均数用符号 表示,观察n个个体,X表示观察值,则均数的计算公式为:
(2)当样本量比较大时,若通过频数表来计算均数,则公式(均数加权计算公式)如下:
式中:f为各组段的频数, 为对应组段的组中值
1.1.1.1.2. 几何平均数(geometric mean,G)
几何平均数仅可能适用于右偏态分布数据,而不适用于左偏态分布数据
(1)一般地,几何平均数等于一个变量的所有n个观察值的乘积的n次方根。其计算公式为:
式中: 表示对X求对数,其计算可以采用以10为底数(记为lg),也可以采用以自然数e为底(记为ln)
(2)当样本量比较大时,若通过频数表来计算均数,则公式(几何均数加权计算公式)如下:
1.1.1.1.3. 中位数(median,M)
指的是按大小顺序排列的一个变量的所有n个观察值中,位于正中间的那个数值,记为M,计算公式如下:
①中位数对离群值不敏感
②当数据呈对称分布时,均数和中位数接近;当数据呈右偏分布时,均数大于中位数;当数据呈左偏分布时,均数小于中位数;
1.1.1.1.4. 众数
1.1.1.2. 离散趋势的描述(dispersion)
离散趋势是指计量资料所有观察值偏离中心位置的程度,也称为变异度量指标(measures of variation)。描述离散趋势的主要统计指标有全距、分位数区间、方差、标准差和变异系数,这些指标也称为位置度量指标(measures of location)
1.1.1.2.1. 全距(rang,R)
1.1.1.2.2. 分位数(quartile)和分位数间距、百分位数(percentile)
①分位数(quartile)是介于最大值与最小值之间的一个数值,两个分位数之差称为分位数间距。
②百分位数(percentile)是一个位置指标,用 表示。它表示按照升序排列的数列中,其左侧(即小于 侧)的观察值个数在整个样本中所占百分比为 。其计算公式为:
式中: 为百分位数,L是 所在组的下限,i是该组段的组距, 是该组段的频数,n是总频数, 是该组段以前的各组段的累计频数。
③统计学将特殊的3个分位数 、 和 统称为四分位数(quartile),并分别称为第一、二、三四分位数,记为 、 和 ,并且称 与 的差值为四分位间距(quartile range,Q),其计算公式为:
例子:
分组 |
组中值 |
频数 |
累计频数 |
0~5 |
2.5 |
1 |
1 |
5~10 |
7.5 |
2 |
3 |
10~15 |
12.5 |
4 |
7 |
15~20 |
17.5 |
6 |
13 |
20~25 |
22.5 |
7 |
20 |
25~30 |
27.5 |
9 |
29 |
30~35 |
32.5 |
13 |
42 |
35~40 |
37.5 |
23 |
65 |
40~45 |
42.5 |
34 |
99 |
45~50 |
47.5 |
2 |
101 |
1.1.1.2.3. 方差(variance,S2)
方差是描述所有观察值与均数的平均离散程度的指标,一般用 表示。
(1)一般地,
(2)当样本量比较大时,
1.1.1.2.4. 合并方差(Polled variance)
1.1.1.2.5. 标准差(standard deviation,SD)
标准差是描述一个变量所有观察值与均数的平均离散程度的指标,一般用S表示样本标准差。
(1)一般地,
(2)当样本量比较大时,
标准差计量单位和原变量的计量单位一致,对于计量单位相同的变量,标准差越大,数据的离散程度就越大。
1.1.1.2.6. 合并标准差(Polled standard deviation)
1.1.1.2.7. 变异系数(coefficient of variation,CV)
变异系数是一个度量相对离散程度的指标,其计算公式为:
变异系数是无量纲的指标,可以用来比较几个量纲不同的变量之间的离散程度的差异,也可以用来比较量纲相同但均数相差悬殊的几个变量之间的离散程度的差异。