3.2.4. 计量资料的统计描述

1.1.1.1. 集中趋势的描述(central tendency)

描述集中趋势的主要统计指标有算术平均数、几何平均数、中位数,这些指标也称为位置度量指标(measures of location)

1.1.1.1.1. 算术平均数(arithmetic mean)

算术平均数适用于频数分布对称数据。在有离群值的情况下,或频数分布不对称时,不适合选用算术均数描述数据的平均水位。

(1)一般地,总体均值用μ表示,样本均数用符号 表示,观察n个个体,X表示观察值,则均数的计算公式为:

(2)当样本量比较大时,若通过频数表来计算均数,则公式(均数加权计算公式)如下:

式中:f为各组段的频数, 为对应组段的组中值

1.1.1.1.2. 几何平均数(geometric mean,G)

几何平均数仅可能适用于右偏态分布数据,而不适用于左偏态分布数据

(1)一般地,几何平均数等于一个变量的所有n个观察值的乘积的n次方根。其计算公式为:

式中: 表示对X求对数,其计算可以采用以10为底数(记为lg),也可以采用以自然数e为底(记为ln)

(2)当样本量比较大时,若通过频数表来计算均数,则公式(几何均数加权计算公式)如下:

1.1.1.1.3. 中位数(median,M)

指的是按大小顺序排列的一个变量的所有n个观察值中,位于正中间的那个数值,记为M,计算公式如下:

①中位数对离群值不敏感

②当数据呈对称分布时,均数和中位数接近;当数据呈右偏分布时,均数大于中位数;当数据呈左偏分布时,均数小于中位数;

1.1.1.1.4. 众数
1.1.1.2. 离散趋势的描述(dispersion)

离散趋势是指计量资料所有观察值偏离中心位置的程度,也称为变异度量指标(measures of variation)。描述离散趋势的主要统计指标有全距、分位数区间、方差、标准差和变异系数,这些指标也称为位置度量指标(measures of location)

1.1.1.2.1. 全距(rang,R)

1.1.1.2.2. 分位数(quartile)和分位数间距、百分位数(percentile)

①分位数(quartile)是介于最大值与最小值之间的一个数值,两个分位数之差称为分位数间距。

②百分位数(percentile)是一个位置指标,用 表示。它表示按照升序排列的数列中,其左侧(即小于 侧)的观察值个数在整个样本中所占百分比为 。其计算公式为:

式中: 为百分位数,L是 所在组的下限,i是该组段的组距, 是该组段的频数,n是总频数, 是该组段以前的各组段的累计频数。

③统计学将特殊的3个分位数 、 和 统称为四分位数(quartile),并分别称为第一、二、三四分位数,记为 、 和 ,并且称 与 的差值为四分位间距(quartile range,Q),其计算公式为:

例子:

分组


组中值


频数


累计频数


0~5


2.5


1


1


5~10


7.5


2


3


10~15


12.5


4


7


15~20


17.5


6


13


20~25


22.5


7


20


25~30


27.5


9


29


30~35


32.5


13


42


35~40


37.5


23


65


40~45


42.5


34


99


45~50


47.5


2


101

1.1.1.2.3. 方差(variance,S2

方差是描述所有观察值与均数的平均离散程度的指标,一般用 表示。

(1)一般地,

(2)当样本量比较大时,

1.1.1.2.4. 合并方差(Polled variance)
1.1.1.2.5. 标准差(standard deviation,SD)

标准差是描述一个变量所有观察值与均数的平均离散程度的指标,一般用S表示样本标准差。

(1)一般地,

(2)当样本量比较大时,

标准差计量单位和原变量的计量单位一致,对于计量单位相同的变量,标准差越大,数据的离散程度就越大。

1.1.1.2.6. 合并标准差(Polled standard deviation)
1.1.1.2.7. 变异系数(coefficient of variation,CV)

变异系数是一个度量相对离散程度的指标,其计算公式为:

变异系数是无量纲的指标,可以用来比较几个量纲不同的变量之间的离散程度的差异,也可以用来比较量纲相同但均数相差悬殊的几个变量之间的离散程度的差异。

时间: 2024-10-10 01:25:30

3.2.4. 计量资料的统计描述的相关文章

数据资料的统计描述

一.集中趋势 1.算术平均数 1.1 简单的算术平均数 1.2 加权的算术平均数 均值的计算要根据分组的资料进行,要涉及到频数的考虑,即所谓的加权问题. 2.几何平均数 2.1 简单几何平均数 数据资料的统计描述

3.2.4. 计数资料的统计描述

1.1.1.1. 常用的相对数指标 1.1.1.1.1. 比(ratio) 比表示两个相关指标的值之商.这描述了一个指标的值是另一个指标值的几倍或几分之几.其计算公式为: 1.1.1.1.2. 比例(proportion) 比例表示某事物内部各组成部分的观察单位数与所有组成部分的总观察单位数之比. (1)表示分布结构的比例, (2)表示某现象发生强度的比例, 式中:K是比例基数,它可以取值100%.1000‰.10000/万.100000/10万等. 1.1.1.1.3. 率(frequency

统计描述指标的选择与应用

一.统计描述指标的选择与应用 计量资料:集中趋势与离散趋势(1)正态分布:均数?标准差 (2)非正态分布(偏态.不规则分布):中位数(M),四分位数  (P25.P75) 无序分类资料:率.构成比 二.集中趋势与离散趋势集中趋势:用平均数(指标体系)反映一组观察值的中心位置或平均水平. (1)算数均数 - 正态分布/单峰对称分布资料 (2)中位数 - 偏态分布.不规则分布.开口资料 (3)几何均数 - 抗体滴度等各变量之间成倍数关系/对数正态分布资料 离散趋势: (1)标准差.方差- 正态分布/

dplyr 数据操作 统计描述(summarise)

在R中,summary()是一个基础包中的重要统计描述函数,同样的在dplyr中summarise()函数也可以对数据进行统计描述. 不同的是summarise()更加的灵活多变,下面来看下summarise这个函数 summarise(.data, ...) 其灵活性和其他dplyr函数一样,主要在于条件的使用上 下面看些具体的例子 library(dplyr) x<-data.frame(id=1:6, name=c("wang","zhang",&quo

R vs Python:构建data.frame、读取csv与统计描述

一.Python 数据框就是典型的关系型数据库的数据存储形式,每一行是一条记录,每一列是一个属性,最终构成表格的形式,这是数据科学家必须熟悉的最典型的数据结构. 1.构建数据框 import pandas as pd data = {'year':[2010, 2011, 2012, 2010, 2011, 2012, 2010, 2011, 2012], 'team':['FCBarcelona', 'FCBarcelona', 'FCBarcelona', 'RMadrid', 'RMadr

工资管理系统的总体设计的资料收集与描述

小马峰:20160401082,飞飞飞:20160401092 总体设计: 2.1界面需求: 系统开发基于C/S的开发模式,界面直观.简洁,人机交互性强.基于表单和弹出式窗口的数据录入方式,菜单电击的方式操作.用户使用时,只要是按照格式和要求填入信息,系统在后台响应用户操作过程.让用户在最短时间里,不需要经过专门培训,就可以轻松上手使用. 本薪酬管理系统应当具有的页面有:用户登录界面.用户信息查询.配置用户薪酬. 2.2 基本设计概念和处理流程: 软件结构图设计的出发点是需求分析阶段得到的细化后

基本统计方法的选择与应用

一.确定资料的类型:分类资料.定量资料: 选择适当的统计方法,资料不同,设计不同,采用的分析方法不同:1.计量资料的比较(比较集中趋势是否不同):    (1)两组:t检验.Wilcoxon秩和检验 - 如:医保患者与自费患者住院天数是否不同?资料与设计:两组独立的计量资料比较统计方法:两独立样本 t 检验(independent samples t-test)分析结果:t=2.17,P=0.033 参数统计方法(t检验.ANOVA)有应用前提条件:A:资料满足正态性:B:比较的各组资料之间方差

作业一 统计软件简介与数据操作

spss软件 所属类别 : 软件 SPSS(Statistical Product and Service Solutions),"统计产品与服务解决方案"软件.最初软件全称为"社会科学"(SolutionsStatistical Package for the Social Sciences),但是随着SPSS产品服务领域的扩大和服务深度的增加,SPSS公司已于2000年正式将英文全称更改为"统计产品与服务解决方案",标志着SPSS的战略方向正

第一次作业 统计软件简介和技术操作

一.SPSS (一)简介 SPSS(Statistical Product and Service Solutions),"统计产品与服务解决方案"软件.最初软件全称为"社会科学统计表"(SolutionsStatistical Package for the Social Sciences),但是随着SPSS产品服务领域的扩大和服务深度的增加,SPSS公司已于2000年正式将英文全称更改为"统计产品与服务解决方案",这标志着SPSS的战略方向正