统计描述指标的选择与应用

一、统计描述指标的选择与应用

计量资料:集中趋势与离散趋势
(1)正态分布:均数?标准差

(2)非正态分布(偏态、不规则分布):中位数(M),四分位数  (P25、P75)

无序分类资料:率、构成比

二、集中趋势与离散趋势
集中趋势:用平均数(指标体系)反映一组观察值的中心位置或平均水平。
  (1)算数均数 — 正态分布/单峰对称分布资料
  (2)中位数 — 偏态分布、不规则分布、开口资料
  (3)几何均数 — 抗体滴度等各变量之间成倍数关系/对数正态分布资料

离散趋势:
  (1)标准差、方差— 正态分布/单峰对称分布资料
  (2)四分位数间距— 偏态分布、不规则分布、开口资料
  (3)极差(全距):最大值与最小值之差
  (4)变异系数 — 度量衡单位不同、均数相差悬殊的几组资料间的比较

三、相对离散度
对于单位不同的变量,不能直接比较标准差,如身高的标准差与体重的标准差没有可比性,此时用
变异系数 (coefficient of variation, CV)来衡量。
变异系数 (coefficient of variation, CV)指标准差与均数之比,常用百分位数表示。

CV=标准差/均数*100%

另外一个应用场景:均数相差悬殊的几组资料间的比较。

原文地址:https://www.cnblogs.com/quietwalk/p/8259720.html

时间: 2024-10-20 17:34:03

统计描述指标的选择与应用的相关文章

数据资料的统计描述

一.集中趋势 1.算术平均数 1.1 简单的算术平均数 1.2 加权的算术平均数 均值的计算要根据分组的资料进行,要涉及到频数的考虑,即所谓的加权问题. 2.几何平均数 2.1 简单几何平均数 数据资料的统计描述

dplyr 数据操作 统计描述(summarise)

在R中,summary()是一个基础包中的重要统计描述函数,同样的在dplyr中summarise()函数也可以对数据进行统计描述. 不同的是summarise()更加的灵活多变,下面来看下summarise这个函数 summarise(.data, ...) 其灵活性和其他dplyr函数一样,主要在于条件的使用上 下面看些具体的例子 library(dplyr) x<-data.frame(id=1:6, name=c("wang","zhang",&quo

R vs Python:构建data.frame、读取csv与统计描述

一.Python 数据框就是典型的关系型数据库的数据存储形式,每一行是一条记录,每一列是一个属性,最终构成表格的形式,这是数据科学家必须熟悉的最典型的数据结构. 1.构建数据框 import pandas as pd data = {'year':[2010, 2011, 2012, 2010, 2011, 2012, 2010, 2011, 2012], 'team':['FCBarcelona', 'FCBarcelona', 'FCBarcelona', 'RMadrid', 'RMadr

3.2.4. 计量资料的统计描述

1.1.1.1. 集中趋势的描述(central tendency) 描述集中趋势的主要统计指标有算术平均数.几何平均数.中位数,这些指标也称为位置度量指标(measures of location) 1.1.1.1.1. 算术平均数(arithmetic mean) 算术平均数适用于频数分布对称数据.在有离群值的情况下,或频数分布不对称时,不适合选用算术均数描述数据的平均水位. (1)一般地,总体均值用μ表示,样本均数用符号 表示,观察n个个体,X表示观察值,则均数的计算公式为: (2)当样本

3.2.4. 计数资料的统计描述

1.1.1.1. 常用的相对数指标 1.1.1.1.1. 比(ratio) 比表示两个相关指标的值之商.这描述了一个指标的值是另一个指标值的几倍或几分之几.其计算公式为: 1.1.1.1.2. 比例(proportion) 比例表示某事物内部各组成部分的观察单位数与所有组成部分的总观察单位数之比. (1)表示分布结构的比例, (2)表示某现象发生强度的比例, 式中:K是比例基数,它可以取值100%.1000‰.10000/万.100000/10万等. 1.1.1.1.3. 率(frequency

WAP流量统计与传统WEB流量统计的区别与选择

时下,对于很多中小FreeWAP站长而言,可以选择的第三方流量统计站非常有限,尤其是专业面向WAP的站点就更少了.现在从网上搜索可以找到很多家能提供WAP流量统计的站并不多, 现在很多WAP流量统计站都是从PC(WEB)流量统计站简单修改过来的,结果很多统计功能根本实现不了,比如来源页统计,用户访问页记录,在线用户统计等等:也由于WAP1.2(1.1)并不支持Javascript,导致这些统计站不但统计数据不完整,而且统计效率低下,经常出现反应慢以及不稳定的问题.    那么怎么样的统计系统才算

Python数据分析之pandas学习

Python中的pandas模块进行数据分析. 接下来pandas介绍中将学习到如下8块内容:1.数据结构简介:DataFrame和Series2.数据索引index3.利用pandas查询数据4.利用pandas的DataFrames进行统计分析5.利用pandas实现SQL操作6.利用pandas进行缺失值的处理7.利用pandas实现Excel的数据透视表功能8.多层索引的使用 一.数据结构介绍 在pandas中有两类非常重要的数据结构,即序列Series和数据框DataFrame.Ser

Pandas常用操作

参考天池AI github博客传送门 csdn博客传送门 安装pandas 通过命令提示符 pip install pandas 或者通过第三方发放版 Anaconda 进行鼠标操作安装 Numpy学习教程传送门 https://blog.csdn.net/zhanghao3389/article/details/82791862 Series 的创建 import numpy as np, pandas as pd # 通过一维数组创建序列 arr1 = np.arange(10) # 创建一

排序——选择排序(java描述)

百度百科的描述如下:选择排序(Selection sort)是一种简单直观的排序算法.它的工作原理是每一次从待排序的数据元素中选出最小(或最大)的一个元素,存放在序列的起始位置,然后,再从剩余未排序元素中继续寻找最小(大)元素,然后放到已排序序列的末尾.以此类推,直到全部待排序的数据元素排完. 选择排序是不稳定的排序方法. public class Sorting { public static void main(String[] args) { int[] a = { 6, 2, 5, 3,