统计学-单变量描述性统计

复习一遍统计学基础,准备spss的考试。

拿到一组陌生的数据,就像遇见一个陌生人,我们遇到一个陌生人,第一件事往往就是打量打量ta,处理数据也是如此。描述性统计就是在打量一组数据,对数据有个大概对了解。一般来说,对数据做三个处理:集中趋势central tendency,离散趋势dispersion tendency,分布形态distribution tendency。虽然简单,但是最为基础,是我们后续数据分析的前提,通过对数据的描述性统计,我们才能选择合适的统计方法,以防误用。

单变量统计分析在一些书上又被叫做一元统计,只面对一个变量,方法比较死板固定单一。

part one:central tendency一种位置的统计量,把一个变量的不同观测(observation)集中到一个值上来表示。

1.mean(x-bar),算数均值(the average)一个东西。——注意,使用时,数据要呈现正态分布,即使不满足,也应该要单峰&基本对称分布。有极端值时不要选择用算数均值

2.median,位置的中间数的值。先找位置,再找值。位置:(n+1)/2,奇数位置对应值,偶数?.5左右两个数字的mean。——任意分布形态均可使用

3.mode,众数

4.其他:

4.1截尾均数trimmed mean,又叫修正均数。去除Max、Min5%。好处是去掉了极端值的影响——有极端值时可以选用。缺点是,10%的数据本身是真实信息,去掉了使得信息减少。

4.2几何均数 G(geometric mean)医学统计学中多使用,当data分布不对称,但是转换后呈现对称分布可以使用。

4.3调和均数

mean和median相比,应该说mean的使用更广,使用的信息更全,在抽样调查中,mean的值随样本的变化而变化的幅度小,更为稳定,应该说是一个更好的统计量,但是一旦有极端值的存在,mean将会受到很大影响,因此此时应该使用median。

另外,根据变量的类型,选择统计量。名义型变量,只能使用mode,否则无意义,但是二分名义变量可以使用均值。定序变量,应该使用median,定距和定比变量使用mean,在无极端值的情况下。

补充,在组距分组资料中,均值采用组中值计算,mode组中值法,median=所在组组下限+[(n/2-CfM-1)/fm]*i   i为组距,fm所在组频数,cfm-1所在组以上累计频数。

part two:dispersion tendency,是尺度统计量,测量的是数据间相互的差别多大的问题

1.全距range,足距

2.推倒使用方差,但是因为度量单位问题,实际使用中采用标准差处理。标准差与mean单位一致。注意样本标准差。注意,标准差的计算用到了全部数据,也会受到极端值的干扰。

3.异众比例,看mode的代表性如何。

4.变异系数、离散系数。cv=s/mean。可以比较不同样本的离散情况。

5.百分位数、四分位数——排除了极端值干扰。当标准差不能用时,可以采用。

时间: 2024-10-10 19:44:26

统计学-单变量描述性统计的相关文章

基于R语言的数据分析和挖掘方法总结——描述性统计

1.1 方法简介 描述性统计包含多种基本描述统计量,让用户对于数据结构可以有一个初步的认识.在此所提供之统计量包含: 基本信息:样本数.总和 集中趋势:均值.中位数.众数 离散趋势:方差(标准差).变异系数.全距(最小值.最大值).内四分位距(25%分位数.75%分位数) 分布描述:峰度系数.偏度系数 用户可选择多个变量同时进行计算,亦可选择分组变量进行多组别的统计量计算. 1.2 详细介绍 1.2.1 样本数和总和 1. R语言涉及的方法:length(x) 1.2.2 均值(Mean) 1.

《LoadRunner 没有告诉你的》之一——描述性统计与性能结果分析

LoadRunner中的90%响应时间是什么意思?这个值在进行性能分析时有什么作用?本文争取用最简洁的文字来解答这个问题,并引申出“描述性统计”方法在性能测试结果分析中的应用. 为什么要有90%用户响应时间?因为在评估一次测试的结果时,仅仅有平均事务响应时间是不够的.为什么这么说?你可以试着想想,是否平均事务响应时间满足了性能需求就表示系统的性能已经满足了绝大多数用户的要求? 假如有两组测试结果,响应时间分别是 {1,3,5,10,16} 和 {5,6,7,8,9},它们的平均值都是7,你认为哪

使用NumPy、SciPy和Matplotlib进行描述性统计

目录 1 描述性统计是什么?2 使用NumPy和SciPy进行数值分析 2.1 基本概念 2.2 中心位置(均值.中位数.众数) 2.3 发散程度(极差,方差.标准差.变异系数) 2.4 偏差程度(z-分数) 2.5 相关程度(协方差,相关系数) 2.6 回顾3 使用Matplotlib进行图分析 3.1 基本概念 3.2 频数分析 3.2.1 定性分析(柱状图.饼形图) 3.2.2 定量分析(直方图.累积曲线) 3.3 关系分析(散点图) 3.4 探索分析(箱形图) 3.5 回顾4 总结5 参

机器学习入门——单变量线性回归

线性回归的概念,在高中数学书里就出现过. 给你一些样本点,如何找出一条直线,使得最逼近这些样本点. 给出一个例子:假设 x 是房子面积,y是房子价格,确定一条直线需要theta0和theta1. 给出x,我们就可以计算出房子的价格 h(x) = theta0+theta1*x 关键是如何计算出theta0和theta1,也就是如何找出这么一条直线呢? 在这里,引入一个概念,叫做cost function.m表示样本个数,也就是训练样本数目 这是一个square error,学过统计的应该经常见到

使用Python进行描述性统计【解决了实习初期的燃眉之急】

目录 1 描述性统计是什么?2 使用NumPy和SciPy进行数值分析 2.1 基本概念 2.2 中心位置(均值.中位数.众数) 2.3 发散程度(极差,方差.标准差.变异系数) 2.4 偏差程度(z-分数) 2.5 相关程度(协方差,相关系数) 2.6 回顾3 使用Matplotlib进行图分析 3.1 基本概念 3.2 频数分析 3.2.1 定性分析(柱状图.饼形图) 3.2.2 定量分析(直方图.累积曲线) 3.3 关系分析(散点图) 3.4 探索分析(箱形图) 3.5 回顾4 总结5 参

描述性统计-1

包括: 计量资料的描述统计.正态分布 计数资料的描述性统计 统计图 过程: 分析数据的基本特征(分布.均数.标准差.标准误.样本容量) 分析分类变量的频数分布 标准化处理 *********************************************** demo1:10名健康男性工人的血红蛋白量(g/L) 118  148  158  163  132  152  140  134  156  138 分析步骤: **********************************

描述性统计与性能结果分析

LoadRunner中的90%响应时间是什么意思?这个值在进行性能分析时有什么作用?本文争取用最简洁的文字来解答这个问题,并引申出“描述性统计”方法在性能测试结果分析中的应用. 为什么要有90%用户响应时间?因为在评估一次测试的结果时,仅仅有平均事务响应时间是不够的.为什么这么说?你可以试着想想,是否平均事务响应时间满足了性能需求就表示系统的性能已经满足了绝大多数用户的要求? 假如有两组测试结果,响应时间分别是 {1,3,5,10,16} 和 {5,6,7,8,9},它们的平均值都是7,你认为哪

Python描述性统计

目录 1 描述性统计是什么?2 使用NumPy和SciPy进行数值分析 2.1 基本概念 2.2 中心位置(均值.中位数.众数) 2.3 发散程度(极差,方差.标准差.变异系数) 2.4 偏差程度(z-分数) 2.5 相关程度(协方差,相关系数) 2.6 回顾3 使用Matplotlib进行图分析 3.1 基本概念 3.2 频数分析 3.2.1 定性分析(柱状图.饼形图) 3.2.2 定量分析(直方图.累积曲线) 3.3 关系分析(散点图) 3.4 探索分析(箱形图) 3.5 回顾4 总结5 参

机器学习入门之单变量线性回归(上)——梯度下降法

在统计学中,线性回归(英语:linear regression)是利用称为线性回归方程的最小二乘函数对一个或多个自变量和因变量之间关系进行建模的一种回归分析.这种函数是一个或多个称为回归系数的模型参数的线性组合.只有一个自变量的情况称为简单回归,大于一个自变量情况的叫做多元回归(multivariate linear regression).——————维基百科 一直以来,这部分内容都是ML的敲门砖,吴恩达教授在他的课程中也以此为第一个例子,同时,本篇也参考了许多吴教授的内容. 在这里,我简单把