统计学－单变量描述性统计

复习一遍统计学基础，准备spss的考试。

拿到一组陌生的数据，就像遇见一个陌生人，我们遇到一个陌生人，第一件事往往就是打量打量ta，处理数据也是如此。描述性统计就是在打量一组数据，对数据有个大概对了解。一般来说，对数据做三个处理：集中趋势central tendency，离散趋势dispersion tendency，分布形态distribution tendency。虽然简单，但是最为基础，是我们后续数据分析的前提，通过对数据的描述性统计，我们才能选择合适的统计方法，以防误用。

单变量统计分析在一些书上又被叫做一元统计，只面对一个变量，方法比较死板固定单一。

part one：central tendency一种位置的统计量，把一个变量的不同观测（observation）集中到一个值上来表示。

1.mean（x－bar），算数均值（the average）一个东西。——注意，使用时，数据要呈现正态分布，即使不满足，也应该要单峰&基本对称分布。有极端值时不要选择用算数均值

2.median，位置的中间数的值。先找位置，再找值。位置：（n+1）／2，奇数位置对应值，偶数?.5左右两个数字的mean。——任意分布形态均可使用

3.mode，众数

4.其他：

4.1截尾均数trimmed mean，又叫修正均数。去除Max、Min5%。好处是去掉了极端值的影响——有极端值时可以选用。缺点是，10%的数据本身是真实信息，去掉了使得信息减少。

4.2几何均数 G(geometric mean)医学统计学中多使用，当data分布不对称，但是转换后呈现对称分布可以使用。

4.3调和均数

mean和median相比，应该说mean的使用更广，使用的信息更全，在抽样调查中，mean的值随样本的变化而变化的幅度小，更为稳定，应该说是一个更好的统计量，但是一旦有极端值的存在，mean将会受到很大影响，因此此时应该使用median。

另外，根据变量的类型，选择统计量。名义型变量，只能使用mode,否则无意义，但是二分名义变量可以使用均值。定序变量，应该使用median，定距和定比变量使用mean，在无极端值的情况下。

补充，在组距分组资料中，均值采用组中值计算，mode组中值法，median＝所在组组下限＋[（n/2-CfM-1）/fm]*i i为组距，fm所在组频数，cfm-1所在组以上累计频数。

part two：dispersion tendency，是尺度统计量，测量的是数据间相互的差别多大的问题

1.全距range，足距

2.推倒使用方差，但是因为度量单位问题，实际使用中采用标准差处理。标准差与mean单位一致。注意样本标准差。注意，标准差的计算用到了全部数据，也会受到极端值的干扰。

3.异众比例，看mode的代表性如何。

4.变异系数、离散系数。cv=s/mean。可以比较不同样本的离散情况。

5.百分位数、四分位数——排除了极端值干扰。当标准差不能用时，可以采用。

时间： 2024-10-10 19:44:26

统计学－单变量描述性统计

统计学－单变量描述性统计的相关文章

基于R语言的数据分析和挖掘方法总结——描述性统计

《LoadRunner 没有告诉你的》之一——描述性统计与性能结果分析

使用NumPy、SciPy和Matplotlib进行描述性统计

机器学习入门——单变量线性回归

使用Python进行描述性统计【解决了实习初期的燃眉之急】

描述性统计-1

描述性统计与性能结果分析

Python描述性统计

机器学习入门之单变量线性回归（上）——梯度下降法