复习一遍统计学基础,准备spss的考试。
拿到一组陌生的数据,就像遇见一个陌生人,我们遇到一个陌生人,第一件事往往就是打量打量ta,处理数据也是如此。描述性统计就是在打量一组数据,对数据有个大概对了解。一般来说,对数据做三个处理:集中趋势central tendency,离散趋势dispersion tendency,分布形态distribution tendency。虽然简单,但是最为基础,是我们后续数据分析的前提,通过对数据的描述性统计,我们才能选择合适的统计方法,以防误用。
单变量统计分析在一些书上又被叫做一元统计,只面对一个变量,方法比较死板固定单一。
part one:central tendency一种位置的统计量,把一个变量的不同观测(observation)集中到一个值上来表示。
1.mean(x-bar),算数均值(the average)一个东西。——注意,使用时,数据要呈现正态分布,即使不满足,也应该要单峰&基本对称分布。有极端值时不要选择用算数均值
2.median,位置的中间数的值。先找位置,再找值。位置:(n+1)/2,奇数位置对应值,偶数?.5左右两个数字的mean。——任意分布形态均可使用
3.mode,众数
4.其他:
4.1截尾均数trimmed mean,又叫修正均数。去除Max、Min5%。好处是去掉了极端值的影响——有极端值时可以选用。缺点是,10%的数据本身是真实信息,去掉了使得信息减少。
4.2几何均数 G(geometric mean)医学统计学中多使用,当data分布不对称,但是转换后呈现对称分布可以使用。
4.3调和均数
mean和median相比,应该说mean的使用更广,使用的信息更全,在抽样调查中,mean的值随样本的变化而变化的幅度小,更为稳定,应该说是一个更好的统计量,但是一旦有极端值的存在,mean将会受到很大影响,因此此时应该使用median。
另外,根据变量的类型,选择统计量。名义型变量,只能使用mode,否则无意义,但是二分名义变量可以使用均值。定序变量,应该使用median,定距和定比变量使用mean,在无极端值的情况下。
补充,在组距分组资料中,均值采用组中值计算,mode组中值法,median=所在组组下限+[(n/2-CfM-1)/fm]*i i为组距,fm所在组频数,cfm-1所在组以上累计频数。
part two:dispersion tendency,是尺度统计量,测量的是数据间相互的差别多大的问题
1.全距range,足距
2.推倒使用方差,但是因为度量单位问题,实际使用中采用标准差处理。标准差与mean单位一致。注意样本标准差。注意,标准差的计算用到了全部数据,也会受到极端值的干扰。
3.异众比例,看mode的代表性如何。
4.变异系数、离散系数。cv=s/mean。可以比较不同样本的离散情况。
5.百分位数、四分位数——排除了极端值干扰。当标准差不能用时,可以采用。