◆描述性统计分析
概念:描述性统计分析方法是指应用分类、制表、图形及概括性数据指标(去均值,方差等)来概括数据分布特征的方法。
而推断性统计分析方法则是通过随机抽样,应用统计方法把从样本数据得到的结论推广到总体的数据分析方法统计上需要把样本数据所御寒信息进行概括,融合和抽象,
从而得到反映样本数据的综合指标。这些指标称为统计量。描述数据特征的统计量可分为两类:一类表示数据的中心位置,
如均值,中位数,众数等,另一类表示数据的离散程度,如方差,标准差,极差等用来衡量个体偏离中心的程度在描述定性观测知识,
有时候我们需要把这些指按照某种原则分成一些组或者类,使得每个观测值必须且只能落入一个类中。对于给定的类,落入这个类的个案数称为频率,落入该类中的个案数和个案总数的比例称为相对频率。
频率分析主要通过频率分布表,条形图,饼图和直方图,以及集中趋势和离散趋势的各种统计量来描述数据的分布特征。
◆中心趋势的描述
概念:中心趋势是指以组数据向某个中心值靠拢的倾向。描述数据分布的中心位置的统计量称为位置统计量。
对于连续变量和定序变量,描述数据中心趋势的指标有均值,中位数,众数,5%截尾均值,
对于定性数据,描述数据中心趋势的指标只有众数。
SPSS中把变量分为三个水平,分别为尺度变量,定序变量,名义变量。
◆均值
概念:均值一般是指数据的算术均值。数据的均值容易受极端值的影响。
◆5%截尾均值
概念:把观测值按照从小到大顺序排序,剔除掉排序后的数据序列两端的部分数字后计算得到的均值称为截尾均值,避免了极端值的影响。
◆几何均值
概念:几何均值又称几何平均数。它是样本数据连乘后得到的积开N次方得到的 计算机和平均数要求各观察值之间存在连乘关系,
并且各个观察值的连乘积必须具有实际意义,它主要用于相对数数列,他要求样本数和算术平均值相比较,几何平均数应用范围较窄。
◆中位数
概念:将观测值按照从小到大的顺序排列,位于中间位置的数值称为中位数。
中位数受极端值的影响较小,在具有极大和极小值的数据中,中位数比均值往往更能代表数据的集中趋势。
◆众数
概念:众数是观测值中出现次数最多的数值,其反映了这组观测值的集中趋势。不受极端值影响。可能有多个众数离散趋势的描述。
◆极差
概念: 数据的观测值中的最大值与最小值之差反映了数据的波动情况。该差称为极差或者全距,容易受极端值影响。
◆方差和标准差
概念: 标准差用来度量观测值偏离平均数的大小,相当于平均偏差,可以直接描述数据偏离均值的程度。
◆均值的标准误
概念:均值的标准误用来衡量不同样本的均值之间的差别。
如果两个样本均值的差值与标准误的比值小于-2或大于2,则可以断定两个均值有显著的差别,进而断定这两个样本来自于两个不同的总体。
◆变异系数
概念:在比较两组数据离散程度大小时,如果观测的测量尺度相差太大,或者是数据的量纲不一样,这时直接比较二者的标准差并不合适,需要首先消除测量尺度和量纲的影响,变异系数就可以剔除这些影响。
◆分位数
概念: P%分位数是指使得至少有P%的数据小于或等于这个值,且使得至少有(100-P)%的数据大于或等于这个值。
数据按照从小到大进行排序。
最小的四分位数称为下四分位数,记为Q1,所有观测值中有1/4的观测值小于下四位数,3/4的观测值大于下四位数,中点位置的四分位数就是中位数。最大的四分位数称为上四分位数,记为Q3
统计中常常把数据的最小值,下四分位数,中位数,上四分位数和最大值称为数据的总结五数。从这五个值可以大致看出数据分布的中心和离散程度。而箱图则是这五个数的图形表现。
◆分布的形状
概念: 当α>0时,分布为正偏和右偏,及分布图形在右边拖尾,分布图有很长的右尾尖锋偏左,
α<0,分布为负片和左偏,及分布图形在左边拖尾,分布图有很长的左尾,峰尖偏右,α=0,分布对称,
不论正负哪种偏态,偏度的绝对值最大表示偏斜的程度越大,反之偏斜程度越小,分布形状越接近对称。
原文地址:https://www.cnblogs.com/Alkaid2019/p/11773515.html