变异性(也叫散步或离散度)可被看作是对不同数值之间的差异性的测量。
如果把变异性看作是每个数值与特定值的差异程度可能更精确。那么你认为哪个“数值”可能被作为那个特定值呢?通常情况下这个特定值就是均值。因此,变异性成为测量数据组中每一个数值与均值的差异性的数量。
变异性的三种量数通常用于反映一组数据的变异性、散布或者离散度。这三种量数就是极差、标准差和方差。
我们最初正常的想法可能是计算数据组的均值,接着用均值减去每一个数值。然后计算这些距离的平均数。但实际上这并不管用,举个例子看看
数组:5,8,5,4,6,7,8,8,3,6
这个数组的均值是6,那么按照我们的想法用均值减去每一个值(-1+2-1-2+0+1+2+2-3+0)结果为0
其实这种计算方法的大多数结果都为零,因此我们要找到一个方法,消除负号,使结果不为零。
计算极差:
极差是对变异性最笼统的测量。极差可让你了解数值之间彼此差异的程度。极差是通过数据分布中的最大值减去最小值来计算。
一般来说,极差的计算公式如下: r = h - l
其中,r 是极差,h是数据集中的最大值,l是数据集中的最小值。
计算标准差:
最常用到的变异性量数是标准差。
标准差(缩写为s或SD)表示一个数据组中变异性的平均数量。实际的含义是与均值的平均距离。
标准差越大,每一个数据点与数据分布的均值的平均距离越大。
其中:
s 是标准差
∑是西格玛,表示将其后所有数值累加求和
x是具体的数值
x上一条横线是所有数据的均值
n是样本规模
1)列出每一个数值。数值如何排序不重要
2)计算数据组的均值
3)每一个数值减去均值
4)计算每一个差值的平方。
5)计算所有与均值的偏差的平方的总和。
6)平方除以n - 1
7)计算平方根
- 作为一个变异性的量数,标准差可以告诉我们数据组的每一个数值与均值的偏差平均数。
- 标准差是作为偏离均值的平均距离计算的。因此,你首先需要计算作为集中趋势量数的均值。因此计算标准差时不需要在中位数和众数上浪费时间。
- 标准差越大,数值分布越广,则数值之间的差异越大
- 和均值一样,标准差对极值很敏感。当你计算样本的标准差时 ,若数据中存在极值,你就要在数据中报告这一点。
- 如果s=0,数据组中就绝对没有变异性,而且在数值上完全一致,这种情况很少发生。
方差:
方差是标准差的平方。
时间: 2024-10-12 23:45:28