相关分析是通过定量指标来描述变量之间的关系。最常见的相关分析是两个变量间或一个变量和多个变量间的相关分析,此外还有两个变量群和多个变量群之间的相关分析,后者比较复杂,我们先来介绍最基本也是最常用的两个变量间和一个与多个变量间的相关分析。
相关可以分为直线相关、曲线相关、正相关、负相关、完全相关等。我们可以通过散点图来初步判断变量间相关趋势。
描述变量间相关程度的指标叫做相关系数,相关系数的计算方法非常多,且算法各异,如同方差分析的两两比较一样,没有一个完全通用的算法,我们需要根据具体问题和变量特点等信息挑选最为合适的一种相关系数。
首先,我们还是从变量特征的角度对相关系数进行归纳:
一、连续变量
1.Pearson相关系数
Pearson相关系数在1和-1之间,绝对值越大,相关性越强,正数表示正相关,负数表示负相关
Pearson相关系数又称为简单相关系数、积差相关系数,是基于积差算法计算得出的一种相关系数,积差可以理解为离差值乘积
设两组变量为:
我们计算这两组变量的离差为:图2,其中图3
根据以上得出相关系数的公式为图4
如果从Z分数的角度理解Pearson相关系数:将两组数据做Z分数处理, 再用处理后的乘积和除以样本数
具体算法如下:
图5
如果从协方差的角度理解Pearson相关系数:
两个不同参数之间的方差就是协方差,协方差用于衡量两个变量的总体误差。而方差只是协方差的一
种特殊情况,即当两个变量是相同时。
方差是针对单个变量的
图10
那么针对两个变量的协方差公式可以表示为
图11
可见,协方差是两个变量间的离均差乘积在样本中的平均,可认为其近似反映了两变量间的关系强弱
和方向,此时的协方差大小和量纲有关,为了消除量纲影响,将协方差除以x,y变量的标准差进行标
准化,最后的公式如下
图8
这就是通过协方差引出Pearson相关系数的思想
Pearson相关系数有四种公式:
1.图6
2.图7
3.图8
4.图9
以上列出的四个公式等价,其中E是数学期望,cov表示协方差,N表示变量取值的个数
Pearson相关系数有一些适用条件
1.两变量间成线性关系,如果变量间成曲线相关,则Pearson相关系数的大小并不能代表相关性的强弱
2.变量值中不能有极端值,这对相关系数的计算会影响很大
3.两变量的联合分布属于正态分布。
2.Spearman等级相关系数
有时候变量的情况不满足Pearson相关系数的适用条件,这时候我们可以选择Spearman等级相关系数。
Spearman等级相关系数是根据两变量等级差值来计算的,是一种秩相关系数。它对数据分布没有特别
要求,连续变量和有序分类变量都可使用,是一种非参数检验方法,精确度稍低,因此能使用Pearson
相关系数最好不要使用Spearman等级相关系数。
Spearman等级相关系数的计算公式为
图12
其中d为两变量经过相同排序之后的每对变量的等级差数,n为等级个数
注意,这只是在针对变量间没有相同等级情况下使用的公式,
如果变量中存在相等值,那么这些相等变量的等级次序要取其均值,这种存在相同等级的变量在计算
Spearman等级相关系数时要使用
图13
实际上就Pearson线性相关系数计算公式,只是将x,y变量换成等级数。
在变量间没有相同等级情况下,二者是相等的。