协方差为什么能表示两个随机变量的相关性?
作者:Hg
时间:2015.8
1.引言
作为machine learning的初学者,看到如此多的问题都能够用数学简单的进行解决,再次感觉到数学的魅力。数学不仅仅是枯燥的考试题,而是人类理解世界的一种重要的工具。所以同样在搞ml的筒子们,我认为搞好数学是关键。在machine learning中有时候要测评两个特征之间的联系的程度,举ml中一个简单的例子,现在要预测房子的价格,告诉了房子的面积X和花园的面积Y这两个特征,我们要测评一下X和Y之间的相关程度,即房子的面积和花园的面积是否有联系或者相关。那么这里就会用到了协方差,即Cov(X,Y),它表示了XY之间的相关程度。下面先让我们了解一下关于协方差的基本知识。
2.什么是协方差和相关系数
协方差的定义为:
如果两个变量的协方差为正, 那么两个变量的变化趋势一致,即一个变量如果变大,那么这个变量也会变大。如果协方差为负,那么两个变量的变化趋势想反。如果为0,说明两个变量不相关。
协方差虽然在一定程度上能够反映了X和Y相关间的联系,但它还是受X与Y量纲的影响。所以再计算X与Y的协方差之前,先对X与Y进行标准化变换(简单的说一下量纲,如果X的取值以万为单位,而Y的取值在0~1之间,那么Y微小的变化会引起X重大的变化,相反X的大变化使Y的变化微乎其微,所以我们要对其进行处理,而处理的方法就是对其进行标准化),即:
由协方差的性质:
且Cov(x*,y*)是无量纲的量,这样就消除了量纲对相关性的影响,由此得到了相关系数的概念。
定义:(X, Y)是二维随机变量,D(X)> 0和 D(Y)> 0分表表示X和Y的方差, 那么上述的Cov(x*, y*)就表示随机变量X与Y的相关系数,记为ρXY。基本上,所有的相关教材上都讲到了这里就完事了,很多人对于相关系数或协方差为什么能够表示两个变量之间的的相关性也会一头雾水,下边我会从另外一个角度讲述协方差之所以可以表示相关性的原因。
3.从向量的角度出发
我们对随机变量X和Y随机取n个值,可以得到,又有它表示xi的平均数,所以我们可以得到差向量。
差向量的模可以表示为:
差向量的方向反映了一个向量的波动方向。下面考虑两个差向量:
从向量的角度进行考虑,可以用角度衡量两个向量的相关性,如果两个向量角度为90度,说明两个向量不相关(即变化趋势一点不同),如果两个向量角度为0度,说明两个向量极度相关,变化趋势一致。所以有:
因此,求得:
所以可以得出 为变量X,Y去量纲的相关系数
而为变量X,Y的协方差,也为未去量纲的相关系数。
有什么错误之处,还请大家进行批评指正!
版权声明:本文为博主原创文章,未经博主允许不得转载。