度量线性相关性之协方差与相关系数

一、协方差

可以通俗的理解为:两个变量在变化过程中是同方向变化?还是反方向变化?同向或反向程度如何?(你变大,同时我也变大,说明两个变量是同向变化的)

协方差定义:Cov(X,Y)=E[(X-E(X))(Y-E(Y))]

公式简单翻译一下是:如果有X,Y两个变量,每个时刻的“X值与其均值之差”乘以“Y值与其均值之差”得到一个乘积,再对这每时刻的乘积求和并求出均值(这里求“期望”简单认为就是求均值了)。

如果X、Y变化方向相同,即当X大于其均值时,Y也大于其均值,当X小于其均值时,Y也小于其均值,在这两种情况下,乘积为正。如果X、Y的变化方向一直保持相同,X变大的时候,Y也变大,X变小的时候,Y也变小,则协方差为正;

如果X、Y变化方向一直相反,则协方差为负;

如果X、Y变化方向之间相互无规律,则可能某一时刻(X-E(X))(Y-E(Y))为正,而另一时刻的(X-E(X))(Y-E(Y))为负,累计以后正负项抵消,最后求出的平均值就是协方差,通过协方差的大小,就可以判断两个变量变化同向或者反向的程度了。

总结一下,如果协方差为正,说明X,Y同向变化,协方差越大说明同向程度越高;如果协方差为负,说明X,Y反向运动,协方差越小说明反向程度越高。

二、相关系数

公式翻译一下:相关系数就是用X、Y的协方差除以X的标准差和Y的标准差。(标准差是方差的算术平方根)

所以,相关系数也可以看成协方差:一种剔除了两个变量量纲影响、标准化后的特殊协方差。

既然是一种特殊的协方差,那它:

1、也可以反映两个变量变化时是同向还是反向,如果同向变化就为正,反向变化就为负。

2、由于它是标准化后的协方差,因此更重要的特性来了:它消除了两个变量变化幅度的影响,而只是单纯反应两个变量每单位变化时的相似程度。

总结一下,对于两个变量X、Y,当他们的相关系数为1时,说明两个变量变化时的正向相似度最大,即,你变大一倍,我也变大一倍;你变小一倍,我也变小一倍。也即是完全正相关(以X、Y为横纵坐标轴,可以画出一条斜率为正数的直线,所以X、Y是线性关系的)。随着他们相关系数减小,两个变量变化时的相似度也变小,当相关系数为0时,两个变量的变化过程没有任何相似度,也即两个变量无关。当相关系数继续变小,小于0时,两个变量开始出现反向的相似度,随着相关系数继续变小,反向相似度会逐渐变大。当相关系数为-1时,说明两个变量变化的反向相似度最大,即,你变大一倍,我变小一倍;你变小一倍,我变大一倍。也即是完全负相关(以X、Y为横纵坐标轴,可以画出一条斜率为负数的直线,所以X、Y也是线性关系的)。

相关系数只能用来衡量线性相关程度

参考链接:http://www.mathsisfun.com/data/correlation.html

一般我们讲的相关系数,其实叫皮尔逊相关系数(Pearson correlation coefficient),wiki关于这个系数的解释是:

The correlation coefficient ranges from ?1 to 1. A value of 1 implies that a linear equation describes the relationship between X and Y perfectly, with all data points lying on a line for which Y increases as X increases. A value of ?1 implies that all data points lie on a line for which Y decreases as X increases. A value of 0 implies that there is no linear correlation between the variables.

case 1:

Four sets of data with the same correlation of 0.816

如图(右上)所示,非线性相关也会导致线性相关系数很大;
好吧,你退一步,转而问:如果两个变量的相关系数很大(0.816),那能不能说两者相关呢? 答案还是不能,为什么? 因为如图(右下)所示,很可能是一个离群点(outlier)导致了相关系数变得很大。
这也不能那也不能,那怎么办?(你一定要画出图来看才行,后面会深入解释)

case 2:

上图的相关系数计算结果为0,但你能说冰激凌的销量和温度不相关吗?
所以, pearson correlation coefficient = 0只能说不是线性相关,但说不定会有更复杂的相关关系(非线性相关)

总结:如果两个变量本身就是线性的关系,那么皮尔逊相关系数ok没问题,绝对值大的就是相关性强,小的就是相关性弱;
但在你不知道这两个变量是什么关系的情况下,即使算出皮尔逊相关系数,发现很大,也不能说明那两个变量线性相关,甚至不能说他们相关,你一定要画出图来看才行,这就是为什么我们说眼见为实和数据可视化的重要性。

参考链接:

http://blog.csdn.net/witforeveryang/article/details/42585791

https://en.wikipedia.org/wiki/Pearson_correlation_coefficient

理解:在不存在离群点的情况下,相关系数反应的是两个变量之间的线性相关程度,线性相关程度高低与变量之间有没有其他非线性相关性无关。

时间: 2024-10-26 16:09:27

度量线性相关性之协方差与相关系数的相关文章

协方差与相关系数

协方差   二维随机变量(X,Y),X与Y之间的协方差定义为: Cov(X,Y)=E{[X-E(X)][Y-E(Y)]} 其中:E(X)为分量X的期望,E(Y)为分量Y的期望 协方差Cov(X,Y)是描述随机变量相互关联程度的一个特征数.从协方差的定义可以看出,它是X的偏差[X-E(X)]与Y的偏差[Y-E(Y)]的乘积的数学期望.由于偏差可正可负,因此协方差也可正可负. l  当协方差Cov(X,Y)>0时,称X与Y正相关 l  当协方差Cov(X,Y)<0时,称X与Y负相关 l  当协方差

Mathematics Base - 期望、方差、协方差、相关系数总结

参考:<深度学习500问> 期望 ?在概率论和统计学中,数学期望(或均值,亦简称期望)是试验中每次可能结果的概率乘以其结果的总和.它反映随机变量平均取值的大小. 线性运算: \(E(ax+by+c) = aE(x)+bE(y)+c\) ?推广形式: \(E(\sum_{k=1}^{n}{a_ix_i+c}) = \sum_{k=1}^{n}{a_iE(x_i)+c}\) 函数期望:设\(f(x)\)为\(x\)的函数,则\(f(x)\)的期望为 离散函数: \(E(f(x))=\sum_{k=

《Linear Algebra and Its Applications》-线性相关性

这篇文章主要简单的记录所谓的“线性相关性”. 线性相关性的对象是向量R^n,对于向量方程,如果说x1v1 + x2v2 + …+xmvm = 0(其中xi是常数,vi是向量)有且仅有一个平凡解,那么我们称m个向量组成的集合{v1,v2,v3…vm}是一个线性相关集,反之,则称向量集合{v1,v2,v3,…vm}是线性无关的. 这个定义似乎显得有些唐突,我们反过来理解所谓的“线性相关”,即在一组非零解的情况下,我们将某个一个系数xi不为0的向量移到等式的另一侧,从这种形式来看,我们得到了向量vi关

【线性代数】线性相关性、基和维数

一.线性相关性 什么情况下,向量X1,X2,--,Xn是线性无关的? 答:当向量X1,X2,--,Xn的线性组合(线性组合时系数不能全为0)不为零向量时,它们是线性无关的.即方程 不存在非零解. 对于一个矩阵A来说,当A总各列向量是线性无关时,则Ax=0的解只有0向量,即矩阵A的零空间只有零向量. 如果各列向量是相关的,则矩阵A的零空间中还存在一些其他的向量. 当矩阵A各列是线性无关的,则矩阵A各列都有主元,自由变量的个数为0. 二.空间的基 我们知道,矩阵各列的线性组合生成矩阵的列向量.但是,

数学-线性代数导论-#10 线性相关性、向量空间的基和维数

线性代数导论-#10 线性相关性.向量空间的基和维数 这节课中,我们先讲了前面的课程中一直提及的线性相关性的具体定义,并以此为基础建立了向量空间的"基"和"维数"的定义,最后归纳为一种已知若干向量求其生成的空间的基和维数的系统方法. 首先是线性相关性的定义. 已知一个由n个向量构成的向量组[V1,V2,-,Vn],如果存在n个系数[C1,C2,-,Cn],使得各CiVi(i=1,2,3,-,n)的和为0,则称这组向量线性相关.反之,如不存在,则称其线性无关. 当然,

协方差、相关系数---通俗解释

一.协方差的意义 学过概率统计的孩子都知道,统计里最基本的概念就是样本的均值,方差,或者再加个标准差.首先我们给你一个含有n个样本的集合,依次给出这些概念的公式描述,这些高中学过数学的孩子都应该知道吧,一带而过. 均值: 标准差: 方差: 很显然,均值描述的是样本集合的中间点,它告诉我们的信息是很有限的, 而标准差给我们描述的则是样本集合的各个样本点到均值的距离之平均.以这两个集合为例,[0,8,12,20]和[8,9,11,12],两个集合的均值都是10,但显然两个集合差别是很大的,计算两者的

协方差 和 相关系数(剔除了两个变量量纲影响、标准化后的特殊协方差)

. 协方差:用来度量两个随机变量关系的统计量. 公式简单翻译一下是:对于X,Y两个变量,每个时刻的"X值与其均值之差" 乘以 "Y值与其均值之差"得到一个乘积,再对这每时刻的乘积求和并求出均值. 总结一下,如果协方差为正,说明X,Y同向变化,协方差越大说明同向程度越高:如果协方差为负,说明X,Y反向运动,协方差越小说明反向程度越高. 相关系数: 翻译一下:就是用X.Y的协方差除以X的标准差和Y的标准差. 所以,相关系数也可以看成协方差:一种剔除了两个变量量纲影响.标

协方差/相关矩阵/相关系数

通过两组统计数据计算而得的协方差可以评估这两组统计数据的相似程度. 样本: A = [a1, a2, ..., an] B = [b1, b2, ..., bn] 平均值: ave_a = (a1 + a2 +...+ an)/n ave_b = (b1 + b2 +...+ bn)/m 离差(用样本中的每一个元素减去平均数,求得数据的误差程度): dev_a = [a1, a2, ..., an] - ave_a dev_b = [b1, b2, ..., bn] - ave_b 协方差 协方

协方差和相关系数的关系

参考链接:https://www.zhihu.com/question/20852004 方差: 度量单个随机变量的离散程度,公式如下:  方差表示一位数据数据的离散程度,数值越大说明离均值的差距越大,越离散 协方差: 度量两个随机变量(变化趋势)的相似程度,定义如下: 协方差表示二维数据,表示两个变量在变化的过程中是正相关还是负相关还是不相关 正相关,你变大的同时,我也变大, 说明变量是同向变化,这时候协方差就是正的 负相关,你变大的同时,我变小,说明变量两个变量是反向变化的,这时候协方差就是