协方差与相关系数

协方差

 

二维随机变量(X,Y),X与Y之间的协方差定义为:

Cov(X,Y)=E{[X-E(X)][Y-E(Y)]}

其中:E(X)为分量X的期望,E(Y)为分量Y的期望

协方差Cov(X,Y)是描述随机变量相互关联程度的一个特征数。从协方差的定义可以看出,它是X的偏差【X-E(X)】与Y的偏差【Y-E(Y)】的乘积的数学期望。由于偏差可正可负,因此协方差也可正可负。

l  当协方差Cov(X,Y)>0时,称X与Y正相关

l  当协方差Cov(X,Y)<0时,称X与Y负相关

l  当协方差Cov(X,Y)=0时,称X与Y不相关

举个例子

二维随机变量(身高X,体重Y)(数据是自己编的)


身高X(cm)


体重Y(500g)


X-E(X)


Y-E(Y)


[X-E(X)][Y-E(Y)]


1


152


92


-19.4


-39.7


770.18


2


185


162


13.6


30.3


412.08


3


169


125


-2.4


-6.7


16.08


4


172


118


0.6


-13.7


-8.22


5


174


122


2.6


-9.7


-25.22


6


168


135


-3.4


3.3


-11.22


7


180


168


8.6


36.3


312.18


E(X) =171.4


E(Y) =131.7


E{[X-E(X)][Y-E(Y)]}=209.4

根据直觉我们也会想到,身高和体重是有正相关性的,身高较高的体重一般会比较大,同样体重大的身高一般也比较高。计算出来的结果也非常符合我们的直觉。

再来举一个反例

二维随机变量(玩游戏的时间X,学习成绩Y)(数据是自己编的)


游戏时间X(h/天)


学习成绩Y


X-E(X)


Y-E(Y)


[X-E(X)][Y-E(Y)]


1


0


95


-1.36


20.7


-28.152


2


1


65


-0.36


-9.3


3.348


3


3


70


1.64


-4.3


-7.052


4


2


55


0.64


-19.3


-12.352


5


2.5


65


1.14


-9.3


-10.602


6


0.5


80


-0.86


5.7


-4.902


7


0.5


90


-0.86


15.7


-13.502


E(X) =1.36


E(Y) =74.3


E{[X-E(X)][Y-E(Y)]}= -10.5

同样根据直觉我们也会觉得,小朋友玩游戏的时间越长,学习成绩越差的可能性就越大,计算结果也很好的符合我们的直觉。

从上面两幅散点图上大约可以看出体重随身高的变化趋势,以及学习成绩随玩游戏时间长短的变化趋势。因此,可以说协方差是两个随机变量具有相同变化趋势的度量。

但是,协方差仅能进行定性的分析,并不能进行定量的分析,比如身高体重之间的协方差为209.1,它们之间的相关性具体有多大呢,协方差并没有给出定量的判断标准。因此我们引出相关系数的概念。

相关系数

相关系数的定义

其中:Var(X)为X的方差,Var(Y)为Y的方差。

根据施瓦茨不等式可以得到-1Corr(X,Y)1,这样就可以定量的分析两个随机变量的相关性了。

l  Corr(X,Y)=1的时候,说明两个随机变量完全正相关,即满足Y=aX+b,a>0

考虑Corr(X,X),两个随机变量相同,肯定满足线性关系,此时,Cov(X,X)=Var(X),容易得到Corr(X,Y)=1

l  Corr(X,Y)=-1的时候,说明两个随机变量完全负相关,即满足Y=-aX+b,a>0

l  0<| Corr(X,Y)|<1的时候,说明两个随机变量具有一定程度的线性关系。

还是以前面的两个例子为例,

身高体重:Corr(X,Y)= 209.4/(10.2*24.4)=0.84

游戏时间与学习成绩:Corr(X,Y)= -10.5/(1.1*13.4)= -0.71

有了相关系数,我们可以说,身高与体重之间的线性相关性比游戏时间与学习成绩之间的线性相关性更大。

补充说明:

Corr(X,Y)为0,表示X与Y不相关,这里的不相关指的是X与Y没有线性关系,但不是没有关系。因此将“相关”理解为“线性相关”也许更恰当一些。

时间: 2024-10-13 21:14:59

协方差与相关系数的相关文章

协方差、相关系数---通俗解释

一.协方差的意义 学过概率统计的孩子都知道,统计里最基本的概念就是样本的均值,方差,或者再加个标准差.首先我们给你一个含有n个样本的集合,依次给出这些概念的公式描述,这些高中学过数学的孩子都应该知道吧,一带而过. 均值: 标准差: 方差: 很显然,均值描述的是样本集合的中间点,它告诉我们的信息是很有限的, 而标准差给我们描述的则是样本集合的各个样本点到均值的距离之平均.以这两个集合为例,[0,8,12,20]和[8,9,11,12],两个集合的均值都是10,但显然两个集合差别是很大的,计算两者的

度量线性相关性之协方差与相关系数

一.协方差 可以通俗的理解为:两个变量在变化过程中是同方向变化?还是反方向变化?同向或反向程度如何?(你变大,同时我也变大,说明两个变量是同向变化的) 协方差定义:Cov(X,Y)=E[(X-E(X))(Y-E(Y))] 公式简单翻译一下是:如果有X,Y两个变量,每个时刻的"X值与其均值之差"乘以"Y值与其均值之差"得到一个乘积,再对这每时刻的乘积求和并求出均值(这里求"期望"简单认为就是求均值了). 如果X.Y变化方向相同,即当X大于其均值时,

协方差 和 相关系数(剔除了两个变量量纲影响、标准化后的特殊协方差)

. 协方差:用来度量两个随机变量关系的统计量. 公式简单翻译一下是:对于X,Y两个变量,每个时刻的"X值与其均值之差" 乘以 "Y值与其均值之差"得到一个乘积,再对这每时刻的乘积求和并求出均值. 总结一下,如果协方差为正,说明X,Y同向变化,协方差越大说明同向程度越高:如果协方差为负,说明X,Y反向运动,协方差越小说明反向程度越高. 相关系数: 翻译一下:就是用X.Y的协方差除以X的标准差和Y的标准差. 所以,相关系数也可以看成协方差:一种剔除了两个变量量纲影响.标

Mathematics Base - 期望、方差、协方差、相关系数总结

参考:<深度学习500问> 期望 ?在概率论和统计学中,数学期望(或均值,亦简称期望)是试验中每次可能结果的概率乘以其结果的总和.它反映随机变量平均取值的大小. 线性运算: \(E(ax+by+c) = aE(x)+bE(y)+c\) ?推广形式: \(E(\sum_{k=1}^{n}{a_ix_i+c}) = \sum_{k=1}^{n}{a_iE(x_i)+c}\) 函数期望:设\(f(x)\)为\(x\)的函数,则\(f(x)\)的期望为 离散函数: \(E(f(x))=\sum_{k=

numpy中的方差、协方差、相关系数

一.np.var 数学上学过方差: $$D(X)=\sum_{i\in [0,n)} ({x-\bar{x}})^2 $$ np.var实际上是均方差. 函数原型:numpy.var(a, axis=None, dtype=None, out=None, ddof=0, keepdims=<class numpy._globals._NoValue>) 计算张量a在axis轴上的方差 a:一个ndarray,不一定是一维 axis:可取值为None,int,int元组.当取值为None时,会把

协方差/相关矩阵/相关系数

通过两组统计数据计算而得的协方差可以评估这两组统计数据的相似程度. 样本: A = [a1, a2, ..., an] B = [b1, b2, ..., bn] 平均值: ave_a = (a1 + a2 +...+ an)/n ave_b = (b1 + b2 +...+ bn)/m 离差(用样本中的每一个元素减去平均数,求得数据的误差程度): dev_a = [a1, a2, ..., an] - ave_a dev_b = [b1, b2, ..., bn] - ave_b 协方差 协方

协方差和相关系数的关系

参考链接:https://www.zhihu.com/question/20852004 方差: 度量单个随机变量的离散程度,公式如下:  方差表示一位数据数据的离散程度,数值越大说明离均值的差距越大,越离散 协方差: 度量两个随机变量(变化趋势)的相似程度,定义如下: 协方差表示二维数据,表示两个变量在变化的过程中是正相关还是负相关还是不相关 正相关,你变大的同时,我也变大, 说明变量是同向变化,这时候协方差就是正的 负相关,你变大的同时,我变小,说明变量两个变量是反向变化的,这时候协方差就是

《A First Course in Probability》-chaper7-组合分析-期望的性质-协方差、相关系数

在实际的问题中,我们往往想要通过已有的数据来分析判断两个事件的发生是否有相关性.当然一个角度去寻找这两个事件内在的逻辑关系,这个角度需要深究两个事件的本质,而另外一个角度就是概率论提供的简单方法:基于两个事件发生的概率,我们就能够描述两个随机变量的相关性. 其实通过后边的计算式我们能够好的理解协方差为什么在一定程度上表征了两个随机变量的相关性,感性的来讲,E[XY]就是一个实际的X.Y同时发生的事件,而E[X]E[Y]则是我们为了进行比较给出的一个“假想X.Y独立”的模型,比较实际情况与理想情况

概率统计:数学期望,方差,协方差,相关系数,矩