协方差为什么能表示两个随机变量的相关性?

协方差为什么能表示两个随机变量的相关性?

作者:Hg

时间:2015.8

1.引言

作为machine learning的初学者,看到如此多的问题都能够用数学简单的进行解决,再次感觉到数学的魅力。数学不仅仅是枯燥的考试题,而是人类理解世界的一种重要的工具。所以同样在搞ml的筒子们,我认为搞好数学是关键。在machine learning中有时候要测评两个特征之间的联系的程度,举ml中一个简单的例子,现在要预测房子的价格,告诉了房子的面积X和花园的面积Y这两个特征,我们要测评一下X和Y之间的相关程度,即房子的面积和花园的面积是否有联系或者相关。那么这里就会用到了协方差,即Cov(X,Y),它表示了XY之间的相关程度。下面先让我们了解一下关于协方差的基本知识。

2.什么是协方差和相关系数

协方差的定义为:

如果两个变量的协方差为正, 那么两个变量的变化趋势一致,即一个变量如果变大,那么这个变量也会变大。如果协方差为负,那么两个变量的变化趋势想反。如果为0,说明两个变量不相关。

协方差虽然在一定程度上能够反映了X和Y相关间的联系,但它还是受X与Y量纲的影响。所以再计算X与Y的协方差之前,先对X与Y进行标准化变换(简单的说一下量纲,如果X的取值以万为单位,而Y的取值在0~1之间,那么Y微小的变化会引起X重大的变化,相反X的大变化使Y的变化微乎其微,所以我们要对其进行处理,而处理的方法就是对其进行标准化),即:

由协方差的性质:

且Cov(x*,y*)是无量纲的量,这样就消除了量纲对相关性的影响,由此得到了相关系数的概念。

定义:(X, Y)是二维随机变量,D(X)> 0和 D(Y)> 0分表表示X和Y的方差, 那么上述的Cov(x*, y*)就表示随机变量X与Y的相关系数,记为ρXY。基本上,所有的相关教材上都讲到了这里就完事了,很多人对于相关系数或协方差为什么能够表示两个变量之间的的相关性也会一头雾水,下边我会从另外一个角度讲述协方差之所以可以表示相关性的原因。

3.从向量的角度出发

我们对随机变量X和Y随机取n个值,可以得到,又有它表示xi的平均数,所以我们可以得到差向量

差向量的模可以表示为:

差向量的方向反映了一个向量的波动方向。下面考虑两个差向量:

从向量的角度进行考虑,可以用角度衡量两个向量的相关性,如果两个向量角度为90度,说明两个向量不相关(即变化趋势一点不同),如果两个向量角度为0度,说明两个向量极度相关,变化趋势一致。所以有:

因此,求得:

所以可以得出 为变量X,Y去量纲的相关系数

为变量X,Y的协方差,也为未去量纲的相关系数。

有什么错误之处,还请大家进行批评指正!

版权声明:本文为博主原创文章,未经博主允许不得转载。

时间: 2024-10-07 04:00:20

协方差为什么能表示两个随机变量的相关性?的相关文章

请问如何理解同一个随机过程,里面的两个随机变量的期望不同呢?

他这里的p不一样的话,mx(ti),就一定不一样 随机变量的p和时间有关,不可预测,时间不一样,p就不一样 所以同一个随机过程,里面的两个随机变量的时间不同,期望也不同 原文地址:https://www.cnblogs.com/china520/p/10887877.html

机器学习-文本数据-文本的相关性矩阵 1.cosing_similarity(用于计算两两特征之间的相关性)

函数说明: 1. cosing_similarity(array)   输入的样本为array格式,为经过词袋模型编码以后的向量化特征,用于计算两两样本之间的相关性 当我们使用词频或者TFidf构造出词袋模型,并对每一个文章内容做词统计以后, 我们如果要判断两个文章内容的相关性,这时候我们需要对数字映射后的特征做一个余弦相似度的匹配:即a.dot(b) / sqrt(a^2 + b^2) 在sklearn中使用metrics.pairwise import cosine_similarity 代

《A First Course in Probability》-chaper7-组合分析-期望的性质-协方差、相关系数

在实际的问题中,我们往往想要通过已有的数据来分析判断两个事件的发生是否有相关性.当然一个角度去寻找这两个事件内在的逻辑关系,这个角度需要深究两个事件的本质,而另外一个角度就是概率论提供的简单方法:基于两个事件发生的概率,我们就能够描述两个随机变量的相关性. 其实通过后边的计算式我们能够好的理解协方差为什么在一定程度上表征了两个随机变量的相关性,感性的来讲,E[XY]就是一个实际的X.Y同时发生的事件,而E[X]E[Y]则是我们为了进行比较给出的一个“假想X.Y独立”的模型,比较实际情况与理想情况

协方差

在概率论和统计学中,协方差用于衡量两个变量的总体误差.而方差是协方差的一种特殊情况,即当两个变量是相同的情况. 期望值分别为E[X]与E[Y]的两个实随机变量X与Y之间的协方差Cov(X,Y)定义为: E[(X-E(X))(Y-E(Y))]称为随机变量X和Y的协方差,记作Cov(X,Y),即Cov(X,Y)=E[(X-E(X))(Y-E(Y))]. 从直观上来看,协方差表示的是两个变量总体误差的期望. 如果两个变量的变化趋势一致,也就是说如果其中一个大于自身的期望值时另外一个也大于自身的期望值,

协方差与相关系数

协方差   二维随机变量(X,Y),X与Y之间的协方差定义为: Cov(X,Y)=E{[X-E(X)][Y-E(Y)]} 其中:E(X)为分量X的期望,E(Y)为分量Y的期望 协方差Cov(X,Y)是描述随机变量相互关联程度的一个特征数.从协方差的定义可以看出,它是X的偏差[X-E(X)]与Y的偏差[Y-E(Y)]的乘积的数学期望.由于偏差可正可负,因此协方差也可正可负. l  当协方差Cov(X,Y)>0时,称X与Y正相关 l  当协方差Cov(X,Y)<0时,称X与Y负相关 l  当协方差

方差、协方差及关联性

最近在学习R语言,其中涉及涉及到关联分析时碰到的一些函数,其中有三个彼此关联的函数: var:计算某个变量的方差 cov:计算两个变量的协方差 cor:计算两个变量的相关性 这些概念的理论学校里肯定都学过,不过现在确实是一点也想不起来了,而且更重要的是当时也不知道为什么要有这些统计概念.然后现在只得在度娘上搜了一下,共找到期望.方差.标准差.协方差和相关性. 期望值 在概率论和统计学中,一个离散性随机变量的期望值(或数学期望.或均值,亦简称期望,物理学中称为期待值)是试验中每次可能结果的概率乘以

两篇论文之CNN中正交操作

CNN的权值正交性和特征正交性,在一定程度上是和特征表达的差异性存在一定联系的. 下面两篇论文,一篇是在训练中对权值添加正交正则提高训练稳定性,一篇是对特征添加正交性的损失抑制过拟合. 第一篇:Orthonormality Regularization Xie D, Xiong J, Pu S. All You Need is Beyond a Good Init: Exploring Better Solution for Training Extremely Deep Convolution

协方差 的直观理解

1.协方差 方差是描述自身偏离其均值的程度. 协方差用来描述两个变量间的变化关系,协方差用来度量两个随机变量关系的统计量 \[ cov(X,Y)=E[(X-E[X])(Y-E[Y])] \] \[ cov(X,Y)=E[(X-μ_x)(Y-μ_y)] \] E[x] 代表期望,一般置X的均值 公式:如果有X,Y两个变量,每个时刻的"X值与其均值之差"乘以"Y值与其均值之差"得到一个乘积,再对这每时刻的乘积求和并求出均值 eg:比如有两个变量X,Y,观察t1-t7(7

文本数据的机器学习自动分类方法(转)

http://blog.csdn.net/jdbc/article/details/50586042 本文为第一部分,着重介绍文本预处理以及特征抽取的方法. 随着互联网技术的迅速发展与普及,如何对浩如烟海的数据进行分类.组织和管理,已经成为一个具有重要用途的研究课题.而在这些数据中,文本数据又是数量最大的一类."文本分类是指在给定分类体系下,根据文本内容自动确定文本类别的过程"(达观数据科技联合创始人,张健).文本分类有着广泛的应用场景,例如: 新闻网站包含大量报道文章,基于文章内容,