[转]浅谈协方差矩阵（牢记它的计算是不同维度之间的协方差，而不是不同样本之间。）

注意：方差就是方差；方差的平方就是方差的平方。有的时候以为方差就是方差的平方。

cov11 = sum((dim1-mean(dim1)).*(dim1-mean(dim1)))/(size(MySample,1)-1)

cov11 =

296.7222

>> std(dim1)

ans =

17.2256

>> std(dim1).^2

ans =

296.7222

一、统计学的基本概念

统计学里最基本的概念就是样本的均值、方差、标准差。首先，我们给定一个含有n个样本的集合，下面给出这些概念的公式描述：

均值：

标准差：

方差：

均值描述的是样本集合的中间点，它告诉我们的信息是有限的，而标准差给我们描述的是样本集合的各个样本点到均值的距离之平均。

以这两个集合为例，[0, 8, 12, 20]和[8, 9, 11, 12]，两个集合的均值都是10，但显然两个集合的差别是很大的，计算两者的标准差，前者是8.3后者是1.8，显然后者较为集中，故其标准差小一些，标准差描述的就是这种“散布度”。之所以除以n-1而不是n，是因为这样能使我们以较小的样本集更好地逼近总体的标准差，即统计上所谓的“无偏估计”。而方差则仅仅是标准差的平方。

二、为什么需要协方差

标准差和方差一般是用来描述一维数据的，但现实生活中我们常常会遇到含有多维数据的数据集，最简单的是大家上学时免不了要统计多个学科的考试成绩。面对这样的数据集，我们当然可以按照每一维独立的计算其方差，但是通常我们还想了解更多，比如，一个男孩子的猥琐程度跟他受女孩子的欢迎程度是否存在一些联系。协方差就是这样一种用来度量两个随机变量关系的统计量，我们可以仿照方差的定义：

来度量各个维度偏离其均值的程度，协方差可以这样来定义：

协方差的结果有什么意义呢？如果结果为正值，则说明两者是正相关的（从协方差可以引出“相关系数”的定义），也就是说一个人越猥琐越受女孩欢迎。如果结果为负值，就说明两者是负相关，越猥琐女孩子越讨厌。如果为0，则两者之间没有关系，猥琐不猥琐和女孩子喜不喜欢之间没有关联，就是统计上说的“相互独立”。

从协方差的定义上我们也可以看出一些显而易见的性质，如：

三、协方差矩阵

前面提到的猥琐和受欢迎的问题是典型的二维问题，而协方差也只能处理二维问题，那维数多了自然就需要计算多个协方差，比如n维的数据集就需要计算个协方差，那自然而然我们会想到使用矩阵来组织这些数据。给出协方差矩阵的定义：

这个定义还是很容易理解的，我们可以举一个三维的例子，假设数据集有三个维度，则协方差矩阵为：

可见，协方差矩阵是一个对称的矩阵，而且对角线是各个维度的方差。

四、Matlab协方差实战

必须要明确一点，协方差矩阵计算的是不同维度之间的协方差，而不是不同样本之间的。以下的演示将使用Matlab，为了说明计算原理，不直接调用Matlab的cov函数：

首先，随机生成一个10*3维的整数矩阵作为样本集，10为样本的个数，3为样本的维数。

图 1 使用Matlab生成样本集

根据公式，计算协方差需要计算均值，前面特别强调了，协方差矩阵是计算不同维度之间的协方差，要时刻牢记这一点。样本矩阵的每行是一个样本，每列是一个维度，因此我们要按列计算均值。为了描述方便，我们先将三个维度的数据分别赋值：

图 2 将三个维度的数据分别赋值

计算dim1与dim2，dim1与dim3，dim2与dim3的协方差：

图 3 计算三个协方差

协方差矩阵的对角线上的元素就是各个维度的方差，下面我们依次计算这些方差：

图 4 计算对角线上的方差

这样，我们就得到了计算协方差矩阵所需要的所有数据，可以调用Matlab的cov函数直接得到协方差矩阵：

图 5 使用Matlab的cov函数直接计算样本的协方差矩阵

计算的结果，和之前的数据填入矩阵后的结果完全相同。

五、总结

理解协方差矩阵的关键就在于牢记它的计算是不同维度之间的协方差，而不是不同样本之间。拿到一个样本矩阵，最先要明确的就是一行是一个样本还是一个维度，心中明确整个计算过程就会顺流而下，这么一来就不会迷茫了。

原文地址：

http://pinkyjie.com/2010/08/31/covariance/

分类: 数学

已推荐已关注收藏该文

ChaoSimple
关注 - 3
粉丝 - 134

我在关注他取消关注

5

0

您已推荐过，取消

«上一篇：特征值和特征向量的几何意义、计算及其性质
 »下一篇：图像识别技术——验证码识别

posted @ 2013-07-10 14:45 ChaoSimple 阅读(30872) 评论(5) 编辑收藏

时间： 2024-12-21 14:47:14

[转]浅谈协方差矩阵（牢记它的计算是不同维度之间的协方差，而不是不同样本之间。）的相关文章

[转]浅谈协方差矩阵

转自http://www.cnblogs.com/chaosimple/p/3182157.html 一.统计学的基本概念统计学里最基本的概念就是样本的均值.方差.标准差.首先,我们给定一个含有n个样本的集合,下面给出这些概念的公式描述: 均值: 标准差: 方差: 均值描述的是样本集合的中间点,它告诉我们的信息是有限的,而标准差给我们描述的是样本集合的各个样本点到均值的距离之平均. 以这两个集合为例,[0, 8, 12, 20]和[8, 9, 11, 12],两个集合的均值都是10,但显然两个

浅谈协方差矩阵理解篇

学过概率统计的孩子都知道,统计里最基本的概念就是样本的均值,方差,或者再加个标准差.首先我们给你一个含有n个样本的集合X={X1,-,Xn}X={X1,-,Xn},依次给出这些概念的公式描述,这些高中学过数学的孩子都应该知道吧,一带而过. 很显然,均值描述的是样本集合的中间点,它告诉我们的信息是很有限的,而标准差给我们描述的则是样本集合的各个样本点到均值的距离之平均.以这两个集合为例,[0,8,12,20]和[8,9,11,12],两个集合的均值都是10,但显然两个集合差别是很大的,计算两者的标

图像处理之基础---浅谈协方差矩阵

一.统计学的基本概念统计学里最基本的概念就是样本的均值.方差.标准差.首先,我们给定一个含有n个样本的集合,下面给出这些概念的公式描述: 均值: 标准差: 方差: 均值描述的是样本集合的中间点,它告诉我们的信息是有限的,而标准差给我们描述的是样本集合的各个样本点到均值的距离之平均. 以这两个集合为例,[0, 8, 12, 20]和[8, 9, 11, 12],两个集合的均值都是10,但显然两个集合的差别是很大的,计算两者的标准差,前者是8.3后者是1.8,显然后者较为集中,故其标准差小一些,标

浅谈协方差矩阵

今天看论文的时候又看到了协方差矩阵这个破东西,以前看模式分类的时候就特困扰,没想到现在还是搞不清楚,索性开始查协方差矩阵的资料,恶补之后决定马上记录下来,嘿嘿~本文我将用自认为循序渐进的方式谈谈协方差矩阵. 统计学的基本概念学过概率统计的孩子都知道,统计里最基本的概念就是样本的均值,方差,或者再加个标准差.首先我们给你一个含有n个样本的集合X={X1,…,Xn},依次给出这些概念的公式描述,这些高中学过数学的孩子都应该知道吧,一带而过. 均值: 标准差: 方差: 很显然,均值描述的是样本集合的

Stat1—浅谈协方差矩阵

今天看论文的时候又看到了协方差矩阵这个破东西,以前看模式分类的时候就特困扰,没想到现在还是搞不清楚,索性开始查协方差矩阵的资料,恶补之后决定马上记录下来,嘿嘿~本文我将用自认为循序渐进的方式谈谈协方差矩阵. 统计学的基本概念学过概率统计的孩子都知道,统计里最基本的概念就是样本的均值,方差,或者再加个标准差.首先我们给你一个含有n个样本的集合X={X1,…,Xn},依次给出这些概念的公式描述,这些高中学过数学的孩子都应该知道吧,一带而过. 均值: 标准差: 方差: 很显然,均值描述的是样本集合的

浅谈几种搭建科学计算环境的linux工具

现在做科学计算相关的工具有很多.除了大多数时候用在超算上的module环境管理之外,也有很多有趣的软件.而且并不是所有人所有时候都可以使用超算,超算也并不是科学计算的唯一硬件解决方案.我写这个文章之前,尝试管理我们组的服务器环境有一年的时间了,其中run过4,5个不同的模式,也算是在搭建环境上有点心得,正好今天总结分享下. 一开始我在搭建环境的时候,就是简单的有pre-build包就直接安装,没有就源代码编译,走的耿直路线,但是很快就发现,随着服务器库环境的逐渐复杂,这样的作法会使得整个环境变量

再谈协方差矩阵之主成分分析

再谈协方差矩阵之主成分分析自从上次谈了协方差矩阵之后,感觉写这种科普性文章还不错,那我就再谈一把协方差矩阵吧.上次那篇文章在理论层次介绍了下协方差矩阵,没准很多人觉得这东西用处不大,其实协方差矩阵在好多学科里都有很重要的作用,比如多维的正态分布,再比如今天我们今天的主角——主成分分析(Principal Component Analysis,简称PCA).结合PCA相信能对协方差矩阵有个更深入的认识~ PCA的缘起 PCA大概是198x年提出来的吧,简单的说,它是一种通用的降维工具.在我们处理

[nRF51822] 14、浅谈蓝牙低功耗(BLE)的几种常见的应用场景及架构（科普类干货）

蓝牙在短距离无线通信领域占据举足轻重的地位—— 从手机.平板.PC到车载设备, 到耳机.游戏手柄.音响.电视, 再到手环.电子秤.智能医疗器械(血糖仪.数字血压计.血气计.数字脉搏/心率监视器.数字体温计.耳温枪.皮肤水分计等), 再到智能家居等领域均占有一席之地. 而蓝牙低功耗(BLE)是在蓝牙4.0协议上修改以适用低功耗应用场景的一种蓝牙协议. 随着上一股智能消费类电子大潮的到来,BLE的各种应用也像雨后春笋般在市场上铺开. 如果想紧跟蓝牙协议的最新动态 ,可以在https://www.b

浅谈CSS优先级机制（一）

初次写随笔,如果有哪个地方不足还望大神指点改正,下面我来谈谈我对于CSS优先级的了解吧. CSS优先级,通俗的理解就是你给元素等一堆属性描述,然后最后到底是哪个描述作为最终显示的效果的规则或机制(个人理解).以下我将分为几个点来谈谈优先级的确定. 1.引入方式: CSS引入的方式,我目前只知道四种:内联式.内嵌式.导入式.链接式(当然网上的说法名称不一,理解就好). 各种引入方式的用法我在这里就不再多说了.以上我所按顺序罗列的四个方式是理论上的优先级顺序,也就是说,我使用内联式引入的css代码作

猜你喜欢

程序员取悦女朋友的正确姿势---Tips（iOS美容篇）

前言女孩子都喜欢用美图工具进行图片美容,近来无事时,特意为某人写了个自定义图片滤镜生成器,安装到手机即可完成自定义滤镜渲染照片.app独一无二,虽简亦繁. JH定律:魔镜:最漂亮的女人是你老婆魔镜: ...

LYDSY模拟赛day2 Market

/* orz claris,这个题的解法非常巧妙,首先是时间问题,其实这个问题只要离线处理一下就可以了,把物品和询问都按照时间排序,然后看一下能不能满足.然后,因为容量<=10^9,显然是不可能 ...

通过浏览器链接启动本地 Activity

首先做成HTML的页面,页面内容格式如下: <a href="[scheme]://[host]/[path]?[query]">启动应用程序</a> 这一 ...

poj2826（线段相交）

传送门:An Easy Problem?! 题意:用两条线段接雨水,雨水是垂直落下的,问我们用给定的两条线段能接到多少水. 分析:看起来很简单,写起来略麻烦,先排除不能接到水的情况: 1. 两条线段不 ...

Oracle Sequence中Cache与NoCache的区别；合适使用

Oracle在创建序列(sequence)时有个参数你可以选择cache或者nocache,下面来讲一下两者的区别: 先来看下创建sequence的语句: create sequence SEQ_ID ...

51系列小型操作系统精髓简单实现7 C语言版待改进

#include "STC12C5A.H" #define TIMER_RELOAD() {TL0=0x00;TH0=0xC4;}//使能T/C 初始10ms #define ...

poj 1106 Transmitters

题意:给定一个点的坐标和一个圆半径,一个整数n,然后n个点坐标,求以给定点所在半圆能包含的最多点的个数: 思路:枚举半圆直径边界,统计该边界一侧的包含点数,更新最大值: 技巧:使用叉积,能方便的判断两 ...

vlc源码分析（七）调试学习HLS协议

HTTP Live Streaming(HLS)是苹果公司提出来的流媒体传输协议.与RTP协议不同的是,HLS可以穿透某些允许HTTP协议通过的防火墙. 一.HLS播放模式 (1) 点播模式(Vide ...

05 DDMS中logcat的使用

DDMS的全称: Dalvik Debug Monitor Service.Dalvik调试监控服务 DDMS在IDE与设备或模拟器之间起着中间人的角色. DDMS的作用: 后台日志监控: 系统线程监 ...

构建之法---初识篇（软件工程和个人测试）

这周学习了构建之法的前两章的内容,关于软件工程的介绍以及关于个人测试的重要性. 首先说一下软件工程,一开始觉得软件工程是一个很庞大的任务,在做一个项目的时候,像我们这种小白,心里面还是尽力的想要避开软 ...

3. 忽略大小写的字符串比较

import java.util.*; public class Login { /** * 登录 * */ public static void main(String[] args) { Scan ...

Android 混淆[学习笔记]

Android 混淆 Gradle的简介: http://www.flysnow.org/2015/03/30/manage-your-android-project-with-gradle.html ...

认识java中的堆和栈

栈与堆都是Java用来在Ram中存放数据的地方.与C++不同,Java自动管理栈和堆,程序员不能直接地设置栈或堆. Java的堆是一个运行时数据区,类的对象从中分配空间.这些对象通过new.n ...

（转）php简单工厂模式实例讲解

简单工厂模式:①抽象基类:类中定义抽象一些方法,用以在子类中实现②继承自抽象基类的子类:实现基类中的抽象方法③工厂类:用以实例化对象看完文章再回头来看下这张图,效果会比较好采用封装方式 <? ...

ASP.NET优化性能方法之一禁用调试模式（转）

若要设置 ASP.NET 应用程序的调试模式,必须编辑应用程序的 Web.config 配置文件. 通常,ASP.NET 应用程序的 Web.config 文件与应用程序位于相同的 URL 位置上. ...

从菜鸟到架构师（二）

时间如梭,在经历短暂的国庆休整之后,我踏上了我的大学之路. 记得那是金秋的一个上午,我坐着我干爹的车,来到了位于成都彭州市的西华大学应用技术学院.踏入大学校园的那一刻,我停止了呼吸,心里想着:这就是大 ...

再叙AngularJS

上一篇讲到AngularJS是在三月17号,已经过去整整3个月. 当时我也只是AngularJS的入门程序员,文章涉及的内容也只是针对框架的特性和Backbone进行简单的对比. 在当时,我正在进行内 ...

单点登录实现----CAS（一）

最近我们部门交接了一个新项目--- passport,即我司的单点登录系统,虽然没有交接给我,但是个人觉得登录技术是个很好的知识,于是就忙里偷闲简单地学习了下. 单点登录SSO(single sign ...

javascript 闭包笔记

先来解释一下闭包: 1.闭包就是函数嵌套函数 2.内部函数可以引用外部函数的参数和变量 3.参数和变量不会被垃圾回收机制所收回( 垃圾回收机制就是用完变量之后就在内存中释放 ) 使用闭包的好处: 1. ...

(转)解决ScrollView嵌套ListView或者GridView导致只显示一行的方法

即动态获取ListView和GridView的高度一.对于ListView ListView listview= new ListView(this); setListViewHeightBased ...

专题

随机推荐

© 2024 憋错料 | info#biecuoliao.com | 10 q. 0.021 s.