[转]浅谈协方差矩阵

转自http://www.cnblogs.com/chaosimple/p/3182157.html

一、统计学的基本概念

统计学里最基本的概念就是样本的均值、方差、标准差。首先，我们给定一个含有n个样本的集合，下面给出这些概念的公式描述：

均值：

标准差：

方差：

均值描述的是样本集合的中间点，它告诉我们的信息是有限的，而标准差给我们描述的是样本集合的各个样本点到均值的距离之平均。

以这两个集合为例，[0, 8, 12, 20]和[8, 9, 11, 12]，两个集合的均值都是10，但显然两个集合的差别是很大的，计算两者的标准差，前者是8.3后者是1.8，显然后者较为集中，故其标准差小一些，标准差描述的就是这种“散布度”。之所以除以n-1而不是n，是因为这样能使我们以较小的样本集更好地逼近总体的标准差，即统计上所谓的“无偏估计”。而方差则仅仅是标准差的平方。

二、为什么需要协方差

标准差和方差一般是用来描述一维数据的，但现实生活中我们常常会遇到含有多维数据的数据集，最简单的是大家上学时免不了要统计多个学科的考试成绩。面对这样的数据集，我们当然可以按照每一维独立的计算其方差，但是通常我们还想了解更多，比如，一个男孩子的猥琐程度跟他受女孩子的欢迎程度是否存在一些联系。协方差就是这样一种用来度量两个随机变量关系的统计量，我们可以仿照方差的定义：

来度量各个维度偏离其均值的程度，协方差可以这样来定义：

协方差的结果有什么意义呢？如果结果为正值，则说明两者是正相关的（从协方差可以引出“相关系数”的定义），也就是说一个人越猥琐越受女孩欢迎。如果结果为负值，就说明两者是负相关，越猥琐女孩子越讨厌。如果为0，则两者之间没有关系，猥琐不猥琐和女孩子喜不喜欢之间没有关联，就是统计上说的“相互独立”。

从协方差的定义上我们也可以看出一些显而易见的性质，如：

三、协方差矩阵

前面提到的猥琐和受欢迎的问题是典型的二维问题，而协方差也只能处理二维问题，那维数多了自然就需要计算多个协方差，比如n维的数据集就需要计算个协方差，那自然而然我们会想到使用矩阵来组织这些数据。给出协方差矩阵的定义：

这个定义还是很容易理解的，我们可以举一个三维的例子，假设数据集有三个维度，则协方差矩阵为：

可见，协方差矩阵是一个对称的矩阵，而且对角线是各个维度的方差。

四、Matlab协方差实战

必须要明确一点，协方差矩阵计算的是不同维度之间的协方差，而不是不同样本之间的。以下的演示将使用Matlab，为了说明计算原理，不直接调用Matlab的cov函数：

首先，随机生成一个10*3维的整数矩阵作为样本集，10为样本的个数，3为样本的维数。

图 1 使用Matlab生成样本集

根据公式，计算协方差需要计算均值，前面特别强调了，协方差矩阵是计算不同维度之间的协方差，要时刻牢记这一点。样本矩阵的每行是一个样本，每列是一个维度，因此我们要按列计算均值。为了描述方便，我们先将三个维度的数据分别赋值：

图 2 将三个维度的数据分别赋值

计算dim1与dim2，dim1与dim3，dim2与dim3的协方差：

图 3 计算三个协方差

协方差矩阵的对角线上的元素就是各个维度的方差，下面我们依次计算这些方差：

图 4 计算对角线上的方差

这样，我们就得到了计算协方差矩阵所需要的所有数据，可以调用Matlab的cov函数直接得到协方差矩阵：

图 5 使用Matlab的cov函数直接计算样本的协方差矩阵

计算的结果，和之前的数据填入矩阵后的结果完全相同。

五、总结

理解协方差矩阵的关键就在于牢记它的计算是不同维度之间的协方差，而不是不同样本之间。拿到一个样本矩阵，最先要明确的就是一行是一个样本还是一个维度，心中明确整个计算过程就会顺流而下，这么一来就不会迷茫了。

时间： 2024-10-10 04:30:15

[转]浅谈协方差矩阵的相关文章

[转]浅谈协方差矩阵（牢记它的计算是不同维度之间的协方差，而不是不同样本之间。）

注意:方差就是方差:方差的平方就是方差的平方.有的时候以为方差就是方差的平方. cov11 = sum((dim1-mean(dim1)).*(dim1-mean(dim1)))/(size(MySample,1)-1) cov11 = 296.7222 >> std(dim1) ans = 17.2256 >> std(dim1).^2 ans = 296.7222 一.统计学的基本概念统计学里最基本的概念就是样本的均值.方差.标准差.首先,我们给定一个含有n个样本的集合,下面

浅谈协方差矩阵理解篇

学过概率统计的孩子都知道,统计里最基本的概念就是样本的均值,方差,或者再加个标准差.首先我们给你一个含有n个样本的集合X={X1,-,Xn}X={X1,-,Xn},依次给出这些概念的公式描述,这些高中学过数学的孩子都应该知道吧,一带而过. 很显然,均值描述的是样本集合的中间点,它告诉我们的信息是很有限的,而标准差给我们描述的则是样本集合的各个样本点到均值的距离之平均.以这两个集合为例,[0,8,12,20]和[8,9,11,12],两个集合的均值都是10,但显然两个集合差别是很大的,计算两者的标

图像处理之基础---浅谈协方差矩阵

一.统计学的基本概念统计学里最基本的概念就是样本的均值.方差.标准差.首先,我们给定一个含有n个样本的集合,下面给出这些概念的公式描述: 均值: 标准差: 方差: 均值描述的是样本集合的中间点,它告诉我们的信息是有限的,而标准差给我们描述的是样本集合的各个样本点到均值的距离之平均. 以这两个集合为例,[0, 8, 12, 20]和[8, 9, 11, 12],两个集合的均值都是10,但显然两个集合的差别是很大的,计算两者的标准差,前者是8.3后者是1.8,显然后者较为集中,故其标准差小一些,标

浅谈协方差矩阵

今天看论文的时候又看到了协方差矩阵这个破东西,以前看模式分类的时候就特困扰,没想到现在还是搞不清楚,索性开始查协方差矩阵的资料,恶补之后决定马上记录下来,嘿嘿~本文我将用自认为循序渐进的方式谈谈协方差矩阵. 统计学的基本概念学过概率统计的孩子都知道,统计里最基本的概念就是样本的均值,方差,或者再加个标准差.首先我们给你一个含有n个样本的集合X={X1,…,Xn},依次给出这些概念的公式描述,这些高中学过数学的孩子都应该知道吧,一带而过. 均值: 标准差: 方差: 很显然,均值描述的是样本集合的

Stat1—浅谈协方差矩阵

今天看论文的时候又看到了协方差矩阵这个破东西,以前看模式分类的时候就特困扰,没想到现在还是搞不清楚,索性开始查协方差矩阵的资料,恶补之后决定马上记录下来,嘿嘿~本文我将用自认为循序渐进的方式谈谈协方差矩阵. 统计学的基本概念学过概率统计的孩子都知道,统计里最基本的概念就是样本的均值,方差,或者再加个标准差.首先我们给你一个含有n个样本的集合X={X1,…,Xn},依次给出这些概念的公式描述,这些高中学过数学的孩子都应该知道吧,一带而过. 均值: 标准差: 方差: 很显然,均值描述的是样本集合的

再谈协方差矩阵之主成分分析

再谈协方差矩阵之主成分分析自从上次谈了协方差矩阵之后,感觉写这种科普性文章还不错,那我就再谈一把协方差矩阵吧.上次那篇文章在理论层次介绍了下协方差矩阵,没准很多人觉得这东西用处不大,其实协方差矩阵在好多学科里都有很重要的作用,比如多维的正态分布,再比如今天我们今天的主角——主成分分析(Principal Component Analysis,简称PCA).结合PCA相信能对协方差矩阵有个更深入的认识~ PCA的缘起 PCA大概是198x年提出来的吧,简单的说,它是一种通用的降维工具.在我们处理

.net中对象序列化技术浅谈

.net中对象序列化技术浅谈 2009-03-11 阅读2756评论2 序列化是将对象状态转换为可保持或传输的格式的过程.与序列化相对的是反序列化,它将流转换为对象.这两个过程结合起来,可以轻松地存储和传输数据.例如,可以序列化一个对象,然后使用 HTTP 通过 Internet 在客户端和服务器之间传输该对象.反之,反序列化根据流重新构造对象.此外还可以将对象序列化后保存到本地,再次运行的时候可以从本地文件中“恢复”对象到序列化之前的状态.在.net中有提供了几种序列化的方式:二进制序列化

浅谈——页面静态化

现在互联网发展越来越迅速,对网站的性能要求越来越高,也就是如何应对高并发量.像12306需要应付上亿人同时来抢票,淘宝双十一--所以,如何提高网站的性能,是做网站都需要考虑的. 首先网站性能优化的方面有很多:1,使用缓存,最传统的一级二级缓存:2,将服务和数据库分开,使用不同的服务器,分工更加明确,效率更加高:3,分布式,提供多台服务器,利用反向代理服务器nginx进行反向代理,将请求分散开来:4,数据库的读写分离,不同的数据库,将读操作和写操作分开,并实时同步即可:5,分布式缓存,使用memc

单页应用SEO浅谈

单页应用SEO浅谈前言单页应用(Single Page Application)越来越受web开发者欢迎,单页应用的体验可以模拟原生应用,一次开发,多端兼容.单页应用并不是一个全新发明的技术,而是随着互联网的发展,满足用户体验的一种综合技术. SEO 一直以来,搜索引擎优化(SEO)是开发者容易忽略的部分.SEO是针对搜索(Google.百度.雅虎搜索等)在技术细节上的优化,例如语义.搜索关键词与内容相关性.收录量.搜索排名等.SEO也是同行.市场竞争常用的的营销手段.Google.百度的搜

猜你喜欢

sql查询练习

先创建三个表,分别为student,course,SC(即学生表,课程表,选课表) 分别输入以下信息: student表: course表: sc表: ------------------------ ...

Weblogic+apache多虚拟主机

p.MsoNormal,li.MsoNormal,div.MsoNormal { margin: 0cm; margin-bottom: .0001pt; text-align: justify; f ...

bootstrap精简教程

bootstrap 的学习非常简单,并且它所提供的样式又非常精美.只要稍微简单的学习就可以制作出漂亮的页面. bootstrap中文网:http://v3.bootcss.com/ bootstrap ...

Android发现分区不断增加，但文件的大小什么的没增加原因查找

文件管理器查看磁盘大小或者df命令发现sdcard空间不断不断增加 du命令发现文件大小等没增加 Linux du与df命令的差异今天上午查看磁盘空间,df命令查看的时候:93%,du命令查看的时候 ...

Android从零开始--安装

1.下载安装eclipse.adt和Android sdk(以前一直以为Android使用的sdk也是java jdk呢,呵呵) 2.都安装完成后配置eclipse的Android的环境,将Andro ...

Lightoj 1348 Aladdin and the Return Journey (树链剖分)（线段树单点修改区间求和）

Finally the Great Magical Lamp was in Aladdin's hand. Now he wanted to return home. But he didn't wa ...

android sqlite，大数据处理、同时读写

1. 批量写入,采用事物方式,先缓存数据,再批量写入数据,极大提高了速度 288条,直接inset into 耗时7秒 8640条, 批量写入耗时5-7秒 [java] view pl ...

instanceof操作符

instanceof 用法result = 对象名称 instanceof 类型参数:result:布尔类型.对象名称:必选项,任意对象表达式.类型:必选项,任意已定义的类,可以是API中的类,可以是 ...

jQuery map vs. each作者该解法对吗？

In jQuery, the map and each functions seem to do the same thing. Are there any practical differences ...

最新一代企业管理软件功能介绍

Saaii商翼ERC企业管理系统功能介绍一.操作界面商翼ERC企业管理系统一改传统管理软件的"7"字形框架布局,采用了全新的Windows平台界面和个性化工作图标的直观的设计风 ...

Mysql 一般备份脚本

cat mysql_backup.sql #!/bin/sh . /etc/profile cd /home/mysql/backup exe=/usr/local/mysql/bin/mysqldu ...

PHP采集程序大全

在论坛好久了没有怎么正式的发表过东西,今天给大家共享一下我的采集代码! 思路: 采集程序的思路很简单大体可以分为以下几个步骤: 1.获取远程文件源代码(file_get_contents或用fopen ...

从零开始理解JAVA事件处理机制（2）

第一节中的示例过于简单<从零开始理解JAVA事件处理机制(1)>,简单到让大家觉得这样的代码简直毫无用处.但是没办法,我们要继续写这毫无用处的代码,然后引出下一阶段真正有益的代码. 一:事 ...

数据库面试宝典

一.数据库问答题1. SQL语言包括哪些类型?数据定义:Create Table,Alter Table,Drop Table, Craete/Drop Index等数据操纵:Select ,inse ...

改善JAVA代码01：考虑静态工厂方法代替构造器

前言系列文章:[传送门] 每次开始新的一本书,我都会很开心.新书新心情. 正文静态工厂方法代替构造器说起这个,好多可以念叨的.做了一年多的项目,慢慢也有感触. 说起构造器大家很明白,构造器 ...

移动的远程调试工具

最近从3月份开始做了三个移动端的app,主要采取的是hybird的开发方式. 开发工具用:android studio.android studio是一款很强大的开发工具和webstorm同属idea ...

js设置百分比保留两位小数

CreateTime--2017年8月23日11:03:31Author:Marydon 错误用法: var percent = (num1/num2) * 100%; 正确用法: var perce ...

浏览器中beforeunload的使用

打开一些慢的网站的时候只见浏览器在不停转圈,但是页面还停留在当前页面的,有些网站的效果是你点击链接要跳到另一个页面的时候,在当前页面弹出一个框提示“正在加载中....”, 用到了浏览器的beforeu ...

计算机程序的思维逻辑 (95) - Java 8的日期和时间API

?本节继续探讨Java 8的新特性,主要是介绍Java 8对日期和时间API的增强,关于日期和时间,我们在之前已经介绍过两节了,32节介绍了Java 1.8以前的日期和时间API,主要的类是Date和 ...

IOS开源轮播组件 BannerScrollViewMasonry.h

近来工作有点空闲时间,写下经常用到一个组件(广告Banner),项目中经常用到. 先简单说一下这个组件的功能. 1,支持无限循环滚动(原理嘛,应该大伙都知道) 2,支持本地图片.远程图片 2,支持更换 ...

专题

随机推荐

© 2024 憋错料 | info#biecuoliao.com | 10 q. 0.021 s.