PCA原理分析

动机

在机器学习领域中,我们常常会遇到维数很高的数据,有些数据的特征维度高达上百万维,很显然这样的数据是无法直接计算的,而且维度这么高,其中包含的信息一定有冗余,这时就需要进行降维,总的来说,我们降维的主要目的有如下几条:

  1. 在原始的高维空间中,包含有冗余信息以及噪音信息,在实际应用例如图像识别中造成了误差,降低了准确率;而通过降维,我们希望减少冗余信息所造成的误差,提高识别(或其他应用)的精度。
  2. 希望通过降维算法来寻找数据内部的本质结构特征。
  3. 通过降维来加速后续计算的速度
  4. 还有其他很多目的,如解决数据的sparse问题

而比较常用的一种降维方法就是PCA(主成分分析).

PCA思路

降维的过程其实可以看成是一种映射的过程,把在高维空间中的点投影到低维空间中,在这个投影的过程中,我们应当尽量使得信息最大程度的保留。那么,我们应该如何来度量包含信息的多少呢?一种比较常见的方法就是用方差(Variance)来衡量。这在直观上很容易理解,对于数据的一个维度来说,如果这个维度上的数据具有很大的方差,说明这个维度对于数据来说有很大的差异性,其中包含了更多的信息。

另外,如果两个维度之间是无关的,那么这两个维度所包含的信息是没有”重叠”部分的,这种情况包含的信息是最多的;反过来说,如果两个维度是高度相关的,从一个维度就能推出另外一个维度,那么很显然,这两个相关的维度其实最多只包含了一个维度的信息,这就造成了冗余。那么,我们又应该用什么来衡量两个维度之间的相似程度呢?在数学上,我们可以使用协方差(Covariance)来衡量两个随机变亮之间的相似程度,因此我们可以利用协方差来衡量维度之间的相似程度。协方差为0时,说明两个随机变量是完全无关的。

因此,PCA的基本思想是这样的:

将高维空间中的点投影(线性映射)到某个低维空间中间,使得投影之后的点:

  1. 每一个维度内部的方差尽量大.
  2. 维度之间的协方差为0,也即每一个维度两两正交。

假设我们现在有的数据,其中表示数据的大小,表示维度的大小。

对于维度来说,它的方差为:

上式中的其实是维度的均值.

对于维度,来说,他们之间的协方差为:

上式中的其实是维度的均值.

如果光看上述的式子,也许会觉得计算的 每一个维度的方差和协方差是非常麻烦的,其实不然,我们可以利用矩阵运算来简化我们的计算过程。

首先,我们注意到不管在计算方差还是协方差的时候,我们都需要计算,因此,我们可以先对进行如下的处理:

计算每一个维度的均值,然后将每个维度上的值减去这个均值,这样就使得每个维度上的均值都变成了0.也即令.

经过这样处理之后,原来的方差和协方差就可以表示为:

这看起来还是比较繁琐,但是,事实上,根据矩阵乘法运算的规则,我们可以得到如下的等式:

可以看到,其实是一个对称矩阵,其对角线上的元素就是我们的方差,而其他元素就是对应维度之间的协方差!

这看来,计算方差和协方差是非常容易的!

,则就称为的协方差矩阵。

我们需要进一步具体化我们的优化目标,令表示经过映射之后的数据,则,假设的协方差矩阵,那么我们有如下的推导:

也就是说,我们的目标可以变得非常具体了:想要找到这样一个矩阵,使得是一个对角矩阵,其对角线元素从大到小一次排列,并且除了对角线以外的其他元素均为0.

从大到小排列是因为方便选取方差较大的维度,对角线以外的元素为0表示新数据的各个维度之间是相互无关的。

现在,我们的问题就是如何使得协方差矩阵对角化,这在数学上其实早就已经有了成熟的方法,在矩阵论中,有这样的结论:一个n行n列的实对称矩阵一定可以找到n个单位正交特征向量.

的实对称矩阵有特征向量,将其组成矩阵

则对于来说,有如下的结论:

其中是一个对角矩阵,其对角元素是个特征向量对应的特征值。

到了这里,我们就可以发现,我们想要寻找的其实就是

算法过程

根据上面的分析,我们就能够得出计算PCA时的几个步骤:

假设原始数据是,其中表示数据大小,表示维度大小。

  1. 中的数据进行零均值化,即每一列都减去其均值。
  2. 计算协方差矩阵
  3. 求出的特征值和特征向量
  4. 将特征向量按对应特征值大小从上到下按行排列成矩阵,取前k行组成矩阵P
  5. 就是降维到k维后的数据。

参考资料

http://zhouyichu.com/machine-learning/PCA-Tutorial.html

时间: 2024-10-11 17:19:36

PCA原理分析的相关文章

PCA原理(转)

PCA(Principal Component Analysis)是一种常用的数据分析方法.PCA通过线性变换将原始数据变换为一组各维度线性无关的表示,可用于提取数据的主要特征分量,常用于高维数据的降维.网上关于PCA的文章有很多,但是大多数只描述了PCA的分析过程,而没有讲述其中的原理.这篇文章的目的是介绍PCA的基本数学原理,帮助读者了解PCA的工作机制是什么. 当然我并不打算把文章写成纯数学文章,而是希望用直观和易懂的方式叙述PCA的数学原理,所以整个文章不会引入严格的数学推导.希望读者在

PCA 原理

PCA的数学原理(转) 1 年前 PCA(Principal Component Analysis)是一种常用的数据分析方法.PCA通过线性变换将原始数据变换为一组各维度线性无关的表示,可用于提取数据的主要特征分量,常用于高维数据的降维.网上关于PCA的文章有很多,但是大多数只描述了PCA的分析过程,而没有讲述其中的原理.这篇文章的目的是介绍PCA的基本数学原理,帮助读者了解PCA的工作机制是什么. 当然我并不打算把文章写成纯数学文章,而是希望用直观和易懂的方式叙述PCA的数学原理,所以整个文章

Kernel PCA 原理和演示

Kernel PCA 原理和演示 主成份(Principal Component Analysis)分析是降维(Dimension Reduction)的重要手段.每一个主成分都是数据在某一个方向上的投影,在不同的方向上这些数据方差Variance的大小由其特征值(eigenvalue)决定.一般我们会选取最大的几个特征值所在的特征向量(eigenvector),这些方向上的信息丰富,一般认为包含了更多我们所感兴趣的信息.当然,这里面有较强的假设:(1)特征根的大小决定了我们感兴趣信息的多少.即

主成分分析法PCA原理

PCA(Principal Component Analysis)是一种常用的数据分析方法.PCA通过线性变换将原始数据变换为一组各维度线性无关的表示,可用于提取数据的主要特征分量,常用于高维数据的降维.网上关于PCA的文章有很多,但是大多数只描述了PCA的分析过程,而没有讲述其中的原理.这篇文章的目的是介绍PCA的基本数学原理,帮助读者了解PCA的工作机制是什么. 当然我并不打算把文章写成纯数学文章,而是希望用直观和易懂的方式叙述PCA的数学原理,所以整个文章不会引入严格的数学推导.希望读者在

主成分分析(PCA)原理与实现

主成分分析原理与实现 ??主成分分析是一种矩阵的压缩算法,在减少矩阵维数的同时尽可能的保留原矩阵的信息,简单来说就是将 \(n×m\)的矩阵转换成\(n×k\)的矩阵,仅保留矩阵中所存在的主要特性,从而可以大大节省空间和数据量.最近课上学到这个知识,感觉很有意思,就在网上找一些博客进行学习,发现网上关于这方面的介绍很多,但是感觉都不太全面,单靠某一个介绍还是无法理解,当然这可能也跟个人基础有关.所以我在这里根据自己的理解写一个总结性的帖子,与大家分享同时也方便自己复习.对于主成分分析,可以参照以

kafka producer实例及原理分析

1.前言 首先,描述下应用场景: 假设,公司有一款游戏,需要做行为统计分析,数据的源头来自日志,由于用户行为非常多,导致日志量非常大.将日志数据插入数据库然后再进行分析,已经满足不了.最好的办法是存日志,然后通过对日志的分析,计算出有用的数据.我们采用kafka这种分布式日志系统来实现这一过程. 步骤如下: 搭建KAFKA系统运行环境 如果你还没有搭建起来,可以参考我的博客: http://zhangfengzhe.blog.51cto.com/8855103/1556650 设计数据存储格式

android脱壳之DexExtractor原理分析[zhuan]

http://www.cnblogs.com/jiaoxiake/p/6818786.html内容如下 导语: 上一篇我们分析android脱壳使用对dvmDexFileOpenPartial下断点的原理,使用这种方法脱壳的有2个缺点: 1.  需要动态调试 2.  对抗反调试方案 为了提高工作效率, 我们不希望把宝贵的时间浪费去和加固的安全工程师去做对抗.作为一个高效率的逆向分析师, 笔者是忍不了的,所以我今天给大家带来一种的新的脱壳方法——DexExtractor脱壳法. 资源地址: Dex

android脱壳之DexExtractor原理分析

导语: 上一篇我们分析android脱壳使用对dvmDexFileOpenPartial下断点的原理,使用这种方法脱壳的有2个缺点: 1.  需要动态调试 2.  对抗反调试方案 为了提高工作效率, 我们不希望把宝贵的时间浪费去和加固的安全工程师去做对抗.作为一个高效率的逆向分析师, 笔者是忍不了的,所以我今天给大家带来一种的新的脱壳方法--DexExtractor脱壳法. 资源地址: DexExtractor源码:https://github.com/bunnyblue/DexExtracto

Adaboost算法原理分析和实例+代码(简明易懂)

Adaboost算法原理分析和实例+代码(简明易懂) [尊重原创,转载请注明出处] http://blog.csdn.net/guyuealian/article/details/70995333     本人最初了解AdaBoost算法着实是花了几天时间,才明白他的基本原理.也许是自己能力有限吧,很多资料也是看得懵懵懂懂.网上找了一下关于Adaboost算法原理分析,大都是你复制我,我摘抄你,反正我也搞不清谁是原创.有些资料给出的Adaboost实例,要么是没有代码,要么省略很多步骤,让初学者