主成份分析(Principal Components Analysis)

因子分析是基于概率模型的基础上,利用EM算法的迭代,对参数进行估计。主成份分析(Principal Components Analysis, PCA)仅仅通过的线性变幻,用少数几个主分量来近似的表示所有的变量,以达到降低维度的目的。

一、  规范化(normalize)

规范化的目的是将不同尺度的数据化为同一尺度。规范化的步骤如下:

(1)令

(2)将所有替换为

(3)令

(4)将所有替换为

其中,步骤(1)和步骤(2)将数据的均值转换为零;步骤(3)和步骤(4)使得数据都为单位方差,使得不同属性的数据视为同一规格。

步骤(3)(4)并不是必要步骤,执行与不执行步骤(3)(4)得出的结果可能不尽相同。Andrew Ng认为,如果我们在特定属性的尺度划分上有着明确的先验知识,那么,就无需进行步骤(3)(4),如:灰度图像的每个像素都是用集合{0,1,…,255}中的元素表示。

二、  示例

为了直观的理解主成份分析,我们以二维数据为例。假设图1述数据是已进行规范化后的数据:

图1

假设我们将数据投影到直线(如图2所示),可以看出原始点投影到上的点具有较大的方差。

图2

假设我们将数据投影到直线(如图3所示),可以看出原始点投影到上的点具有较小的方差。

图3

因此在直线方向变异很大,而在直线方向变异很小。可以形象的认为图2像一块被压扁的近似直线的平面,其宽度很小,可以近似忽略。因此能够比较好的代表原始点的趋势。

三、  算法

主成份分析目的就是使得数据点在特定的向量上的投影方差最大。而我们就是要求出这个向量。

假设各样本已经进行了规范化,并且均值为零,且有单位向量u,点x在u上的投影可以表示成。那么我们需要使在各点x在u上投影的方程最大:

其中,为样本的协方差。换个角度,我们也可以把该问题看作是下列优化问题:

生成拉格朗日算子:

的偏导:

从上式可以看出,其实质就是要求出协方差矩阵的特征值。又由于协方差矩阵是正定的,因此其有n个特征值,经过从大到小排序,有。如果特征值为0,则说明在对应的分量在统计中不必讨论。而如果特征值很小,他的影响可以忽略不记。求出特征值后,与特征值相对应的特征向量就可求出。

下面引入累计贡献率

设协方差矩阵具有n个排序后的特征值,即
,则称为第i个主成份的贡献率,称是前k个主成份的累计贡献率,累计贡献率表示这k个主成份能够多大程度上代表原始数据。对应的向量称为前k个主成份。我们通过设定累计贡献率的阈值来确定主成份的数量。

当确定k的值以后,可以通过对x的线性变幻求出新的向量y,y的维度为k,低于x的维度n。

四、  应用

主成份分析主要有一下三种作用:

(1)   数据压缩

将高维的数据压缩至二维或三维,可以将数据进行可视化表达,帮助数据的使用者更加清晰直观的把握数据所反映的特征和规律。

(2)   降维

当数据的维度很大时,对高维数据的计算可能会耗费大量的计算资源,通过PCA可以降低计算的复杂性避免过拟合现象的发生。

(3)   降噪

PCA也可以看作是降噪算法:通过PCA,可以找到能够代表一个总体的主要特征,而避免无关紧要数据的干扰。

五、  总结

主成份分析就是求出原始数据矩阵的协方差矩阵对应的特征值和特征向量,对特征值进行由大而小的排序,再根据特征值对应的特征向量进行线性变换,得到新的向量(新的向量间相互正交)。通过设定阈值可以用低维的新向量近似表示高维的原向量(协方差矩阵为非奇异的);若协方差矩阵为奇异的,且零特征值较多,这种情况使用低维的新向量也可以完全表示高维原向量。

时间: 2024-12-24 03:27:08

主成份分析(Principal Components Analysis)的相关文章

机器学习:Principal components analysis (主分量分析)

Principal components analysis 这一讲,我们简单介绍Principal Components Analysis(PCA),这个方法可以用来确定特征空间的子空间,用一种更加紧凑的方式(更少的维数)来表示原来的特征空间.假设我们有一组训练集{x(i);i=1,...m},含有m个训练样本,每一个训练样本x(i)∈Rn,其中(n?m),每一个n维的训练 样本意味着有n个属性,一般来说,这n个属性里面,会有很多是存在一定相关性的,也就是很多属性是冗余的,这就为特征的降维提供了

stata学习笔记(四):主成份分析与因子分析

1.判断是否适合做主成份分析,变量标准化 Kaiser-Meyer-Olkin抽样充分性测度也是用于测量变量之间相关关系的强弱的重要指标,是通过比较两个变量的相关系数与偏相关系数得到的. KMO介于0于1之间.KMO越高,表明变量的共性越强.如果偏相关系数相对于相关系数比较高,则KMO比较低,主成分分析不能起到很好的数据约化效果. 根据Kaiser(1974),一般的判断标准如下: 0.00-0.49,不能接受(unacceptable); 0.50-0.59,非常差(miserable): 0

A tutorial on Principal Components Analysis | 主成分分析(PCA)教程

A tutorial on Principal Components Analysis 原著:Lindsay I Smith, A tutorial on Principal Components Analysis, February 26, 2002. 翻译:houchaoqun.时间:2017/01/18.出处:http://blog.csdn.net/houchaoqun_xmu  |  http://blog.csdn.net/Houchaoqun_XMU/article/details

Stat2—主成分分析(Principal components analysis)

最近在猛撸<R in nutshell>这本课,统计部分涉及的第一个分析数据的方法便是PCA!因此,今天打算好好梳理一下,涉及主城分析法的理论以及R实现!come on-gogogo- 首先说一个题外话,记得TED上有一期,一个叫Simon Sinek的年轻人提出了一个全新的Why-How-What黄金圈理论(三个同心圆,最里面的一个是Why,中间一层是How,最外面一层是What:一般人的思维习惯是从里面的圆逐渐推到外面,而创造了伟大作品.引领了伟大运动的人们,其思维习惯则恰恰相反,逆向思维

图像识别概念入门之“基于主成份分析的人脸识别学习”

最近看到一篇介绍利用“主成份分析实现人脸识别”的matlab应用实例. 学习了一遍,对主成份分析和图像识别有了一个概念性的认识. 这个例子可能是最简单的人脸识别例子了,暂且不考虑实用性,单单起到认识和了解. 下面matlab程序进行学习注释,希望能帮助记忆.同时加强交流. 程序使用的人脸库来自Essex大学的人脸数据库的face94部分.选择了10个人,每人选择3张照片.1张放入测试集合. 2张放入训练集合.照片比较理想化,绿色背景的大头照片,表情略有不同,光照均匀. 程序的链接如下: http

主成分分析(principal components analysis, PCA)

原理 计算方法 主要性质 有关统计量 主成分个数的选取 ------------------------------------------------------------------------------------------------------------------------ http://my.oschina.net/gujianhan/blog/225241 ---------------------------------------------------------

【转载】主成分分析(Principal components analysis)-最小平方误差解释

主成分分析(Principal components analysis)-最小平方误差解释 接上篇 3.2 最小平方误差理论 假设有这样的二维样本点(红色点),回顾我们前面探讨的是求一条直线,使得样本点投影到直线上的点的方差最大.本质是求直线,那么度量直线求的好不好,不仅仅只有方差最大化的方法.再回想我们最开始学习的线性回归等,目的也是求一个线性函数使得直线能够最佳拟合样本点,那么我们能不能认为最佳的直线就是回归后的直线呢?回归时我们的最小二乘法度量的是样本点到直线的坐标轴距离.比如这个问题中,

Andrew Ng机器学习公开课笔记&ndash;Principal Components Analysis (PCA)

网易公开课,第14课 notes,10 之前谈到的factor analysis,用EM算法找到潜在的因子变量,以达到降维的目的 这里介绍的是另外一种降维的方法,Principal Components Analysis (PCA), 比Factor Analysis更为直接,计算也简单些 主成分分析基于, 在现实中,对于高维的数据,其中有很多维都是扰动噪音,或有些维是冗余的,对描述数据特征没有作用 比如我们在描述汽车速度的时候,用不同的单位mph or kph作为两维,其实只需要其中一维即可

[zz] Principal Components Analysis (PCA) 主成分分析

http://matlabdatamining.blogspot.com/2010/02/principal-components-analysis.html 英文Principal Components Analysis的博客,写的挺好,担心以后打不开,全文转载. Principal Components Analysis Introduction Real-world data sets usually exhibit relationships among their variables.