对于PCA的认识

  PCA(Principal component analysis)是一种多元统计方法。最近在研究PCA在故障检测上的运用。在这里说说我对PCA的认识。

  首先,我们需要有一组数据X,X是n行m列的数据,为了方便,我们认为数据是均值为0,方差为1的数据。其中n为样本数,m为变量。我们可以找到一个线性组合T=XP,其中T=(t1,t2,...,tm)(T为Rn*m),P=(p1,p2,...,pm)(p为Rm*m)。

其中使得 (1)ti和tj线性无关。

    (2)t1是使X一切线性组合中方差最大的,t2是使满足(1)后X一切线性组合中方差最大的。。。

    (3)ti=Xpi的系数满足piTpi=1.

其实,以上三个要求就是将原数据进行平移旋转,但是也不能随意的旋转,我们需要找个一组坐标系,使得我们的数据在这个新的坐标系上能有最清晰的反应。这个指标就是方差,我们需要找到一组使这组数据方差最大的一个坐标系,然后找到这个坐标系之后,我们选取其方向的单位向量来表示这个坐标系。

  这个新的坐标系的具体求解方法如下:

(1)将数据X中心化((x-u)/std(x)),得到新的数据仍然用X表示。

(2)计算X的协方差矩阵∑=XT*X。并对其进行特征值分解,得到特征值Λ‘,和对应的特征向量矩阵P‘。然后我们对特征值按其大小按从大到小排序,对应的特征向量也进行排序得到Λ和P,就找到满足条件的坐标系。

以上是坐标系的变换,但PCA不仅仅如此。PCA可以在一定置信度下,将高维数据用较少维数的数据表示,也就是降维的功能。下面来解释。

时间: 2024-10-04 01:46:42

对于PCA的认识的相关文章

利用Matlab实现PCA demo展示

input_data = rand(1000,3);%随机生成1000个样本,每个样本有x,y,z三个属性 figure(1); %控制画图的窗口为1 hold off; %使当前轴和图形不再具备被刷新的性质,关闭在此基础上再画图 plot3(input_data(:,1), input_data(:,2), input_data(:,3), 'ro'); %% Function PCA, input_data, out_dim % Use this to switch methods use_

主成分分析(Principal Component Analysis,PCA

主成分分析(Principal Component Analysis,PCA)是将多个变量通过线性变换以选出较少几个重要变量的多元统计分析方法. 原理:在用统计分析方法研究多变量的课题时,变量个数太多就会增加课题的复杂性.人们自然希望变量个数较少而得到的信息较多.在很多情形,变量之间是有一定的相关关系的,当两个变量之间有一定相关关系时,可以解释为这两个变量反映此课题的信息有一定的重叠.主成分分析是对于原先提出的所有变量,将重复的变量(关系紧密的变量)删去多余,建立尽可能少的新变量,使得这些新变量

[降维] PCA 主成分分析

其实早该整理一下PCA了,怎奈一直没有时间,可能是自己对时间没有把握好吧,下面进入正题. 降维的概念 所谓降维,就是降低数据的维数.在机器学习中尤其常见,之前做过对一幅图片提取小波特征,对于一幅大小为800*600的图片,如果每个点提取五个尺度.八个方向的特征,那么每一个像素点提取40个特征,那么一副图片的话就是40*800*600=19200000个特征.也就是我们用一个19200000的向量描述一幅图片.如果有m幅图片,那么特征为m*19200000的大小.显然这个维数太大了,所以需要降维.

机器学习实战精读--------主成分分析(PCA)

对数据进行简化的原因: ① 使得数据集更容易使用 ② 降低许多算法的计算开销 ③ 去除噪声 ④ 使得结果易懂 方差是衡量数据源和期望值相差的度量值. PCA:数据从原来的坐标系转换到新的坐标系,新坐标系是有数据本身决定的. 因子分析:假设观察数据的生成中有一些观察不到的隐变量,假设观察数据是这些隐变量和某些财政所呢个的线性组合. 独立成分分析(ICA):假设数据是从N个数据源生成的,如果数据源的数目小于观察数据的数目,则可以实现降维过程. 通过PCA进行降维处理,我们可以同时获得SVM和决策树的

PCA原理(转)

PCA(Principal Component Analysis)是一种常用的数据分析方法.PCA通过线性变换将原始数据变换为一组各维度线性无关的表示,可用于提取数据的主要特征分量,常用于高维数据的降维.网上关于PCA的文章有很多,但是大多数只描述了PCA的分析过程,而没有讲述其中的原理.这篇文章的目的是介绍PCA的基本数学原理,帮助读者了解PCA的工作机制是什么. 当然我并不打算把文章写成纯数学文章,而是希望用直观和易懂的方式叙述PCA的数学原理,所以整个文章不会引入严格的数学推导.希望读者在

PCA数学角度解析

转:http://blog.csdn.net/passball/article/details/24037593 主成分分析(PCA)是多元统计分析中用来分析数据的一种方法,它是用一种较少数量的特征对样本进行描述以达到降低特征空间维数的方法,它的本质实际上是K-L变换.PCA方法最著名的应用应该是在人脸识别中特征提取及数据维,我们知道输入200*200大小的人脸图像,单单提取它的灰度值作为原始特征,则这个原始特征将达到40000维,这给后面分类器的处理将带来极大的难度.著名的人脸识别Eigenf

主成分分析(PCA)原理总结

主成分分析(Principal components analysis,以下简称PCA)是最重要的降维方法之一.在数据压缩消除冗余和数据噪音消除等领域都有广泛的应用.一般我们提到降维最容易想到的算法就是PCA,下面我们就对PCA的原理做一个总结. 1. PCA的思想 PCA顾名思义,就是找出数据里最主要的方面,用数据里最主要的方面来代替原始数据.具体的,假如我们的数据集是n维的,共有m个数据$(x^{(1)},x^{(2)},...,x^{(m)})$.我们希望将这m个数据的维度从n维降到n'维

主成分分析PCA详解

转载请声明出处:http://blog.csdn.net/zhongkelee/article/details/44064401 一.PCA简介 1. 相关背景 上完陈恩红老师的<机器学习与知识发现>和季海波老师的<矩阵代数>两门课之后,颇有体会.最近在做主成分分析和奇异值分解方面的项目,所以记录一下心得体会. 在许多领域的研究与应用中,往往需要对反映事物的多个变量进行大量的观测,收集大量数据以便进行分析寻找规律.多变量大样本无疑会为研究和应用提供了丰富的信息,但也在一定程度上增加

深度学习笔记——PCA原理与数学推倒详解

PCA目的:这里举个例子,如果假设我有m个点,{x(1),...,x(m)},那么我要将它们存在我的内存中,或者要对着m个点进行一次机器学习,但是这m个点的维度太大了,如果要进行机器学习的话参数太多,或者说我要存在内存中会占用我的较大内存,那么我就需要对这些个点想一个办法来降低它们的维度,或者说,如果把这些点的每一个维度看成是一个特征的话,我就要减少一些特征来减少我的内存或者是减少我的训练参数.但是要减少特征或者说是减少维度,那么肯定要损失一些信息量.这就要求我在减少特征或者维度的过程当中呢,尽

LDA/PCA

LDA(Linear Discriminant Analysis 线性判别分析),是一种监督学习.将带上标签的数据(点),通过投影的方法,投影到维度更低的空间中,使得投影后的点,会形成按类别区分,一簇一簇的情况,相同类别的点,将会在投影后的空间中更接近.LDA是一种线性分类器.分类的目标是,使得类别内的点距离越近越好(集中),类别间的点越远越好. PCA(主成分分析):LDA的输入数据是带标签的,而PCA的输入数据是不带标签的,所以PCA是一种无监督学习.LDA通常来说是作为一个独立的算法存在,