对于PCA的认识

　　PCA(Principal component analysis)是一种多元统计方法。最近在研究PCA在故障检测上的运用。在这里说说我对PCA的认识。

　　首先，我们需要有一组数据X，X是n行m列的数据，为了方便，我们认为数据是均值为0，方差为1的数据。其中n为样本数，m为变量。我们可以找到一个线性组合T=XP，其中T=（t₁,t₂,...,t_m）（T为R^n*m）,P=（p₁,p₂,...,p_m）（p为R^m*m）。

其中使得 (1)t_i和t_j线性无关。

　　　　(2)t₁是使X一切线性组合中方差最大的，t₂是使满足(1)后X一切线性组合中方差最大的。。。

　　　　(3)t_i=Xp_i的系数满足p_i^Tp_i=1.

其实，以上三个要求就是将原数据进行平移旋转，但是也不能随意的旋转，我们需要找个一组坐标系，使得我们的数据在这个新的坐标系上能有最清晰的反应。这个指标就是方差，我们需要找到一组使这组数据方差最大的一个坐标系，然后找到这个坐标系之后，我们选取其方向的单位向量来表示这个坐标系。

　　这个新的坐标系的具体求解方法如下：

(1)将数据X中心化((x-u)/std(x))，得到新的数据仍然用X表示。

(2)计算X的协方差矩阵∑=X^T*X。并对其进行特征值分解，得到特征值Λ‘，和对应的特征向量矩阵P‘。然后我们对特征值按其大小按从大到小排序，对应的特征向量也进行排序得到Λ和P，就找到满足条件的坐标系。

以上是坐标系的变换，但PCA不仅仅如此。PCA可以在一定置信度下，将高维数据用较少维数的数据表示，也就是降维的功能。下面来解释。

时间： 2024-10-04 01:46:42

对于PCA的认识的相关文章

利用Matlab实现PCA demo展示

input_data = rand(1000,3);%随机生成1000个样本,每个样本有x,y,z三个属性 figure(1); %控制画图的窗口为1 hold off; %使当前轴和图形不再具备被刷新的性质,关闭在此基础上再画图 plot3(input_data(:,1), input_data(:,2), input_data(:,3), 'ro'); %% Function PCA, input_data, out_dim % Use this to switch methods use_

主成分分析（Principal Component Analysis，PCA

主成分分析(Principal Component Analysis,PCA)是将多个变量通过线性变换以选出较少几个重要变量的多元统计分析方法. 原理:在用统计分析方法研究多变量的课题时,变量个数太多就会增加课题的复杂性.人们自然希望变量个数较少而得到的信息较多.在很多情形,变量之间是有一定的相关关系的,当两个变量之间有一定相关关系时,可以解释为这两个变量反映此课题的信息有一定的重叠.主成分分析是对于原先提出的所有变量,将重复的变量(关系紧密的变量)删去多余,建立尽可能少的新变量,使得这些新变量

[降维] PCA 主成分分析

其实早该整理一下PCA了,怎奈一直没有时间,可能是自己对时间没有把握好吧,下面进入正题. 降维的概念所谓降维,就是降低数据的维数.在机器学习中尤其常见,之前做过对一幅图片提取小波特征,对于一幅大小为800*600的图片,如果每个点提取五个尺度.八个方向的特征,那么每一个像素点提取40个特征,那么一副图片的话就是40*800*600=19200000个特征.也就是我们用一个19200000的向量描述一幅图片.如果有m幅图片,那么特征为m*19200000的大小.显然这个维数太大了,所以需要降维.

机器学习实战精读--------主成分分析（PCA）

对数据进行简化的原因: ① 使得数据集更容易使用 ② 降低许多算法的计算开销 ③ 去除噪声 ④ 使得结果易懂方差是衡量数据源和期望值相差的度量值. PCA:数据从原来的坐标系转换到新的坐标系,新坐标系是有数据本身决定的. 因子分析:假设观察数据的生成中有一些观察不到的隐变量,假设观察数据是这些隐变量和某些财政所呢个的线性组合. 独立成分分析(ICA):假设数据是从N个数据源生成的,如果数据源的数目小于观察数据的数目,则可以实现降维过程. 通过PCA进行降维处理,我们可以同时获得SVM和决策树的

PCA原理（转）

PCA(Principal Component Analysis)是一种常用的数据分析方法.PCA通过线性变换将原始数据变换为一组各维度线性无关的表示,可用于提取数据的主要特征分量,常用于高维数据的降维.网上关于PCA的文章有很多,但是大多数只描述了PCA的分析过程,而没有讲述其中的原理.这篇文章的目的是介绍PCA的基本数学原理,帮助读者了解PCA的工作机制是什么. 当然我并不打算把文章写成纯数学文章,而是希望用直观和易懂的方式叙述PCA的数学原理,所以整个文章不会引入严格的数学推导.希望读者在

PCA数学角度解析

转:http://blog.csdn.net/passball/article/details/24037593 主成分分析(PCA)是多元统计分析中用来分析数据的一种方法,它是用一种较少数量的特征对样本进行描述以达到降低特征空间维数的方法,它的本质实际上是K-L变换.PCA方法最著名的应用应该是在人脸识别中特征提取及数据维,我们知道输入200*200大小的人脸图像,单单提取它的灰度值作为原始特征,则这个原始特征将达到40000维,这给后面分类器的处理将带来极大的难度.著名的人脸识别Eigenf

主成分分析（PCA）原理总结

主成分分析(Principal components analysis,以下简称PCA)是最重要的降维方法之一.在数据压缩消除冗余和数据噪音消除等领域都有广泛的应用.一般我们提到降维最容易想到的算法就是PCA,下面我们就对PCA的原理做一个总结. 1. PCA的思想 PCA顾名思义,就是找出数据里最主要的方面,用数据里最主要的方面来代替原始数据.具体的,假如我们的数据集是n维的,共有m个数据$(x^{(1)},x^{(2)},...,x^{(m)})$.我们希望将这m个数据的维度从n维降到n'维

主成分分析PCA详解

转载请声明出处:http://blog.csdn.net/zhongkelee/article/details/44064401 一.PCA简介 1. 相关背景上完陈恩红老师的<机器学习与知识发现>和季海波老师的<矩阵代数>两门课之后,颇有体会.最近在做主成分分析和奇异值分解方面的项目,所以记录一下心得体会. 在许多领域的研究与应用中,往往需要对反映事物的多个变量进行大量的观测,收集大量数据以便进行分析寻找规律.多变量大样本无疑会为研究和应用提供了丰富的信息,但也在一定程度上增加

深度学习笔记——PCA原理与数学推倒详解

PCA目的:这里举个例子,如果假设我有m个点,{x(1),...,x(m)},那么我要将它们存在我的内存中,或者要对着m个点进行一次机器学习,但是这m个点的维度太大了,如果要进行机器学习的话参数太多,或者说我要存在内存中会占用我的较大内存,那么我就需要对这些个点想一个办法来降低它们的维度,或者说,如果把这些点的每一个维度看成是一个特征的话,我就要减少一些特征来减少我的内存或者是减少我的训练参数.但是要减少特征或者说是减少维度,那么肯定要损失一些信息量.这就要求我在减少特征或者维度的过程当中呢,尽

LDA/PCA

LDA(Linear Discriminant Analysis 线性判别分析),是一种监督学习.将带上标签的数据(点),通过投影的方法,投影到维度更低的空间中,使得投影后的点,会形成按类别区分,一簇一簇的情况,相同类别的点,将会在投影后的空间中更接近.LDA是一种线性分类器.分类的目标是,使得类别内的点距离越近越好(集中),类别间的点越远越好. PCA(主成分分析):LDA的输入数据是带标签的,而PCA的输入数据是不带标签的,所以PCA是一种无监督学习.LDA通常来说是作为一个独立的算法存在,

猜你喜欢

linux awk命令详解

简介 awk是一个强大的文本分析工具,相对于grep的查找,sed的编辑,awk在其对数据分析并生成报告时,显得尤为强大.简单来说awk就是把文件逐行的读入,以空格为默认分隔符将每行切片,切开的部分再 ...

POJ 1042 Gone Fishing （贪心）（刘汝佳黑书）

Gone Fishing Time Limit: 2000MS Memory Limit: 32768K Total Submissions: 30281 Accepted: 9124 Des ...

arcgis 3种方法快速制作tpk文件（转）

arcgis 3种方法快速制作tpk文件(转) 作者:www.cnblogs.com 来源:www.cnblogs.com 发布日期:2015-03-22 来自:http://blog.csdn. ...

mac 下真机调试 android 手机

第一步: 查看usb设备信息在终端输入:system_profiler SPUSBDataType 可以查看连接的usb设备的信息比如我的usb信息如下(部分内容): Spreadtru ...

如何快速的打造python 版的vim ide

本来是不想写的,后来想想还是造福一下需要的人吧,因为确实很佩服一键化的作者.我知道很多人都可以自己配置vim插件,只是估计会鼓弄很久吧,在git上有一个人已经集成他认为好的所有插件(其实git上这玩意 ...

Visual Studio中的一些较大的文件的作用

1.sdf 这些是工程中的中间,用于预编译等作用,最终可执行文件是不需要的,默认情况下,删除后重新编译还会生成.如果不需要,在Visual Studio里进入如下设置: 进入“Tools > O ...

hdu2014青年歌手大赛

Problem Description 青年歌手大奖赛中,评委会给参赛选手打分.选手得分规则为去掉一个最高分和一个最低分,然后计算平均得分,请编程输出某选手的得分. Input 输入数据有多组,每组占 ...

马哥教育第二十一天httpd高级配置详解、编译安装

1.httpd.conf配置文件 ★设置默认字符集 AddDefaultCharset ★CGI脚本路径 ...

java中使用Pattern类中和Matcher类进行查找和替换，你会吗？

前言无论是哪一门语言,我们总会用到正则表达式来进行字符串的查找和替换.Java中也不为过,我曾经写过一个网页---正则表达式在线测试.那时候,我还没有开始学习Java,不知道Java支持正则表达式, ...

结构性通缩催生房价泡沫出现崩溃？

国家统计局最新公布的数据显示,4月,全国居民消费价格总水平(CPI)同比上涨1.8%,全国工业生产者出厂价格(PPI)同比下降2%,环比下降0.2%.同时4月份官方PMI为50.4,虽环比回升0.1个 ...

ubuntu通过tnvm安装Nodejs

第一步,先安装tvm tnvm(Taobao Node Version Manager)淘宝Node版本管理器安装: 直接输入 wget -O- https://raw.githubusercont ...

Configuration类响应的系统设置的事件

Configuration类用于描述手机设备上的配置信息. 通过调用Activity的如下方法来获取系统的Configuration对象. Configuration cfg = getResourc ...

iOS开发--应用崩溃日志揭秘（二）

场景 4: 吃棒棒糖时闪退! 用户邮件说, “当rage master吃棒棒糖时应用就闪退…” 另一用户说, “我让rage master 吃棒棒糖,没几次应用就闪退了!”崩溃日志如下: Incide ...

互联网产品消息推送设计策略（转）

在移动互联时代,消息推送越来越受到各个APP的重视,本文就以互金产品为例阐述消息推送的几个类别以及应用的场景方式.运营策略,希望对你有益. 在之前一文中,笔者概括性的介绍了通知功能是互金理财平台的一个 ...

[leetcode-636-Exclusive Time of Functions]

Given the running logs of n functions that are executed in a nonpreemptive single threaded CPU, find ...

野鸟装备iOS版开发笔记（1.5.0）

每次发版,如果不出点儿问题,反而不正常了. 1.打包时提示调用了私有API: The app references non-public symbols in yeniao: _UICreateCGI ...

虚拟化--vsphere client和vsphere web client中英文切换（语言）

经验--vsphere client和vsphere web client中英文切换(语言) vsphere client切换到中文:"C:\Program Files\VMware\Inf ...

提取ARMv8的指令编码

2012年11月份的资料,之前ARMv8手册还没发布,我想办法从编译器的binutils中提取出了所有ARMv8指令的二进制编码,之前不能随便发,现在相当于解禁了^_^. 问题1:提取ARMv8的指令 ...

Java之集合(二十二)PriorityBlockingQueue

转载请注明源出处:http://www.cnblogs.com/lighten/p/7510799.html 1.前言本章介绍阻塞队列PriorityBlockingQueue.这是一个无界有序的阻 ...

Groovy 转换JSON和生产JSON

Groovy 类和JSON之间的相互转换,主要在groovy.json包下面 1. JsonSlurper JsonSlurper 这个类用于转换JSON文本或从Groovy 数据结构中读取内容例如m ...

专题

随机推荐

© 2024 憋错料 | info#biecuoliao.com | 10 q. 0.023 s.