【机器学习笔记之七】PCA 的数学原理和可视化效果

PCA 的数学原理和可视化效果

本文结构:

  • 什么是 PCA
  • 数学原理
  • 可视化效果

1. 什么是 PCA

PCA (principal component analysis, 主成分分析) 是机器学习中对数据进行降维的一种方法。

例如,我们有这样的交易数据,它有这几个特征:(日期, 浏览量, 访客数, 下单数, 成交数, 成交金额),从经验可知,“浏览量”和“访客数”,“下单数”和“成交数”之间会具有较强的相关关系。这种情况下,我们保留其中的两个维度就可以保证原有的信息完整。

但是当我们在做降维的时候,会丢失掉一部分信息。

例如, 下面 5 个数据,如果向 x 轴投影,那么左边的两个点会重叠在一起,中间的两个点也会重叠在一起,5 个点结果投影到 x 轴后就剩下 3 个点了,这是一种严重的信息丢失:

所以我们希望找到低维空间的方向上,原数据映射后的方差尽可能的大,也就是意味着数据点会尽量分散开来,这样可以保留更多的信息。

PCA 追求的是在降维之后能够最大化保持数据的内在信息,并通过衡量在投影方向上的数据方差的大小来衡量该方向的重要性,它是丢失原始数据信息最少的一种线性降维方式。

PCA的算法步骤:

设有 m 条 n 维数据。
1)将原始数据按列组成 n 行 m 列矩阵 X
2)将 X 的每一行(代表一个属性字段)进行零均值化,即减去这一行的均值
3)求出协方差矩阵 C=1/mXX??
4)求出协方差矩阵的特征值及对应的特征向量
5)将特征向量按对应特征值大小从上到下按行排列成矩阵,取前 k 行组成矩阵 P
6)Y=PX 即为降维到 k 维后的数据


2. 数学原理

要找到这个低维空间,意味着要确定一组基

如下图,蓝色正交箭头就是新的坐标系的基向量:

我们希望原数据在新坐标系上的投影尽可能分散

同一个点,在新坐标系下的投影,就是它和两个基的内积:

因为 A 与 B 的内积等于 A⋅B=|A||B|cos(a)
B 为基时,|B|=1,则 A⋅B=|A|cos(a),即这个内积等于 A 到 B 的投影长度,也是坐标值。

这种分散程度,可以用数学上的方差来表述:

一个字段的方差可以看做是每个元素与字段均值的差的平方和的均值,即:

在 PCA 第二步已经将每个字段的均值都化为 0 了,因此这里方差可以直接用每个元素的平方和除以元素个数表示:

所以就要最大化数据映射后的方差。

不仅如此,当我们选择第二个投影方向时,
不希望它们之间存在线性相关性的,不然的话必然存在重复表示的信息。

在数学上可以用两个字段的协方差表示其相关性,由于已经让每个字段均值为0,则:

所以希望协方差为 0,这样两个字段完全独立,那么第二个基只能在与第一个基正交的方向上选择。

于是,我们得到了降维问题的优化目标
将一组 N 维向量降为 K 维,目标是选择 K 个单位正交基,使得原始数据变换到这组基上后,各字段两两间协方差为0,并且字段的方差则尽可能大(即在正交的约束下,取最大的K个方差)。

假设我们有数据 X,它有 a 和 b 两个字段:

X 的协方差矩阵计算如下:

可以看到这个矩阵对角线上的两个元素分别是两个字段的方差,而其它元素是 a 和 b 的协方差。

于是优化目前等价于将原始数据变换到这组基上后,要使新数据表示的协方差矩阵对角化,并且在对角线上将元素按大小从上到下排列。

即令 P 是这组基按行组成的矩阵,则 Y=PX 就是 X 对 P 做基变换后的数据。(6)
记 Y 的协方差矩阵为 D,
那么 D 与 C 有如下关系:

这样,优化目标变成了寻找一个矩阵 P,满足 PCP?? 是一个对角矩阵,即对 C 进行对角化(3)

如何求 P:

C 是一个是对称矩阵,在线性代数书上可以找到“实对称矩阵对角化”的内容。

一个 n 行 n 列的实对称矩阵一定可以找到 n 个单位正交特征向量 e1,e2,?,en,

由它们按列组成的矩阵 E=(e1,e2,?,en) 可以将 C 对角化:(4)

对角元素为各特征向量对应的特征值

于是 P=E??,即 P 的每一行都是 C 的一个特征向量。(5)

这样,就得到了 PCA 步骤中的第 3~6 步。


3. 可视化效果

例如下图,我们要将 2 维变成 1 维,
空心圆为数据,得到红箭头为第一主成分方向,蓝箭头为第二主成分方向:

将两个主成分分别作为新的坐标系时,可以看到下图中十字数据的状态:

当我们只看第一主成分时,如下面所示,蓝色点是降维后的数据:
可以看出在 PC1 上的方差很大,而 PC2 上的方差比较小,相对而言,PC2 就可以被忽略,进而实现了降维

我们可以将降维后的数据与原数据进行对比,发现原数据在 PC2 上的信息已经被丢弃



资料:
机器学习
https://stats.stackexchange.com/questions/76906/how-can-i-interpret-what-i-get-out-of-pca
http://blog.codinglabs.org/articles/pca-tutorial.html

时间: 2024-12-15 05:02:44

【机器学习笔记之七】PCA 的数学原理和可视化效果的相关文章

PCA的数学原理

PCA(Principal Component Analysis)主成成分分析法,是一种常用的数据分析方法.PCA通过线性变换将原始数据变换为一组各维度线性无关的表示,可用于提取数据的主要特征分量,常用于高维数据的降维.网上关于PCA的文章有很多,但是大多数只描述了PCA的分析过程,而没有讲述其中的原理.这篇文章的目的是介绍PCA的基本数学原理,帮助读者了解PCA的工作机制是什么. 当然我并不打算把文章写成纯数学文章,而是希望用直观和易懂的方式叙述PCA的数学原理,所以整个文章不会引入严格的数学

转载:PCA的数学原理

PCA(Principal Component Analysis)是一种常用的数据分析方法.PCA通过线性变换将原始数据变换为一组各维度线性无关的表示,可用于提取数据的主要特征分量,常用于高维数据的降维.网上关于PCA的文章有很多,但是大多数只描述了PCA的分析过程,而没有讲述其中的原理.这篇文章的目的是介绍PCA的基本数学原理,帮助读者了解PCA的工作机制是什么. 当然我并不打算把文章写成纯数学文章,而是希望用直观和易懂的方式叙述PCA的数学原理,所以整个文章不会引入严格的数学推导.希望读者在

PCA的数学原理(转)

向量的表示及协方差矩阵 http://blog.csdn.net/songzitea/article/details/18219237 PCA的数学原理 http://blog.codinglabs.org/articles/pca-tutorial.html 总结: 1.要准确描述向量,首先要确定一组基,然后给出在基所在的各个直线上的投影值,就可以了. 向量(x,y)实际上表示线性组合:\[x(1,0)^\mathsf{T}+y(0,1)^\mathsf{T}\].此处(1,0)和(0,1)叫

特征降维-PCA的数学原理

PCA(Principal Component Analysis)是一种常用的数据分析方法.PCA通过线性变换将原始数据变换为一组各维度线性无关的表示,可用于提取数据的主要特征分量,常用于高维数据的降维.网上关于PCA的文章有很多,但是大多数只描述了PCA的分析过程,而没有讲述其中的原理.这篇文章的目的是介绍PCA的基本数学原理,帮助读者了解PCA的工作机制是什么. 数据的向量表示及降维问题 一般情况下,在数据挖掘和机器学习中,数据被表示为向量.例如某个淘宝店2012年全年的流量及交易情况可以看

[机器学习&数据挖掘]朴素贝叶斯数学原理

1.准备: (1)先验概率:根据以往经验和分析得到的概率,也就是通常的概率,在全概率公式中表现是“由因求果”的果 (2)后验概率:指在得到“结果”的信息后重新修正的概率,通常为条件概率(但条件概率不全是后验概率),在贝叶斯公式中表现为“执果求因”的因 例如:加工一批零件,甲加工60%,乙加工40%,甲有0.1的概率加工出次品,乙有0.15的概率加工出次品,求一个零件是不是次品的概率即为先验概率,已经得知一个零件是次品,求此零件是甲或乙加工的概率是后验概率 (3)全概率公式:设E为随机试验,B1,

PCA数学原理

PCA(Principal Component Analysis)是一种常用的数据分析方法.PCA通过线性变换将原始数据变换为一组各维度线性无关的表示,可用于提取数据的主要特征分量,常用于高维数据的降维.网上关于PCA的文章有很多,但是大多数只描述了PCA的分析过程,而没有讲述其中的原理.这篇文章的目的是介绍PCA的基本数学原理,帮助读者了解PCA的工作机制是什么. ? 数据的向量表示及降维问题 一般情况下,在数据挖掘和机器学习中,数据被表示为向量.例如某个淘宝店2012年全年的流量及交易情况可

pca数学原理(转)

PCA的数学原理 前言 数据的向量表示及降维问题 向量的表示及基变换 内积与投影 基 基变换的矩阵表示 协方差矩阵及优化目标 方差 协方差 协方差矩阵 协方差矩阵对角化 算法及实例 PCA算法 实例 进一步讨论 前言 PCA(Principal Component Analysis)是一种常用的数据分析方法.PCA通过线性变换将原始数据变换为一组各维度线性无关的表示,可用于提取数据的主要特征分量,常用于高维数据的降维.网上关于PCA的文章有很多,但是大多数只描述了PCA的分析过程,而没有讲述其中

数据降维技术(1)—PCA的数据原理

PCA(Principal Component Analysis)是一种常用的数据分析方法.PCA通过线性变换将原始数据变换为一组各维度线性无关的表示,可用于提取数据的主要特征分量,常用于高维数据的降维.网上关于PCA的文章有很多,但是大多数只描述了PCA的分析过程,而没有讲述其中的原理.这篇文章的目的是介绍PCA的基本数学原理,帮助读者了解PCA的工作机制是什么. 当然我并不打算把文章写成纯数学文章,而是希望用直观和易懂的方式叙述PCA的数学原理,所以整个文章不会引入严格的数学推导.希望读者在

深入学习主成分分析(PCA)算法原理及其Python实现

一:引入问题 首先看一个表格,下表是某些学生的语文,数学,物理,化学成绩统计: 首先,假设这些科目成绩不相关,也就是说某一科目考多少分与其他科目没有关系,那么如何判断三个学生的优秀程度呢?首先我们一眼就能看出来,数学,物理,化学这三门课的成绩构成了这组数据的主成分(很显然,数学作为第一主成分,因为数据成绩拉的最开). 那么为什么我们能一眼看出来呢? 当然是我们的坐标轴选对了!! 下面,我们继续看一个表格,下标是一组学生的数学,物理,化学,语文,历史,英语成绩统计: 那么这个表我们能一眼看出来吗?