Kernel PCA 原理和演示

Kernel PCA 原理和演示

主成份(Principal Component Analysis)分析是降维(Dimension Reduction)的重要手段。每一个主成分都是数据在某一个方向上的投影,在不同的方向上这些数据方差Variance的大小由其特征值(eigenvalue)决定。一般我们会选取最大的几个特征值所在的特征向量(eigenvector),这些方向上的信息丰富,一般认为包含了更多我们所感兴趣的信息。当然,这里面有较强的假设:(1)特征根的大小决定了我们感兴趣信息的多少。即小特征根往往代表了噪声,但实际上,向小一点的特征根方向投影也有可能包括我们感兴趣的数据; (2)特征向量的方向是互相正交(orthogonal)的,这种正交性使得PCA容易受到Outlier的影响,例如在【1】中提到的例子(3)难于解释结果。例如在建立线性回归模型(Linear Regression Model)分析因变量(response)和第一个主成份的关系时,我们得到的回归系数(Coefficiency)不是某一个自变量(covariate)的贡献,而是对所有自变量的某个线性组合(Linear Combination)的贡献。

在Kernel PCA分析之中,我们同样需要这些假设,但不同的地方是我们认为原有数据有更高的维数,我们可以在更高维的空间(Hilbert Space)中做PCA分析(即在更高维空间里,把原始数据向不同的方向投影)。这样做的优点有:对于在通常线性空间难于线性分类的数据点,我们有可能再更高维度上找到合适的高维线性分类平面。我们第二部分的例子就说明了这一点。

本文写作的动机是因为作者没有找到一篇好的文章(看了wikipedia和若干google结果后)深层次介绍PCA和Kernel PCA之间的联系,以及如何以公式形式来解释如何利用Kernel PCA来做投影,特别有些图片的例子只是展示了结果和一些公式,这里面具体的过程并没有涉及。希望这篇文章能做出较好的解答。

1. Kernel Principal Component Analysis 的矩阵基础

我们从解决这几个问题入手:传统的PCA如何做?在高维空间里的PCA应该如何做?如何用Kernel Trick在高维空间做PCA?如何在主成分方向上投影?如何Centering 高维空间的数据?

1.1 传统的PCA如何做?

让我先定义如下变量: X=[x1,x2,…,xN] 是一个d×N矩阵,代表输入的数据有N 个,每个sample的维数是d。我们做降维,就是想用k维的数据来表示原始的d维数据(k≤d)。
当我们使用centered的数据(即∑ixi=0)时,可定义协方差矩阵C为:

C=1NxixTi=1NXXT

做特征值分解,我们可以得到:

CU=UΛ⇒C=UΛUT=∑aλauauTa

注意这里的C,U,Λ的维数都是d×d, 且U=[u1,u2,…,ud], Λ=diag(λ1,λ2,…,λd)。
当我们做降维时,可以利用前k个特征向量Uk=[u1,u2,…,uk]。则将一个d维的xi向k维的主成分的方向投影后的yi=UTkxi (这里的每一个ui都是d维的,代表是一个投影方向,且uTiui=1,表示这是一个旋转变量)

1.2 在高维空间里的PCA应该如何做?

高维空间中,我们定义一个映射Φ:Xd→F,这里F表示Hilbert泛函空间。
现在我们的输入数据是Φ(xi),i=1,2,…n, 他们的维数可以说是无穷维的(泛函空间)。
在这个新的空间中,假设协方差矩阵同样是centered,我们的协方差矩阵为:

C¯=1NΦ(xi)Φ(xi)T=1NΦ(X)Φ(X)T

这里有一个陷阱,我跳进去过:
在对Kernel trick一知半解的时候,我们常常从形式上认为C¯可以用Ki,j=K(xi,xj)来代替,
因此对K=(Kij)做特征值分解,然后得到K=UΛUT,并且对原有数据降维的时候,定义Yi=UTkXi。
但这个错误的方法有两个问题:一是我们不知道矩阵C¯的维数;二是UTkXi从形式上看不出是从高维空间的Φ(Xi)投影,并且当有新的数据时,我们无法从理论上理解UTkXnew是从高维空间的投影。
如果应用这种错误的方法,我们有可能得到看起来差不多正确的结果,但本质上这是错误的。
正确的方法是通过Kernel trick将PCA投影的过程通过内积的形式表达出来,详细见1.3

1.3 如何用Kernel Trick在高维空间做PCA?

在1.1节中,通过PCA,我们得到了U矩阵。这里将介绍如何仅利用内积的概念来计算传统的PCA。
首先我们证明U可以由x1,x2,…,xN展开(span):

Cua=λaua

ua=1λaCu=1λa(∑ixixTi)u=1λa∑ixi(xTiu)=1λa∑i(xTiu)xi=∑ixTiuλaxi=∑iαaixi

这里定义αai=xTiuλa。
因为xTiu 是一个标量(scala),所以αai也是一个标量,因此ui 是可以由xi张成。

进而我们显示PCA投影可以用内积运算表示,例如我们把xi向任意一个主成分分量ua进行投影,得到的是uTaxi,也就是xTiua 。作者猜测写成这种形式是为了能抽出xTixj=<xi,xj>的内积形式。

xTiCuaxTi1N∑jxjxTj∑kαakxk∑jαak∑k(xTixj)(xTjxk)=λaxTiua=λaxTi∑kαakxk=Nλa∑kαak(xTixk)

当我们定义Kij=xTixj时,上式可以写为K2α=NλaKαa
(这里αa定义为[αa1,αa2,…,αaN]T.)
进一步,我们得到解为:

Kα=λ~aαwithλ~a=Nλa

K矩阵包含特征值λ~和αa,我们可以通过α可以计算得到ua,
注意特征值分解时Eigendecomposition,αa只代表一个方向,它的长度一般为1,但在此处不为1。
这里计算出αa的长度(下面将要用到):
因为ua的长度是1,我们有:

1=uTaua=(∑iαaixi)T(∑jαajxj)=∑i∑jαaiαajxTixTj=(αa)TKαa=(αa)T(Nλaαa)=Nλa(αaTαa)⇒∥αa∥=1/Nλa−−−−√=1/λ~a−−√

在上面的分析过程中,我们只使用了内积。因此当我们把Kij=xTixj推广为Kij=<Φ(xi),Φ(xj>=Φ(xi)TΦ(xj)时,上面的分析结果并不会改变。

1.4 如何在主成分方向上投影?

投影时,只需要使用U矩阵,假设我们得到的新数据为t,那么t在ua方向的投影是:

uTat=∑iαaixTit=∑iαai(xTit)

对于高维空间的数据Φ(xi),Φ(t),我们可以用Kernel trick,用K(xi,t)来带入上式:

uTat=∑iαaiK(xi,t)

1.5 如何Centering 高维空间的数据?

在我们的分析中,协方差矩阵的定义需要centered data。在高维空间中,显式的将Φ(xi)居中并不简单,
因为我们并不知道Φ的显示表达。但从上面两节可以看出,所有的计算只和K矩阵有关。具体计算如下:
令Φi=Φ(xi),居中ΦCi=Φi–1N∑kΦk

KCij=<ΦCiΦCj>=(Φi–1N∑kΦk)T(Φj–1N∑lΦl)=ΦTiΦj–1N∑lΦTiΦl–1N∑kΦTkΦj+1N2∑k∑lΦTkΦl=Kij–1N∑lKil–1N∑kKkj+1N2∑k∑lKkl

不难看出,

KC=K–1NK–K1N+1NK1N

其中1N 为N×N的矩阵,其中每一个元素都是1/N
对于新的数据,我们同样可以

K(xi,t)C=<ΦCiΦCt>=(Φi–1N∑kΦk)T(Φt–1N∑lΦl)=ΦTiΦt–1N∑lΦTiΦl–1N∑kΦTkΦt+1N2∑k∑lΦTkΦl=K(xi,t)–1N∑lKil–1N∑kK(xk,t)+1N2∑k∑lKkl

2. 演示 (R code)

首先我们应该注意输入数据的格式,一般在统计中,我们要求X矩阵是N×d的,但在我们的推导中,X矩阵是d×N。
这与统计上的概念并不矛盾:在前面的定义下协方差矩阵为XTX,而在后面的定义中是XXT。另外这里的协方差矩阵是样本(Sample)的协方差矩阵,我们的认为大写的X代表矩阵,而不是代表一个随机变量。
另外,在下面的结果中,Gaussian 核函数(kernel function)的标准差(sd)为2。在其他取值条件下,所得到的图像是不同的。

KPCA图片:

R 源代码(Source Code):链接到完整的代码 KernelPCA

Kernel PCA部分代码:


1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

# Kernel PCA

# Polynomial Kernel

# k(x,y) = t(x) %*% y + 1

k1 = function (x,y) { (x[1] * y[1] + x[2] * y[2] + 1)^2 }

K = matrix(0, ncol = N_total, nrow = N_total)

for (i in 1:N_total) {

  for (j in 1:N_total) {

    K[i,j] = k1(X[i,], X[j,])

}}

ones = 1/N_total* matrix(1, N_total, N_total)

K_norm = K - ones %*% K - K %*% ones + ones %*% K %*% ones

res = eigen(K_norm)

V = res$vectors

D = diag(res$values)

rank = 0

for (i in 1:N_total) {

    if (D[i,i] < 1e-6) { break }

      V[,i] = V[,i] / sqrt (D[i,i])

    rank = rank + 1

}

Y = K_norm %*%  V[,1:rank]

plot(Y[,1], Y[,2], col = rainbow(3)[label], main = "Kernel PCA (Poly)"

, xlab="First component", ylab="Second component")

3. 主要参考资料

 

【1】A Tutorial on Principal Component Analysis ,Jonathon Shlens, Shlens03

【2】Wikipedia: http://en.wikipedia.org/wiki/Kernel_principal_component_analysis

【3】 Original KPCA Paper:Kernel principal component analysis,Bernhard Schölkopf, Alexander Smola and Klaus-Robert Müller http://www.springerlink.com/content/w0t1756772h41872/fulltext.pdf

【4】Max Wellings’s classes notes for machine learning Kernel Principal Component Analaysis http://www.ics.uci.edu/~welling/classnotes/papers_class/Kernel-PCA.pdf

No related posts.

时间: 2024-10-29 10:46:31

Kernel PCA 原理和演示的相关文章

PCA原理(转)

PCA(Principal Component Analysis)是一种常用的数据分析方法.PCA通过线性变换将原始数据变换为一组各维度线性无关的表示,可用于提取数据的主要特征分量,常用于高维数据的降维.网上关于PCA的文章有很多,但是大多数只描述了PCA的分析过程,而没有讲述其中的原理.这篇文章的目的是介绍PCA的基本数学原理,帮助读者了解PCA的工作机制是什么. 当然我并不打算把文章写成纯数学文章,而是希望用直观和易懂的方式叙述PCA的数学原理,所以整个文章不会引入严格的数学推导.希望读者在

PCA 原理

PCA的数学原理(转) 1 年前 PCA(Principal Component Analysis)是一种常用的数据分析方法.PCA通过线性变换将原始数据变换为一组各维度线性无关的表示,可用于提取数据的主要特征分量,常用于高维数据的降维.网上关于PCA的文章有很多,但是大多数只描述了PCA的分析过程,而没有讲述其中的原理.这篇文章的目的是介绍PCA的基本数学原理,帮助读者了解PCA的工作机制是什么. 当然我并不打算把文章写成纯数学文章,而是希望用直观和易懂的方式叙述PCA的数学原理,所以整个文章

主成分分析法PCA原理

PCA(Principal Component Analysis)是一种常用的数据分析方法.PCA通过线性变换将原始数据变换为一组各维度线性无关的表示,可用于提取数据的主要特征分量,常用于高维数据的降维.网上关于PCA的文章有很多,但是大多数只描述了PCA的分析过程,而没有讲述其中的原理.这篇文章的目的是介绍PCA的基本数学原理,帮助读者了解PCA的工作机制是什么. 当然我并不打算把文章写成纯数学文章,而是希望用直观和易懂的方式叙述PCA的数学原理,所以整个文章不会引入严格的数学推导.希望读者在

主成分分析(PCA)原理与实现

主成分分析原理与实现 ??主成分分析是一种矩阵的压缩算法,在减少矩阵维数的同时尽可能的保留原矩阵的信息,简单来说就是将 \(n×m\)的矩阵转换成\(n×k\)的矩阵,仅保留矩阵中所存在的主要特性,从而可以大大节省空间和数据量.最近课上学到这个知识,感觉很有意思,就在网上找一些博客进行学习,发现网上关于这方面的介绍很多,但是感觉都不太全面,单靠某一个介绍还是无法理解,当然这可能也跟个人基础有关.所以我在这里根据自己的理解写一个总结性的帖子,与大家分享同时也方便自己复习.对于主成分分析,可以参照以

【模式识别与机器学习】——PCA与Kernel PCA介绍与对比

PCA与Kernel PCA介绍与对比 1. 理论介绍 PCA:是常用的提取数据的手段,其功能为提取主成分(主要信息),摒弃冗余信息(次要信息),从而得到压缩后的数据,实现维度的下降.其设想通过投影矩阵将高维信息转换到另一个坐标系下,并通过平移将数据均值变为零.PCA认为,在变换过后的数据中,在某一维度上,数据分布的更分散,则认为对数据点分布情况的解释力就更强.故在PCA中,通过方差来衡量数据样本在各个方向上投影的分布情况,进而对有效的低维方向进行选择. KernelPCA:是PCA的一个改进版

iBoxDB全文搜索原理,演示与代码

原理 全文搜索的核心是"关键字",使用分词器把文章中的关键字分离出来,对于拼音语言,使用"where 关键字=?"查出对应的内容,对于中文这类语言,如果使用单个字做关键字, 条件中多一个位置信息 "where 字= ? & 位置=X+1", X是前一个字的位置,如果是多条件,where中还要多一个上一个条件返回的ID, "where 关键字=? & ID=X-ID". 演示 演示地址 全文搜索引擎Java代码

PCA原理与实践

在对数据进行预处理时,我们经常会遇到数据的维数非常之大,如果不进行相应的特征处理,那么算法的资源开销会很大,这在很多场景下是我们不能接受的.而对于数据的若干维度之间往往会存在较大的相关性,如果能将数据的维度之间进行相应的处理,使它们在保留最大数据信息的同时降低维度之间的相关性,就可以达到降维的效果.PCA(主成分分析)便是利用这样的概念将数据映射到新的维度空间中,选择最重要的几个成分作为新空间向量的基,这样在新的坐标空间中,数据既可以保留大部分的数据信息又可以达到降维的效果.在机器学习实战中对于

PCA原理分析

动机 在机器学习领域中,我们常常会遇到维数很高的数据,有些数据的特征维度高达上百万维,很显然这样的数据是无法直接计算的,而且维度这么高,其中包含的信息一定有冗余,这时就需要进行降维,总的来说,我们降维的主要目的有如下几条: 在原始的高维空间中,包含有冗余信息以及噪音信息,在实际应用例如图像识别中造成了误差,降低了准确率:而通过降维,我们希望减少冗余信息所造成的误差,提高识别(或其他应用)的精度. 希望通过降维算法来寻找数据内部的本质结构特征. 通过降维来加速后续计算的速度 还有其他很多目的,如解

PCA原理解释(二)

PCA在做数据处理,一般会有一个数据预处理,其中一个目标就是将取数据特征向相关性. 为什么要去特征的相关性? 因为数据如果有相关性,在学习的时候是冗余的,徒增学习成本:所以对于数据处理(也称之为白化,英文有的时候称之为sphering),白化的目的:1.实现特征之间的相关性较低:2.所有的特征具有相同的方差. 怎么去特征相关性,就是让他们的协方差为0,协方差,顾名思义,就是两组变量的协同性,如果两个变量的变化趋势是一致的,某个变量范围内,取值同样趋于增大.减少,这个时候,协方差就是正常,如果变化