机器学习 第五讲:Generative Learning Algorithm (A)

引言

前面几讲,我们主要探讨了如何对 p(y|x;θ) (即y 相对于x的条件概率)进行建模的几种学习算法,比如,logistic regression 对 p(y|x;θ) 进行建模的假设函数为 hθ(x)=g(θTx), 其中函数 g 为 sigmoid 函数。这一讲我们要讨论另外一类完全不同的学习算法。

在介绍这类算法之前,我们先来看一个简单的分类问题,比如我们想要设计一个算法区分大象(y=1)和狗(y=0)。基于这两种动物的某些特征,前面介绍的算法比如 logistic regression 会试着在这两类样本之间找到一条直线,这条直线可以称之为决策边界,用来区分大象和狗,对于一个新来的测试样本,可以根据该样本落在决策边界的哪一边来决定新输入的测试样本是大象还是狗。

我们还可以从另外一个角度考虑,我们不去寻找这样一条决策边界,我们可以尝试建立一个模型分别描述这两种动物,因为狗有狗的样子,大象有大象的样子,如果建立的模型可以精确地描述这两类动物,并且将彼此之间的不同点区分开来,那么对于新输入的测试样本,我们可以看测试样本与哪类动物的描述更加接近,进而可以判断与某类动物的描述越接近,则该测试样本属于该类的概率就越大。

通常,直接求y 相对于x的条件概率即 p(y|x;θ) 的算法 (比如 logistic regression),或者直接将输入变量映射到输出值的算法 (比如感知器,神经网络一类) , 这些都称为 discriminative 学习算法,而这一讲,我们介绍的算法是求 p(x|y) 和 p(y),这些算法我们称为 generative学习算法。例如,如果 y 表示一个样本是狗(0)或者大象(1),那么 p(x|y=0) 给出的是狗这一类的特征分布,p(x|y=1) 给出的是大象这一类的特征分布。

一旦得到了 p(y) (也称为先验概率)和 p(x|y),利用贝叶斯准则,可以算出 y 相对于 x 的后验概率:

p(y|x)=p(x|y)p(y)p(x)

其中,p(x) = p(x|y = 1)p(y = 1) + p(x|y =0)p(y = 0), 因此,上式可以完全用 p(x|y) 和 p(y) 来表示,事实上,如果用 p(y|x)来做预测的话,不用算出 p(x)的具体值,因为该式子满足如下关系:

argmaxyp(y|x)=argmaxyp(x|y)p(y)p(x)=argmaxyp(x|y)p(y)

所以,只要有 p(x|y) 和 p(y) 就足够了。

Gaussian discriminant analysis

我们介绍的第一个 generative 学习算法是Gaussian discriminant analysis (GDA). 这里我们将假设 p(x|y) 服从多元正态分布,在介绍Gaussian discriminant analysis (GDA) 之前,我们先简要讨论一下多元正态分布的特性。

The multivariate normal distribution

n 维空间的多元正态分布,也叫多元高斯分布,可以由均值向量(mean vector) μ∈R2和协方差矩阵(covariance matrix)

Σ∈Rn 描述,其中 Σ?0 是对称并且半正定的,该分布可以简写为 N(μ,Σ),其概率密度为:

p(x;μ,Σ)=1(2π)n/2|Σ|1/2exp(?12(x?μ)TΣ(x?μ))

其中, |Σ| 表示矩阵 Σ 的 determinant.

对于一个服从 N(μ,Σ) 分布的随机变量X, 它的期望值为μ,即:

E[X]=∫xxp(x;μ,Σ)dx=μ

高维随机变量的协方差定义为:Cov(Z)=E[(Z?E(Z))(Z?E(Z))T].该式子可以进一步简化为:Cov(Z)=E[ZZT]?(E[Z])(E[Z]T). 如果 X~N(μ,Σ),那么,

Cov(X)=Σ

The Gaussian Discriminant Analysis model

在分类问题中,如果输入的是连续的随机变量,那么我们可以用 Gaussian Discriminant Analysis (GDA) 模型,利用多元正态分布来描述 p(x|y), 该模型可以表示如下:

y~Bernoulli(?)

x|y=0~N(μ0,Σ)

x|y=1~N(μ1,Σ)

其概率密度为:

p(y)p(x|y=0)p(x|y=1)=?y(1??)1?y=1(2π)n/2|Σ|1/2exp(?12(x?μ0)TΣ(x?μ0))=1(2π)n/2|Σ|1/2exp(?12(x?μ1)TΣ(x?μ1))

其中,我们要估计得参数有 ?, μ0, μ1 和 Σ (请注意:虽然这里有两个不同的期望值,但是对于同一组训练样本,该模型通常只用一个

协方差矩阵)。 该模型的 log-likelihood 是:

l(?,μ0,μ1,Σ)=log∏i=1np(x(i),y(i);?,μ0,μ1,Σ)=log∏i=1np(x(i)|y(i);?,μ0,μ1,Σ)p(y(i);?)

进一步,我们利用最大似然估计,可以得到这些参数的最大似然估计值:

?μ0μ1Σ=1m∑i=1m1{y(i)=1}=∑mi=11{y(i)=0}x(i)∑mi=11{y(i)=0}=∑mi=11{y(i)=1}x(i)∑mi=11{y(i)=1}=1m∑i=1m(x(i)?μy(i))(x(i)?μy(i))T

一旦得到这些参数,那么给定一个新的测试样本,我们可以利用这些参数算出 p(x|y=0) 和 p(x|y=1),测试样本属于概率大的哪一类。

GDA and logistic regression

GDA模型与 logistic regression 之间存在着有趣的联系,如果我们将条件概率 p(y=1|x;?,μ0,μ1,Σ) 看成是关于 x 的函数,那么该条件概率可以表示成:

p(y=1|x;?,μ0,μ1,Σ)=11+exp(?θTx)

其中 θ 是变量 ?,μ0,μ1,Σ 的函数。很显然,GDA 是 generative 学习算法,而 logistic regression 是 discriminative 学习算法,一般来说,对于同一组训练样本,两种学习算法给出的决策边界是不同的。那么,这两种方法应该如何选择呢?

我们可以看到,如果p(x|y)是多元高斯分布,那么p(y|x)是满足logistic 函数关系的,但是反过来不一定成立,即p(y|x)如果是logistic 函数,p(x|y)不一定是多元高斯分布。这意味着,GDA 给出的假设比logistic regression 要更强,如果假设是正确的(比如数据确实符合多元高斯分布),那么 GDA 会给出更好的拟合模型和结果。特别地,如果 p(x|y) 确实满足多元高斯分布,那么GDA是 asymptotically efficient。 这意味着,如果训练样本非常多的时候,严格意义上来说,GDA 给出的预测结果应该是最好的,其他的算法很难超越它(取决于对 p(y|x)的估计有多准确),这种情况下,GDA的表现应该比logistic regression 更好。

相反,logistic regression 给出的假设相对较弱,所以logistic regression 更加稳健,对模型的假设有更大的容错性,很多不同的数据分布的假设最终可以用logistic函数表示,比如前面提到的泊松分布,如x|y=0~Possion(λ0), x|y=1~Possion(λ1), 那么p(y|x)将是一个logistic function, logistic regression 对于服从泊松分布的数据可以很好的拟合,如果用GDA进行拟合,也就是说用高斯模型来拟合非高斯分布的数据,这个结果可能很好也可能很糟。

总而言之,GDA给出的是更强的假设,当数据分布接近高斯分布时,一般来说GDA会更加高效,可以用较少的数据训练出性能不错的模型。而logistic regression给出的是相对较弱的假设,但是对不同的数据分布有更稳健的包容性。具体来说,当数据分布不服从高斯分布的,logistic regression 的表现几乎总是优于GDA,所以在实际的应用中,logistic regression 比GDA要用得更加广泛。

参考文献

Andrew Ng, “Machine Learning”, Stanford University.

时间: 2024-08-01 14:31:50

机器学习 第五讲:Generative Learning Algorithm (A)的相关文章

Generative learning algorithm

本讲大纲: 1.生成学习算法(Generative learning algorithm) 2.高斯判别分析(GDA,Gaussian Discriminant Analysis) 3.朴素贝叶斯(Naive Bayes) 4.拉普拉斯平滑(Laplace smoothing) 1.生成学习算法 判别学习算法(discriminative learning algorithm):直接学习p(y|x)(比如说logistic回归)或者说是从输入直接映射到{0,1}. 生成学习算法(generati

机器学习 第六讲:Generative Learning Algorithm (B)

Naive Bayes 在GDA模型中,特征向量x是连续的实数向量,在这一讲里,我们将要讨论另外一种算法用来处理特征向量x是离散值的情况. 我们先考虑一个例子,用机器学习的方法建立一个垃圾邮件过滤器,我们希望用一种算法来甄别邮件的信息以确定该邮件是不是垃圾邮件,通过学习这个算法,我们将能建立自己的垃圾邮件过滤器帮我们对邮件进行分类,邮件分类只是一系列我们称之为文本分类中的一种. 首先假设我们有一个训练集(包括了垃圾邮件和正常的邮件),我们用特征向量x表示一封邮件,特征向量的长度等于该邮件所含有的

Stanford机器学习[第五讲]-生成学习算法

本课内容: 生成学习算法的介绍: 第一个典型的生成学习算法--高斯判别分析: 生成学习算法与之前的判别学习算法的对比: 朴素贝叶斯算法, Laplace平滑. 1.生成学习算法 学习算法分为两种:一种是判别学习算法(Discriminative Learning Algorithm),简称DLA,另一种是生成学习算法(Generative Learning Algorithm),简称GLA. DLA通过建立输入空间X与输出标注{1, 0}间的映射关系学习得到p(y|x).而GLA首先确定p(x|

生成学习算法(Generative Learning algorithms)

一:引言 在前面我们谈论到的算法都是在给定x的情况下直接对p(y|x;Θ)进行建模.例如,逻辑回归利用hθ(x) = g(θTx)对p(y|x;Θ)建模. 现在考虑这样一个分类问题,我们想根据一些特征来区别动物是大象(y=1)还是狗(y=0).给定了这样一个训练集,逻辑回归或感知机算法要做的就是去找到一个决策边界,将大象和狗的样本分开来.但是如果换个思路,首先根据大象的特征来学习出一个大象的模型,然后根据狗的特征学习出狗的模型,最后对于一个新的样本,提取它的特征先放到大象的模型中求得是大象的概率

【Perceptron Learning Algorithm】林轩田机器学习基石

直接跳过第一讲.从第二讲Perceptron开始,记录这一讲中几个印象深的点: 1. 之前自己的直觉一直对这种图理解的不好,老按照x.y去理解. a) 这种图的每个坐标代表的是features:features的值是有物理意义的. b) 而圈圈和叉叉是为了标注不同的样本(正样本 负样本),即label:为了后续的很多简便表示,这里正样本取+1,负样本取-1 2. Perceptron Learning策略的几何意义:表示临界线(面)的法向量旋转方向 由于label设为了+1和-1,可以直接用w+

【转载】机器学习——深度学习(Deep Learning)

机器学习——深度学习(Deep Learning) 分类: Machine Learning2012-08-04 09:49 142028人阅读 评论(70) 收藏 举报 algorithmclassificationfeaturesfunctionhierarchy Deep Learning是机器学习中一个非常接近AI的领域,其动机在于建立.模拟人脑进行分析学习的神经网络,最近研究了机器学习中一些深度学习的相关知识,本文给出一些很有用的资料和心得. Key Words:有监督学习与无监督学习

机器学习——深度学习(Deep Learning)

Deep Learning是机器学习中一个非常接近AI的领域,其动机在于建立.模拟人脑进行分析学习的神经网络,最近研究了机器学习中一些深度学习的相关知识,本文给出一些很有用的资料和心得. Key Words:有监督学习与无监督学习,分类.回归,密度估计.聚类,深度学习,Sparse DBN, 1. 有监督学习和无监督学习 给定一组数据(input,target)为Z=(X,Y). 有监督学习:最常见的是regression & classification. regression:Y是实数vec

(笔记)斯坦福机器学习第五讲--生成学习算法

 本讲内容 1. Generative learning algorithms(生成学习算法) 2. GDA(高斯判别分析) 3. Naive Bayes(朴素贝叶斯) 4. Laplace Smoothing(拉普拉斯平滑) 1.生成学习算法与判别学习算法 判别学习算法:直接学习  或者学习一个假设  直接输出0或者1.logistic回归是判别学习算法的一个例子. 生成学习算法:对  建模,即在给定所属的类别的情况下,对特征出现的概率建模.出于技术上的考虑,也会对  建模.   根据贝叶斯公

PLA Percentron Learning Algorithm #台大 Machine learning #

Percentron Learning Algorithm 于垃圾邮件的鉴别 这里肯定会预先给定一个关于垃圾邮件词汇的集合(keyword set),然后根据四组不通过的输入样本里面垃圾词汇出现的频率来鉴别是否是垃圾邮件.系统输出+1判定为垃圾邮件,否则不是.这里答案是第二组. 拿二维数据来做例子.我们要选取一条线来划分红色的叉叉,和蓝色的圈圈样本点(线性划分).怎么做呢?这里的困难之处就在于,其实可行的解可能存在无数条直线可以划分这些样本点.很难全部求解,或许实际生活中并不需要全部求解.于是,