Pattern Recognition And Machine Learning (模式识别与机器学习) 笔记 (1)

By Yunduan Cui

这是我自己的PRML学习笔记,目前持续更新中。

第二章 Probability Distributions 概率分布

本章介绍了书中要用到的概率分布模型,是之后章节的基础。已知一个有限集合 \(\{x_{1}, x_{2},..., x_{n}\}\), 概率分布是用来建立一个模型:\(p(x)\). 这一问题又称作密度估计( density estimation ).

主要内容
1. Binomial and Multinomial distributions 面向离散随机变量的伯努利分布与多项分布
2. Gaussian distribution 面向连续随机变量的高斯分布
3. 针对高斯分布的参数估计:频率学派/贝叶斯学派
4. 共轭先验,以及各个概率分布的统一
5. 参数/无参数方法

2.1 Binary Variables 二进制变量

  • 伯努利分布(Bernoulli distribution)

定义二进制随机变量 \(x \in \{0, 1\}\),伯努利分布满足:

\(Bern(x|\mu)=\mu^{x}(1-\mu)^{1-x}\)

其中 \(\mu\) 是控制该分布的参数,符合:

\(p(x=1|\mu)=\mu\).

伯努利分布的期望与方差满足:

\(\mathbb{E}[x] = \mu\)
\(var[x] = \mu(1-\mu)\)

当有一个观测集合 \(\mathcal{D}=\{x_{1}, x_{2},..., x_{n}\}\) 并假设观测之间都是相互独立的,我们就能得到一个关于 \(\mu\) 的似然函数(likelihood function):

\(p(\mathcal{D}|\mu)=
\displaystyle{\prod_{n=1}^{N}}p(x_{n}|\mu)=\displaystyle{\prod_{n=1}^{N}}\mu^{x_{n}}(1-\mu)^{1-x_{n}}\)

在求最大似然函数时,这种形式非常不方便运算,我们对\(p(\mathcal{D}|\mu)\)的对数式进行计算(转化连乘为连加):

\(\ln{p(\mathcal{D}|\mu)}=
\displaystyle{\sum_{n=1}^{N}}\ln{p}(x_{n}|\mu)=\displaystyle{\sum_{n=1}^{N}}\{x_{n}\ln{\mu}+(1-x_{n})\ln{(1-\mu)}\}\)

求其最大值,得到 \(\mu_{ML}=\frac{1}{N}\displaystyle{\sum_{n=1}^{N}}x_{n}\) 这就是在该观测集上伯努利分布的最大似然估计。等价于经验风险最小化

最大似然估计也有缺陷,假如观测集合太少,过拟合就极易发生(比如投掷硬币三次若都是头像朝上的话,最大似然估计将直接判断向上的概率为\(100\%\),这显然不对)。 我们可以通过引入先验 \(\mu\) 来避免这种情况。变成了最大后验估计即结构风险最小化——详见后面的贝塔分布

  • 二项分布(binomial distribution)

伯努利分布中观测集合 \(\mathcal{D}\) 是给定的,当我们仅知道 \(x=1\) 的观测次数是 \(m\) 时,我们能推导出二项分布:

\(Bin(m|N,\mu)=\binom{N}{m}\mu^{m}(1-\mu)^{N-m}=\frac{N!}{(N-m)!m!}\mu^{m}(1-\mu)^{N-m}\)

这是关于某事件发生多少次的概率。二项分布的期望与方差满足:

\(\mathbb{E}[m] = \displaystyle{\sum_{m=0}}mBin(m|N,\mu)=N\mu\)
\(var[m] = \displaystyle{\sum_{m=0}}(m-\mathbb{E}[m])^{2}Bin(m|N,\mu)=N\mu(1-\mu)\)

  • 贝塔分布(beta distribution)

这一节考虑怎么引入先验信息到二进制分布中,并介绍共轭先验(conjugacy prior)

贝塔分布是作为先验概率分布被引入的,它由两个超参数 \(a, b\) 控制。

\(Beta(\mu|a,b)=\frac{\Gamma(a+b)}{\Gamma(a)\Gamma(b)}\mu^{a-1}(1-\mu)^{b-1}\)

\(\Gamma(x)\equiv \int_{0}^{\infty}u^{x-1}e^{-u}du\)

其中的系数保证了贝塔分布的归一性 \(\int_{0}^{\infty}Beta(\mu|a,b)d\mu=1\). 贝塔分布的期望与方差满足:

\(\mathbb{E}[\mu] = \frac{a}{a+b}\)
\(var[m] = \frac{ab}{(a+b)^{2}(a+b+1)}\)

待续

时间: 2024-12-19 01:06:47

Pattern Recognition And Machine Learning (模式识别与机器学习) 笔记 (1)的相关文章

Pattern Recognition and Machine Learning (preface translation)

前言 鉴于机器学习产生自计算机科学,图像识别却起源于工程学.然而,这些活动能被看做同一个领域的两个方面,并且他们同时在这过去的十年间经历了本质上的发展.特别是,当图像模型已经作为一个用来描述和应用概率模型的框架出现时,贝叶斯定理(Bayesian methods)就已经从一个专家级别的知识范畴发展成为主流.通过一系列近似算法推论,例如变分贝叶斯和期望传播(variational Bayes and expectation propagation),贝叶斯定理的实际适用范围也已经大幅度的提高.与此

今天开始学习模式识别与机器学习Pattern Recognition and Machine Learning (PRML),章节5.1,Neural Networks神经网络-前向网络。

话说上一次写这个笔记是13年的事情了···那时候忙着实习,找工作,毕业什么的就没写下去了,现在工作了有半年时间也算稳定了,我会继续把这个笔记写完.其实很多章节都看了,不过还没写出来,先从第5章开始吧,第2-4章比较基础,以后再补! 第5章 Neural Networks 在第3章和第4章,我们已经学过线性的回归和分类模型,这些模型由固定的基函数(basis functions)的线性组合组成.这样的模型具有有用的解析和计算特性,但是因为维度灾难(the curse of dimensionali

今天开始学Pattern Recognition and Machine Learning (PRML),章节5.2-5.3,Neural Networks神经网络训练(BP算法)

转载请注明出处:Bin的专栏,http://blog.csdn.net/xbinworld 这一篇是整个第五章的精华了,会重点介绍一下Neural Networks的训练方法--反向传播算法(backpropagation,BP),这个算法提出到现在近30年时间都没什么变化,可谓极其经典.也是deep learning的基石之一.还是老样子,下文基本是阅读笔记(句子翻译+自己理解),把书里的内容梳理一遍,也不为什么目的,记下来以后自己可以翻阅用. 5.2 Network Training 我们可

[Machine Learning & Algorithm]CAML机器学习系列2:深入浅出ML之Entropy-Based家族

声明:本博客整理自博友@zhouyong计算广告与机器学习-技术共享平台,尊重原创,欢迎感兴趣的博友查看原文. 写在前面 记得在<Pattern Recognition And Machine Learning>一书中的开头有讲到:“概率论.决策论.信息论3个重要工具贯穿着<PRML>整本书,虽然看起来令人生畏…”.确实如此,其实这3大理论在机器学习的每一种技法中,或多或少都会出现其身影(不局限在概率模型). <PRML>书中原话:”This chapter also

Machine Learning第八周笔记

刚刚完成了Machine Learning第八周的课程,这一周主要介绍了K-means和降维,现将笔记整理在下面. Unsupervised Learning Clustering Unsupervised Learning: Introduction 今天我们开始介绍无监督式学习(unsupervised learning).下面两张图分别代表典型的有监督式学习和无监督式学习.一个典型的有监督式学习是从一个有标记的训练数据集出发(图中的两类数据点分别用圈圈和叉叉表示,圈圈一类,叉叉一类),目标

利用Microsoft Azure Machine Learning Studio创建机器学习实例

Microsoft Azure云服务推出机器学习的模块,用户只需上传数据,利用机器学习模块提供的一些算法接口和R语言或别的语言接口,就能利用Microsoft Azure强大的云计算能力来实现自己的机器学习的任务. 本文浅尝了该机器学习模块,参照官方实例和帮助文档,完成了一个简单的应用实例,具体步骤如下. 1.新建workspace 注意,在填写workspace owner,一定要填写一个有效的windows live 账号 进入创建的workspace,界面如下图所示 2.上传数据 数据源:

Machine Learning第十周笔记:大规模机器学习

刚刚完成了Andrew Ng在Cousera上的Machine Learning的第十周课程,这周主要介绍的是大规模机器学习,现将笔记整理在下面. Gradient Descent with Large Datasets Learning With Large Datasets 在前面介绍bias-variance的时候,我们曾提到一个比较各种算法孰优孰劣的实验,结论是"it's not who has the best algorithm that wins, it's who has the

Machine Learning第十一周笔记:photo OCR

博客已经迁移至Marcovaldo's blog (http://marcovaldong.github.io/) 刚刚完毕了Cousera上Machine Learning的最后一周课程.这周介绍了machine learning的一个应用:photo OCR(optimal character recognition,光学字符识别),以下将笔记整理在以下. Photo OCR Problem Description and Pipeline 最后几小节介绍机器学习的一个应用--photo O

Machine Learning: Clustering &amp; Retrieval机器学习之聚类和信息检索(框架)

Case Studies: Finding Similar DocumentsLearning Outcomes:  By the end of this course, you will be able to:(通过本章的学习,你将掌握)   -Create a document retrieval system using k-nearest neighbors.用K近邻构建文本检索系统   -Identify various similarity metrics for text data