贝叶斯法分类和最大似然

Bayes贝叶斯

一、Bayes小故事

贝叶斯(约1701-1761) Thomas Bayes,英国数学家。约1701年出生于伦敦,做过神甫。1742年成为英国皇家学会会员。1761年4月7日逝世。

贝叶斯定理在概率统计是最经典的内容之一,但是本人却是一个谜团。没人知道他是怎么当选英国皇家学会会士,也没有记录表明他发表过任何科学或数学论文,据说他从事数学研究的目的是为了证明上帝的存在。贝叶斯定理是被后来的数学家拉普拉斯推广为熟知。

注;贝叶斯学派略,参数是稳定值还是随机变量的问题。

二、贝叶斯可以做什么?

事件中,我们经常会用到概率,概率论是研究随机现象的统计规律性的科学。

举例两个一模一样的碗,一号碗有30颗水果糖和10颗巧克力糖,二号碗有水果糖和巧克力糖各20颗。现在随机选择一个碗,从中摸出一颗糖,发现是水果糖。请问这颗水果糖来自一号碗的概率有多大?

我们可以轻易的得到,第一个或者第二个碗里白色糖的概率,但是我们不能知道拿出一个糖的概率,判断是从哪个盘里拿的?贝叶斯就是解决“逆问题”,从他的公式中,以及定了先验概率和后验概率中也能感觉出这一点。所以,也正如常用的分类问题。

举例2:

三、准备知识

     大数定理(伯努利):所谓一个时间发生的频率具有稳定性(概率),是指当实验的次数无限时,在某种收敛意义下逼近某一定数。与之对应:所谓某一实验可能发生的各种结果的频率分布情况金丝某一分布(如测量误差的分布近似于正太分布),也是从某种极限意义上说的。所以,根据大数定理,当训练集包含充足的独立同分布样本时,   P(C)先验概率可以通过各类样本的频率进行估计

     中心极限定理:在客观实际中有很多随机变量,它们是有大量的相互独立的随机因素的综合影响所形成。而其中每一个因素在总的影响中所起的作用都是微小的,这种随机变量往往近似地服从正态分布,这种现象就是中心极限定理。

    条件概率:P(AB)=P(A)P(B|A)=P(B)P(A|B);即事件A和事件B同时发生的概率等于在发生A的条件下B发生的概率乘以A的概率

   全概率公式:P(A)=P (A|B1)P(B1)+P(A|B2)P(B2)+..P(A|Bn)P(Bn)

   高斯分布

四、贝叶斯公式

P(B)称为"先验概率"(Prior probability),即在B事件发生之前,我们对A事件概率的一个判断。

P(A|B)称为"后验概率"(Posterior probability),即在B事件发生之后,我们对A事件概率的重新评估。

后验概率 = (似然度 * 先验概率)/标准化常量也就是说,后验概率与先验概率和似然度的乘积成正比

实例; 现分别有 A,B 两个容器,在容器 A 里分别有 7 个红球和 3 个白球,在容器 B 里有 1 个红球和 9 个白球,现已知从这两个容器里任意抽出了一个球,且是红球,问这个红球是来自容器 A 的概率是多少?

假设已经抽出红球为事件 B,从容器 A 里抽出球为事件 A,则有:P(B) = 8 / 20,P(A) = 1 / 2,P(B | A) = 7 / 10,按照公式,则有:P(A|B)=(7 / 10)*(1/ 2)/(8/20)=0.875

五、最大似然贝叶斯分准则类

最大似然

      最大似然分类(maximumlikelihoodclassification ):在两类或多类判决中,用统计方法根据最大似然比贝叶斯判决准则法建立非线性判别函数集,假定各类分布函数为正态分布,并选择训练区,计算各待分类样区的归属概率,而进行分类的一种图像分类方法。又称为贝叶斯(Bayes)分类法,是根据Bayes准则对遥感影像进行分类的。

设为离散型随机变量,为多维参数向量,如果随机变量相互独立且概率计算式为P{,则可得概率函数为P{}=,在固定时,上式表示的概率;当已知的时候,它又变成的函数,可以把它记为,称此函数为似然函数。似然函数值的大小意味着该样本值出现的可能性的大小,既然已经得到了样本值,那么它出现的可能性应该是较大的,即似然函数的值也应该是比较大的,因而最大似然估计就是选择使达到最大值的那个作为真实的估计。

主要这里似然函数是一个联合属性分布概率,和类条件概率是有关系的,也就有贝叶斯有关。最大值的估计,可以用概率判别属于哪一类的问题。也可以说是这类中像素中包含这个点的概率。在应用中就是,哪一类的概率高,认为属于哪一类

在下面的最大似然估计求解过程,首先要注意要有一个属于分布,然后注意极值LOG后去偏导,找到估计最大值。

决 策

样本X出现的后验概率作为判别函数来确定所用类型,先验概率转化为后验概率,中间需要训练样本的类条件概率(概率密度函数),最后用后验概率最大原则确定样本所属于类型。

其中判别函数可以分类界限,是由公式决定,如下公式和图

其中对于类条件概率(联合概率)又分为,

l  基于最小错误率的贝叶斯分类

l  基于最小风险的贝叶斯分类

因为最小错误不一定是最好,有时候需要牺牲错误率,而减少风险,例如把好药错当我坏药要比把坏药当作好药的结果要好。

六、最大似然与贝叶斯联系与区别

1.     最大似然估计是求似然函数的最大,可以决定点属于哪类概率 对点的估计

2.     贝叶斯估计是求似然函数*先验概率的最大,是对分布的估计

3.     两者决策有相同。

七、贝叶斯的拓展

有缺点,会引出随机漫步(random walk)、马尔科夫链(markovcahain)、EM算法

时间: 2024-11-18 15:54:54

贝叶斯法分类和最大似然的相关文章

统计学习方法与Python实现(三)——朴素贝叶斯法

统计学习方法与Python实现(三)——朴素贝叶斯法 iwehdio的博客园:https://www.cnblogs.com/iwehdio/ 1.定义 朴素贝叶斯法是基于贝叶斯定理与特征条件独立假设的分类方法. 对于给定的训练数据集,首先基于特征条件独立假设学习输入输出的联合概率分布.然后基于此模型,对给定的输入x,利用贝叶斯定理求出后验概率最大的输出y,从而进行决策分类. 朴素贝叶斯法学习到的是生成数据的机制,属于生成模型. 设Ω为试验E的样本空间,A为E的事件,B1~Bn为Ω的一个划分,则

4.朴素贝叶斯法

朴素贝叶斯(naive Bayes) 法是基于贝叶斯定理与特征条件独立假设的分类方法.对于给定的训练数据集, 首先基于特征条件独立假设学习输入/输出的联合概率分布: 然后基于此模型, 对给定的输入x, 利用贝叶斯定理求出后验概率最大的输出y. 朴素贝叶斯法实现简单, 学习与预测的效率都很高, 是一种常用的方法. 1. 朴素贝叶斯法的学习与分类基本方法训练数据集: 由X和Y的联合概率分布P(X,Y)独立同分布产生朴素贝叶斯通过训练数据集学习联合概率分布P(X,Y) ,      即先验概率分布:

统计学习方法 李航---第4章 朴素贝叶斯法

第4章 朴素贝叶斯法 朴素贝叶斯 (naive Bayes) 法是基于贝叶斯定理与特征条件独立假设的分类方法.对于给定的训练数据集,首先基于特征条件独立假设学习输入/输出的联合概率分布:然后基于此模型,对给定的输入x,利用贝叶斯定理求出后验概率最大的输出Y. 4.1 朴素贝叶斯法的学习与分类 基本方法 朴素贝叶斯法通过训练数据集学习X和Y的联合概率分布 P(X,Y). 具体地,学习以 下先验概率分布及条件概率分布. 先验概率分布 条件概率分布 条件概率分布有指数级数量的参数,其估计实际是不可行的

统计学习方法——朴素贝叶斯法、先验概率、后验概率

朴素贝叶斯法,就是使用贝叶斯公式的学习方法,朴素就是它假设输入变量(向量)的各个分量之间是相互独立的.所以对于分量之间不独立的分布,如果使用它学习和预测效果就不会很好. 简化策略 它是目标是通过训练数据集学习联合概率分布$P(X, Y)$用来预测.书上说,具体是先学习到先验概率分布以及条件概率分布,分别如下:(但我认为,直接学习$P(X, Y)$就行了,它要多此一举算出这两个再乘起来变成$P(X, Y)$,但其实计算量差不多,可能这样更好理解吧) $P(Y = c_k), k = 1, 2, 3

朴树贝叶斯新闻分类系统

基于搜狗语料库,建立的一个新闻分类系统:类别包括: classifierMap.put(0, "IT"); classifierMap.put(1, "体育"); classifierMap.put(2, "健康"); classifierMap.put(3, "军事"); classifierMap.put(4, "招聘"); classifierMap.put(5, "教育"); c

朴素贝叶斯新闻分类,新浪SAE碰到的问题

1 如何将高版本的jdk通过Eclipse编译为较低版本的 2 当前SAE支持的jdk版本是1.6还有web项目war包不能是3.0版本及以上,必须编译为较低版本 3  No context on this server matched or handled this request问题:有的是jdk版本问题,还有是多了tomcat的servlet-api包的问题 4 文件读取中文乱码问题 br = new BufferedReader(new InputStreamReader( new Fi

朴素贝叶斯法-后验概率最大化

接着上一篇的继续来写. 朴素贝叶斯法分类时,对给定的输入x,通过学习得到的模型计算后验概率分布P(Y=ck|X=x),然后将后验概率最大的类作为x的类输出.后验概率计算根据贝叶斯定理进行: P(Y=ck|X=x)=P(X=x|Y=ck)*P(Y=ck)/(sum (k) P(X=x|Y=ck)*P(Y=ck)) 最后化简成:y=arg max(ck)P(Y=ck)联乘P(X(j)=x(j)|Y=ck).

【资源分享】今日学习打卡--朴素贝叶斯法 (naive bayes classifier)

今日学习打卡,是一个非常简单的模型,朴素贝叶斯法(naive bayes classifier) 总得来说就是贝叶斯 + naive 通过,贝叶斯来计算事件发生概率: 然后,naive就是假设各个因素之间相互独立,互不影响. 在现实生活中,因素经常是有内在联系的.如:是否今天下雨,考虑因素有:气压,湿度,温度.实际上这些因素是有内在联系的,但是模型中假设它们相互独立,所以称为naive.这样,在计算中相当简单,且往往预测结果还算不错的. 链接: https://pan.baidu.com/s/1

初探NO.3—从头到尾聊聊贝叶斯的分类方法

宅在家无聊之余决定看着<概率论和数理统计>&<统计学习方法>总结一下朴素贝叶斯和贝叶斯估计. 正好这一块我最近温习了一下,我从一开始条件概率开始写,把我所理解的贝叶斯分类算法完整呈现一下吧. 学的概率论最开始是在高中,当时是条件概率,给出条件概率的定义:事件A在另外一个事件B已经发生条件下的发生概率.条件概率表示为P(A|B),读作"在B条件下A的概率". 其次我们有必要温习一下乘法定理,乘法定理的定义:设P(A)>0,则有P(AB)=P(B|A)