贝叶斯决策_bayes

1、简单例子引入

2、先验概率

3、后验概率

4、最小错误率决策

5、最小风险贝叶斯决策

1. 贝叶斯公式

2简单例子

正常情况下,我们可以快速的将街上的人分成男和女两类。这里街上的人就是我们观测到的样本,将每一个人分成男、女两类就是我们做决策的过程。上面的问题就是一个分类问题。

分类可以看作是一种决策,即我们根据观测对样本做出应归属哪一类的决策。

假定我手里握着一枚硬币,让你猜是多少钱的硬币,这其实就可以看作一个分类决策的问题:你需要从各种可能的硬币中做出一个决策。硬币假设面值有1角、5角、1块。

如果事先告知这枚硬币只可能是一角或者五角,那么问题就是一个两分类问题。

3.先验概率

先验概率的一些问题

4.后验概率

5.决策

7.例子

例 假设在某个局部地区细胞识别中正常和异常两类的先验概率分别为,

正常状态

现有一待识别的细胞,其观察值为x,从类条件概率密度分布曲线上查得

试对该细胞进行分类。

解:利用贝叶斯公式,分别计算两类后验概率

8.最小错误率决策

根据贝叶斯决策规则,因为

P(w1 | x) = 0.818 > P(w2 | x) = 0.182

所以,将 x 归类于正常状态。

假设有某个观测值 x,

?若 x 使得 P(w1|x) > P(w2|x),则我们自然会做出真实类别是 w1 的判决

?若 x 使 得 P(w2|x) > P(w1|x),则我们更倾向于选择w2

据此规则进行一次判决的错误概率:

显然,对于某个给定的x,采用上述规则可以使错误概率最小。

问题是,这一规则能够使得平均错误概率最小吗?

平均错误概率:

如果对于每个 x 我们都能保证P(error|x)尽量小,则上述积分值也必然最小

9.最小风险贝叶斯决策

前面给出的是在最小错误率的原则下得到的决策规则。但是,根据情况的不同,我们关心的有可能不仅仅是错误率,而是错误所带来的损失。把五角错认成一角与一角错认成五角所带来的损失是不同的。

在癌细胞识别中,如果将正常细胞误判为癌细胞,会给病人带来精神上的负担和不必要的进一步检查,这是一种损失或风险;反之如果把癌细胞细胞误判为正常细胞,则损失更大,这可能会导致病人丧失宝贵的早期发现癌症的机会,甚至会造成影响病人生命的严重后果。

将这两种错误一视同仁来对待,在很多情况下是不恰当的。

所谓最小风险贝叶斯决策,就是考虑各种错误造成损失不同时的一种最优决策。

基本思想:

使错误率最小并不一定是一个普遍适用的最佳选择。

癌细胞分类

两种错误:

癌细胞 –>正常细胞

正常细胞 –>癌细胞

两种错误的代价(损失)不同

宁可扩大一些总的错误率,但也要使总的损失减少。

引进一个与损失有关联的,更为广泛的概念——风险。

在作出决策时,要考虑所承担的风险。

基于最小风险的贝叶斯决策规则正是为了体现这一点而产生的。

10.贝叶斯决策理论的分类方法

优点:数据较少仍然有效,可以处理多类别问题。

缺点:对于输入数据的准备方式较为敏感。

应用:文档分类的常用算法。

代码实例

问题分析:

实例说明

统一文本形式

代码实现

构建词汇表-词典

词向量—词集、词袋模型

类概率

类条件概率密度

判断:

存在问题

类条件概率及先验概率结果

结果

实例——使用贝叶斯方法对邮件进行分类

正常数据

垃圾邮件数据

分类步骤

垃圾邮件分类

时间: 2024-12-25 21:12:22

贝叶斯决策_bayes的相关文章

贝叶斯决策

贝叶斯决策理论是主观贝叶斯派归纳理论的重要组成部分. 贝叶斯决策就是在不完全情报下,对部分未知的状态用主观概率估计,然后用贝叶斯公式对发生概率进行修正,最后再利用期望值和修正概率做出最优决策. 贝叶斯决策理论方法是统计模型决策中的一个基本方法,其基本思想是: ★已知类条件概率密度参数表达式和先验概率 ★利用贝叶斯公式转换成后验概率 ★根据后验概率大小进行决策分类 例如:一座别墅在过去的 20 年里一共发生过 2 次被盗,别墅的主人有一条狗,狗平均每周晚上叫 3 次,在盗贼入侵时狗叫的概率被估计为

《机器学习导论》第三章 贝叶斯决策定理 学习笔记

在机器学习领域,我们碰到的第一个问题就是:如何选择特征量. 可是看了一些资料,这点好像都是一笔带过,因为很多都是所谓的不可观测量,如何把不可观测量量化呢?这个或许能给机器学习带来新的契机,就像当年牛顿把力.质量.加速度等模糊的概念定义下来,经典物理出现了前所未有的发展,香农把信息量化,造就了信息革命. 以前觉得贝叶斯好像没有大家说的那么神奇,现在知道,是因为当年对它的理解就有问题,贝叶斯更重要的一点应该是能够在加入evidence的情况下,从先验概率进化到后验概率,这点简直就是机器学习的内涵啊

基于最小错误率的贝叶斯决策

本文主要参考资料 最小错误率是在统计的意义上说的,请注意其含义. 在这里要弄清楚条件概率这个概念.P(*|#)是条件概率的通用符号,在“|”后边出现的#为条件,之前的*为某个事件,即在某条件#下出现某个事件*的概率.P(ωK|X)是表示在X出现条件下,样本为ωK类的概率. 一个事物在某条件下出现的概率P(*|#)与该事件在不带任何条件下出现的概率(写成P(*))是不相同的.例如全世界人口有60亿.因此你见到一个人在不带任何条件下,有20%的可能性是中国人P(*)=0.2,但是如果你在中国,或香港

基于贝叶斯决策的彩色图像中皮肤区域检测算法研究与实现

一.背景介绍 皮肤检测在人脸识别与跟踪.手势识别.图像检索与分类等诸多计算机应用领域都有着广泛的应用.上述研究课题都必须解决一个基础问题,那就是将图像精确的划分为皮肤和背景两种区域,划分的精确与否直接影响着后续工作的精度与性能,因此皮肤检测已经逐渐成为以上任务的先行步骤和技术基础. 皮肤检测的相关算法有很多,典型的包括:直方图统计方法.高斯混合模型方法.基于颜色的皮肤检测.基于纹理的皮肤检测.基于多特征的皮肤检测.基于小波变换的皮肤检测.基于差分的皮肤检测以及诸如使用空间扩散法等.其中M.J.J

哈尔滨工业大学计算机学院-模式识别-课程总结-贝叶斯决策理论(一)

一.贝叶斯决策理论 贝叶斯决策理论是解决分类问题的一种基本统计途径,其出发点是利用概率的不同分类决策,与相应决策所付出的代价进行折中,它假设决策问题可以用概率的形式描述,并且假设所有有关的概率结构均已知. 二.各种概率及其关系 先验概率: \[P(\omega_i)\] 后验概率: \[P(\omega_i | x)\] 类条件概率: \[P(x |\omega_i )\] 贝叶斯公式: \[P \left( \omega _ { i } | \mathbf { x } \right) = \f

贝叶斯决策 最大似然估计

贝叶斯决策 首先来看贝叶斯分类,我们都知道经典的贝叶斯公式: 其中:p(w):为先验概率,表示每种类别分布的概率::类条件概率,表示在某种类别前提下,某事发生的概率:而为后验概率,表示某事发生了,并且它属于某一类别的概率,有了这个后验概率,我们就可以对样本进行分类.后验概率越大,说明某事物属于这个类别的可能性越大,我们越有理由把它归到这个类别下. 我们来看一个直观的例子:已知:在夏季,某公园男性穿凉鞋的概率为1/2,女性穿凉鞋的概率为2/3,并且该公园中男女比例通常为2:1,问题:若你在公园中随

B-概率论-贝叶斯决策

[TOC] 更新.更全的<机器学习>的更新网站,更有python.go.数据结构与算法.爬虫.人工智能教学等着你:https://www.cnblogs.com/nickchen121/ 贝叶斯决策 一.贝叶斯决策理论 贝叶斯决策理论:在不完全情报下,对部分未知的状态用主观概率估计. 二.贝叶斯公式 2.1 从条件概率公式推导贝叶斯公式 若果$A$和$B$相互独立,则有$p(A,B) = p(A)p(B)$,并有条件概率公式 \[ p(A|B) = {\frac{p(A,B)}{p(B)}}

CIFAR-10数据集图像分类【PCA+基于最小错误率的贝叶斯决策】

CIFAR-10和CIFAR-100均是带有标签的数据集,都出自于规模更大的一个数据集,他有八千万张小图片.而本次实验采用CIFAR-10数据集,该数据集共有60000张彩色图像,这些图像是32*32,分为10个类,每类6000张图.这里面有50000张用于训练,构成了5个训练批,每一批10000张图:另外10000用于测试,单独构成一批.测试批的数据里,取自10类中的每一类,每一类随机取1000张.抽剩下的就随机排列组成了训练批.注意一个训练批中的各类图像并不一定数量相同,总的来看训练批,每一

模式分类---贝叶斯决策

2.1 在仅仅考虑判断误差(注意和后面代价的区别)的情况下,每次都以出现误差的概率尽可能小为原则.如何来满足这个原则?这就要求我们每次都选取后验概率大的类别作为判断结果!因为此种情形下,当我们观察到某一特定的$x$时,它的判断误差是这样定义的: \begin{equation}P(error|x)=\begin{cases}P(w_1|x) &\mbox{如果判断为}w_2\\P(w_2|x) &\mbox{如果判断为}w_1\end{cases}\end{equation}