基于最小错误率的贝叶斯决策

  本文主要参考资料

  最小错误率是在统计的意义上说的,请注意其含义。
  在这里要弄清楚条件概率这个概念。P(*|#)是条件概率的通用符号,在“|”后边出现的#为条件,之前的*为某个事件,即在某条件#下出现某个事件*的概率。P(ωK|X)是表示在X出现条件下,样本为ωK类的概率。
  一个事物在某条件下出现的概率P(*|#)与该事件在不带任何条件下出现的概率(写成P(*))是不相同的。例如全世界人口有60亿。因此你见到一个人在不带任何条件下,有20%的可能性是中国人P(*)=0.2,但是如果你在中国,或香港、台湾,那么中国、香港、台湾都是指一种条件(#),这种地理条件下,你所见到的某一个人是中国人(*)的概率就要大得多,此时P(*|#)就应该大于20%,甚至更多了。
  下面先讨论一个例子——癌细胞的识别,以此说明解决问题的过程。假设每个要识别的细胞已作过预处理,并抽取出了d个特征描述量,用一个d维的特征向量X表示,识别的目的是要依据该X向量将细胞划分为正常细胞或者异常细胞。这里我们用ω表示是正常细胞,而ω则属于异常细胞。
  类别的状态是一个随机变量,而某种状态出现的概率是可以估计的。概率的估计包含两层含义,一是由统计资料表明,正常细胞与异常细胞在统计意义上的比例,这称为先验概率P(ω1)及P(ω2),另一种则分别表示所检查细胞呈现出不同属性的概率密度函数P(x|ω1)和P(x|ω2),显然在一般情况下正常细胞占比例大,即P(ω1)>P(ω2),因此如果我们不对具体的细胞化验值作仔细观察,我们作出该细胞是正常细胞的判决,在统计的意义上来说,也就是平均意义上说,错判可能性比判为异常细胞时小。但是仅按先验概率来决策,就会把所有细胞都划归为正常细胞,并没有达到将正常细胞与异常细胞区分开的目的。这表明由先验概率所提供的信息太少。
  为此我们还必须利用对细胞作病理分析所观测到的信息,也就是所抽取到的d维观测向量。为简单起见,我们假定只用其一个特征进行分类,即d=1,并已知这两类的类条件概率密度函数分布已知,如图2.1所示,其中P(x|ω1)是正常细胞的属性分布,P(x|ω2)是异常细胞的属性分布。那末,当观测向量为X值时,它属于各类的概率又是多少呢?为此我们可以利用贝叶斯公式, 来计算这种条件概率,称之为状态的后验概率P(ωi|X)。

  Bayes(贝叶斯)公式是根据联合概率这一概念推出的,同时出现两个事件X及ωi的概率为P(x,ωi)。它是某个条件出现的概率(如P(ωi)),以及在此条件下某事件出现概率(P(x|ωi))的乘积,在此写为:
  P(x,ωi)=P(x|ωi)P(ωi)=P(ωi|x)P(x) 。先验概率是针对ωi,I=1,2,…,c,这c个事件出现的可能性而言的,不考虑其它任何条件。例如世界上有60亿人口,而中国人口12亿,因此不管其它条件,应有20%的可能是中国人。
  类条件概率密度函数P(x|ωi)是指ωi条件下在一个连续的函数空间出现X的概率密度,在我们这里指第ωi类样本他的属性X是如何分布的。
  (2-1)式表明,在得到一个待识别量的观测状态X后,我们可以通过先验概率P(ωi)及类别条件概率密度函数P(x|ωi),得到呈现状态X时,该样本分属各类别的概率,显然这个概率值可以作为我们识别对象判属的依据。上例中图2.1表示的类条件概率可用式(2-1)换算成如图2.2所示的后验概率分布。可以看出,在X值小时,细胞被判为正常是比较合理的,判断错误的可能性小。基于最小错误概率的贝叶斯决策理论就是按后验概率的大小作判决的。这个规则又可以写成如下几种等价形式:

(1) 如果 ,则 (2-2)
(2) 如用先验概率及类条件概率密度函数表示,则有:

  如果 , 则 (2-3)
  (3) 以比值的方式表示,
  如果 ,则 ,否则 (2-4)
  (4) (2-4)式还可改写成为对数形式,若
  
  则 ,否则 (2-5)
  其中(2-4)式中的l(x)在统计学中称为似然比,而称为似然比阈值。而式(2-5)中h(x)是似然比写成相应的负对数形式。它的好处是,与利用(2-4)式本身相比较,进行计算更为方便。

  下面举一数值例子。
  例2.1
  假设在某地区切片细胞中正常(ω1)和异常(ω)两类的先验概率分别为P(ω1)=0.9,P(ω2)=0.1。现有一待识别细胞呈现出状态x,由其类条件概率密度分布曲线查得p(x|ω1)=0.2,p(x|ω)=0.4,试对细胞x进行分类。
  解:利用贝叶斯公式,分别计算出状态为x时ω1与ω的后验概率
  
而 
  根据贝叶斯决策(2-2)则有
  P(ω1|x)=0.818>P(ω|x)=0.0182
  因此判定该细胞为正常细胞比较合理。
  从这个例子可以看出,尽管类别ω呈现出状态x的条件概率要高于ω1类呈现此状态的概率,但是考虑到P(ω1)远大于P(ω),因此状态x属于类别ω1的可能性远比属于类别ω的可能性大。将该细胞判为正常在统计的意义上讲出错率要小得多。
  还要强调一下条件概率这个概念。我们举出两对概率,一对是P(ω1|x)和P(ω|x),另一对是P(x|ω1)和P(x|ω1)。从表面上看,只是条件符号两边的项对换了位置,但实质上却有很大区别。前一对是在同一条件x下,比较ω1与ω2出现的概率,如果我们只考虑两类ω1和ω2,则有P(ω1|x)+P(ω2|x)=1。而对两者进行数值上的比较,如P(ω1|x)> P(ω2|x)则可以下结论,在x条件下,事件ω1出现的可能性大。
  对后一对概率来说,与第一对完全不同,因为它们是在不同条件下讨论的问题因此比较两者没有意义,而且即使只有两类ω1与ω2,P(x|ω1)+P(x|ω1)≠1。这里要特别强调一点是P(x|ω1)与P(x|ω2)两者没有联系,都是指各自条件下出现x的可能性,不能仅因为前者比后者大,就认为x是第一类事物的可能性较大,只有考虑先验概率这一因素,才能决定x条件下,ω1类还是ω2类的可能性比较大。
  另外大家可能觉得比较奇怪,为什么后验概率要利用Bayes公式从先验概率和类条件概率密度函数计算获得。这是因为计算概率都要拥有大量数据才行。在估计先验概率与类条件概率密度函数时都可搜集到大量样本,而对某一特定事件(如x)要搜集大量样本是不太容易的。因此只能借助Bayes公式来计算得到。
  对基于最小错误率的贝叶斯决策来说,以后验概率值的大小作判据是最基本的方法,而其它形式的作用都基本相同,但使用时更方便些。
以上讨论的是在两类情况下基于最小错误概率的贝叶斯决策规则,下面需证明按这种规则进行分类确实使错误率为最小。下面仅以一维情况来证明,其结果并不难推广到多维的情况。

  由于统计判别方法是基于统计参数作出决策,因此错误率也只能从平均的意义上讲,表示为在观测值可能取值的整个范围内错识率的均值。在连续条件下,平均错误率,以P(e)表示,应有
  (2-6)
  其中p(e,x)表示错误率为e观测值为x的联合概率密度,P(e|x)是观测值为x时的条件错误概率密度函数,P(x)为x值出现的概率,而积分运算则表示为在整个d维特征空间上的总和。在此一维情况下,x取从-∞到+∞的整个范围。
  在两类别问题中,按(2-2)式给出的决策规则,当P(w2|x)>p(w1|x)时决策为w2。显然这个决策意味着,对观测值x有P(w1|x)概率的错误率。例如在上例中所作的w1决策,实际上包含有P(w2|x)=0.182的错误概率。在两类别的情况下,可以将p(e|x)表示成当
  (2-7)
  如果我们把作出w1决策的所有观测值区域称为R1,则在R1区内的每个x值,条件错误概率为p(w2|x)。另一个区R2中的x,条件错误概率为p(w1|x)。因此平均错误率P(e)可表示成
  (2-8)
  由于在R1区内任一个x值都有P(w2|x)<P(w1|x),同样在R2区内任一个x值都有P(w1|x)<P(w2|x)错误率在每个x值处都取小者,因而平均错误率P(e)也必然达到最小,这就证明了按(2-2)式作出的决策,其平均错误率为最小。

  为了形象地说明以上证明,图2.3表示了在某种概率分布下R1与R2区的分布情况,该图分别画出p(x|ω1)P(ω1)及p(x|ω2)P(ω2)的分布情况,由于P(e)也可以(2-8)式写成
  (2-9)
  因此错误率为图中两个划线部分之和,显而易见只有这种划分才能使对应的错误率区域面积为最小。
  以上讨论的是两类别问题情况,在C类别情况下,很容易写成相应的最小错误率贝叶斯决策规则:
  如果 ,则 (2-10)
  也可将其写成用先验概率与类条件概率密度相联系的形式,得:
  如果
   (2-11)
  至于计算多类别决策过程中的错误率,需把特征空间分割成R1,R2,…,Rc个区域,在每个区域Ri统计将所有其它类错误划为该区域对应的i类的概率,则每个区域共有c-1项错误率,总共有c(c-1)计算项,计算是很繁琐的。为此,可以改成计算平均正确分类概率P(c)即
  (2-12)
  由于上式中只有c项,计算要简单得多。然后通过式子P(e)=1-P(c),就可计算出平均错误率。

  下面是一个程序示例:

  现有一组待识别的细胞样本,其先验概率为0.8(正常)和0.2(异常);其观察值相应的类条件概率密度存放在文件file1.txt中,试利用最小错误率贝叶斯决策规则,设计一个分类器,对它们进行分类(分为两类,正常和异常),并将结果输出到一个新文件file2.txt中

注:在文件file1.txt中存放了正常状态下(第一行)和异常状态下(第二行)细胞特征观察值的类条件概率密度。

#include<iostream>
#include<fstream>
using namespace std;
int main(){
    ifstream datatxt;
    ofstream result;
    datatxt.open("file1.txt", ios::in);
    double* data = new double[40];
    int i = 0;
    while (datatxt){
        datatxt >> data[i];
        i++;
    }
    datatxt.close();
    result.open("file2.txt");
    result << "正常概率\t异常概率\t判断结果\n";

    double sum = 0, pro1 = 0, pro2 = 0, priorpro1=0.8,priorpro2=0.2;
    for (int j = 0; j < 20; j++){
        sum = priorpro1*data[j] + priorpro2*data[j + 20];
        pro1 = priorpro1*data[j] / sum;
        pro2 = priorpro2*data[j+20] / sum;
        result << pro1 << "\t";
        result << pro2<<"\t";
        if (pro1 > pro2){
            result << "正常\n";
        }
        else{
            result << "异常\n";
        }
    }
    result.flush();
    result.close();
    return 0;
}

附:

file1.txt:

0.03 0.15 0.07 0.16 0.05 0.06 0.19 0.19 0.09 0.14 0.04 0.03 0.17 0.04 0.06 0.18 0.10 0.16 0.06 0.18
0.17 0.05 0.13 0.04 0.15 0.14 0.01 0.01 0.11 0.06 0.16 0.17 0.03 0.16 0.14 0.02 0.10 0.04 0.14 0.02

file2.txt

正常概率 异常概率 判断结果
0.413793 0.586207 异常
0.923077 0.0769231 正常
0.682927 0.317073 正常
0.941176 0.0588235 正常
0.571429 0.428571 正常
0.631579 0.368421 正常
0.987013 0.012987 正常
0.987013 0.012987 正常
0.765957 0.234043 正常
0.903226 0.0967742 正常
0.5 0.5 异常
0.413793 0.586207 异常
0.957746 0.0422535 正常
0.5 0.5 异常
0.631579 0.368421 正常
0.972973 0.027027 正常
0.8 0.2 正常
0.941176 0.0588235 正常
0.631579 0.368421 正常
0.972973 0.027027 正常

时间: 2024-10-09 10:51:26

基于最小错误率的贝叶斯决策的相关文章

CIFAR-10数据集图像分类【PCA+基于最小错误率的贝叶斯决策】

CIFAR-10和CIFAR-100均是带有标签的数据集,都出自于规模更大的一个数据集,他有八千万张小图片.而本次实验采用CIFAR-10数据集,该数据集共有60000张彩色图像,这些图像是32*32,分为10个类,每类6000张图.这里面有50000张用于训练,构成了5个训练批,每一批10000张图:另外10000用于测试,单独构成一批.测试批的数据里,取自10类中的每一类,每一类随机取1000张.抽剩下的就随机排列组成了训练批.注意一个训练批中的各类图像并不一定数量相同,总的来看训练批,每一

最小错误率训练(mert)基本原理学习

在看本博文之前,最好阅读如下三篇文章: 1. Discriminative Training and Maximum Entropy Models for Statistical Machine Translation 2. Minimum Error Rate Training in Statistical Machine Translation 3. Z-MERT: A Fully Configurable Open Source Tool for Minimum Error Rate Tr

初学算法-基于最小堆的优先级队列C++实现

笔者近日实现了最小堆类及其派生的优先级队列,特将代码奉上,不足之处还请指出! 在实现优先级队列时,笔者表示萌萌哒没有用过template写派生类,结果写完了出现error: *** was not decleared in this scope..后来各种补上this->才完事,在CSDN(笔者的帖子地址? http://bbs.csdn.net/topics/391806995)上提问后才知道是模板参数依赖,笔者表示涨姿势了.. /**  * The Minimum Heap Class an

搭建LNMP环境(基于最小化安装CentOS 6.5)

本文档主要说明在单台服务器上手动安装LNMP环境的操作步骤,本文档使用的系统版本可能与您的实际使用版本不同,您可以根据实际情况选择相应版本. 一.本文档LNMP环境版本说明: OS:最小化安装CentOS 6.5 Nginx:nginx-1.10.2.tar.gz MySQL:mysql-5.6.24.tar.gz PHP:php-5.6.23.tar.bz2 二.搭建LNMP环境基本步骤 1. 准备编译环境 2. 安装nginx 3. 安装mysql 4. 安装php-fpm 5. 测试访问

基于最小化CENTOS6.6最小化安装,oracle 11g 数据安装过程!

Linux环境配置 OS:CentOS 6.6 DB:Oracle 11gR2 将Oracle安装到home/oracle目录 配置过程:本文来自Oracle官方文档+网上资料 Oracle官方文档:http://www.oracle.com/pls/db112/homepage 1. 以root用户登录到Linux 2. 检查机器硬件要求 2.1 内存要求 至少需要1GB的内存  查看机器内存大小  # grep MemTotal /proc/meminfoswap 空间调整swapoff -

Dockerfile基于最小化选择性安装服务的2种方法

方法1mkdir sscd ss/touch Dockerfile //名字必须是这个cp /etc/yum.repos.d/dvd.repo .vim 1.sh#!/bin/bashEnvironmentFile=/etc/sysconfig/sshd/usr/sbin/sshd -D &EnvironmentFile=/etc/sysconfig/httpd/usr/sbin/httpd -DFOREGROUNDchmod 755 1.shvim Dockerfile FROM centos

Bayesian statistics

目录 1Bayesian model selection贝叶斯模型选择 1奥卡姆剃刀Occams razor原理 2Computing the marginal likelihood evidence 2-1 BIC approximation to log marginal likelihood 2-2贝叶斯因子 3先验 3-1 确定无信息先验分布的Jeffreys原则 3-2共轭先验Conjugate Priors 4Hierarchical Bayes 5Empirical Bayes 6

数据挖掘-贝叶斯分类器

数据挖掘-贝叶斯分类 目录 数据挖掘-贝叶斯分类 1. 贝叶斯分类器概述 1.1 贝叶斯分类器简介 1.1.1 什么是贝叶斯分类器? 1.1.2 朴素贝叶斯分类器 2. 数学基础 2.1 概率论 2.1.1 概率 2.1.2 贝叶斯理论 3. 贝叶斯决策论 3.1 贝叶斯决策 3.1.1 贝叶斯决策介绍 3.2 基于最小错误率的贝叶斯决策 3.2.1 什么时候会分错类? 3.2.2 基于最小错误率的贝叶斯分类器 3.2.3 基于最小错误率的贝叶斯决策的证明 3.2.4 分类决策边界 3.2 基于

贝叶斯决策_bayes

1.简单例子引入 2.先验概率 3.后验概率 4.最小错误率决策 5.最小风险贝叶斯决策 1. 贝叶斯公式 2简单例子 正常情况下,我们可以快速的将街上的人分成男和女两类.这里街上的人就是我们观测到的样本,将每一个人分成男.女两类就是我们做决策的过程.上面的问题就是一个分类问题. 分类可以看作是一种决策,即我们根据观测对样本做出应归属哪一类的决策. 假定我手里握着一枚硬币,让你猜是多少钱的硬币,这其实就可以看作一个分类决策的问题:你需要从各种可能的硬币中做出一个决策.硬币假设面值有1角.5角.1