Dempster-Shafer Evidence Theory

Dempster–Shafer theory

本文参考书Wikipedia中的 Dempster-Shafer thoery 原文链接:点击打开链接

同时还参考了浙江大学计算机学院人工智能系 徐从富 教授的《人工智能》课件。

在这里特别感谢!

一、 DS证据理论概述

核心: Dempster合成规则——将多个主体(可以是不同的人的预测、不同的传感器的数据、不同的分类器的输出结果等等)相融合

优点: 1、所需要的先验数据比概率推理理论中更直观、更容易获得 (不知道为什么);满足比Bayes概率理论更弱的条件,即 “不必满足概率可加性”

2、可以融合多种数据和知识(正如核心中所述)

3、具有直接表达 “不确定” 和 “不知道” 的能力,这些信息表示在mass函数中,并在证据合成过程中保留了这些信息(还没有理解感受到)。

缺点: 1、证据必须是独立的

2、证据合成规则没有非常坚固的理论支持,其合理性和有效性还存在较大的争议

3、计算上存在“指数爆炸问题”

4、在某些情况下得到的结果违背常理,如“Zadeh悖论”,具体见下面的例子

二、 DS证据理论基本概念

我们先来假设这样一个情景,有一个传感器探测一个很远处的一道光,这道光只能发出 {red, yellow, green}这三种中的一种光。传感器对所探测的光做出分析,形成了一些假设这道光可能是{Null, Red, Yellow, Green, Red or Yellow, Red or Green, Yellow or Green, Any},以及这些假设相应的可能性(也就是说Mass)。那么,DS证据理论是干啥呢,我感觉就是根据这个传感器提供的各个假设的信息,得到针对每一个假设的可信度区间。需要注意的是,这里的Red
or Yellow并不是P(Red) + P(Yellow), 而是Red or Yellow 这一假设的概率(其实我也还没太搞懂这之间的区别,只是感觉上应该不一样)。

这里先给出这一场景的所有信息表:

Hypothesis Mass Belief Plausibility
Null 0 0 0
Red 0.35 0.35 0.56
Yellow 0.25 0.25 0.45
Green 0.15 0.15 0.34
Red or Yellow 0.06 0.66 0.85
Red or Green 0.05 0.55 0.75
Yellow or Green 0.04 0.44 0.65
Any 0.1 1.0 1.0

OK,根据上面的例子,我们就来定义一下DS证据理论中的基本概念。

1. 首先我们设X
全域
(Universe):也就是指的上面那道光可能发出的颜色,即X = {Red, Yellow, Green}

对于X
全域,我们一共可以有多少种假设呢?很显然,就是 个啦 (包括空集),这个叫做识别框架,或者是假设空间。

比如说: 则 

对于我们的例子X =
{Red, Yellow, Green},={Null,
Red, Yellow, Green, Red or Yellow, Red or Green, Yellow or Green, Any}

2. DS证据理论针对识别框架中的每一个假设都分配了概率,我们称为基本概率分配(BPA,
Basic Probability Assignment)或者是基本置信分配     (BBA, Basic Belief Assignment )。这个分配函数我们称为mass函数

1)公式为:,每个假设的mass函数值(概率(probability)或者是置信度(belief)值)都在0和1之间;

2)同时,空集的mass函数值为
0,即另外其他的假设mass值得和为1,即,A
为所包含的假设。

3)其中,使得mass值大于0的假设 A称为焦元(Focal element)

在我们上面的例子中,Column 2 即为mass函数针对各个假设的值,m(Null) = 0, m(Red) + m(Yellow) + m(Green) + ... + m(Any) = 1 根据该列我们可以得到满足上面的定义。

3. 下面我们要根据mass函数来计算每一个假设的 信度函数
(Belief function) 以及 似然函数 (Plausibility function)

得到的信度函数和似然函数就是这个假设A 的概率范围了:

1)信度函数的定义如下:

该公式表示,对于假设A ,它的信度函数为所有真属于
A 的假设,即 B ,的mass值的和。

以上面的例子来讲,A假设为 Red,那么它的 Bel 函数值就是0.35, 因为只有它本身是属于假设
A

但是,如果假设A 为 Red or Yellow, 那么它的 Bel 函数值就不是0.06了, 而是 m(Null) + m(Red) + m(Yellow) + m(Red or Yellow) = 0 +   0.35 + 0.25 + 0.06 = 0.66

2) 似然函数的定义如下:

该公式表示,对于假设A
, 它的似然函数为所有与 A 相交不为空的假设 B 的mass值的和。

以上面的例子来讲, 还是 A假设为 Red,那么它的 pl 函数值为 m(Red) + m(Red or Yellow) + m(Red or Green) + m(Any) = 0.35 + 0.06 + 0.05 + 0.1 =0.56

3) 信任区间

根据上面的信度函数和似然函数,对于一个识别框架中的某个假设A , 我们可以根据其基本概率分配的mass函数来计算
A
Bel(A)Pl(A)。那么,由信任函数与似然函数组成的闭区间[Bel(A),Pl(A)]则为假设 A
的信任区间,表示对假设 A 的确认程度。

三、 Dempster合成规则

前面所述的都是只有一个主体(subject)对一个识别框架预测。而Dempster合成规则正是用来将多个主体的输出结果相结合的关键步骤。

两个主体的mass函数 m1m2 有:

其中

等价于                  

合成规则为两个mass函数 m1m2, 对于假设A的合成结果等于两个主体的假设中,所有相交为
A
的假设的mass函数值的乘积的和,再除以一个归一化系数 1-K。归一化系数 1-K
中的 K 的含义是证据之间的冲突(the conflict between the evidences, called conflict probability)(并不太明白为何能够表现证据之间的冲突,从公式上来看就是两个主体提供的证据不同的时候(B与C相交为了空集)的mass函数值乘积)

举个“栗子”:

一宗谋杀案有三个犯罪嫌疑人 U = {Peter, Paul, Mary}, 两个目击证人分别指证犯罪嫌疑人,得到两个mass函数
m1m2.

1)根据上述公式,为了求得合成规则 m12 ,我们先求归一化系数 1-K

然后再求合成之后的每个假设的mass函数值

2)Peter的组合mass函数值

3)Paul的组合mass函数值

4)Mary的组合mass函数值

由此,我们得到了如上表所示的组合函数 m12

根据得到的合成的mass函数,我们同样能计算对于组合mass函数对于各个假设的信度函数以及似然函数。

但是这一结果却有悖于我们的常识,因为在两个目击证人指证的证据中,Paul是凶手的概率都不大,但是最终的结果却直接指向了Paul。该例子就是“Zadeh悖论”。

若修改“Zadeh悖论”中的部分数据,如下表:

重新计算新的组合mass函数

1)还是先计算归一化系数 1-K

这次计算采用简便方法,用相交为空的公式来做(及上面的等价公式)

2)计算Peter的组合mass函数

3)计算Paul的组合mass函数

4)计算Mary的组合mass函数

5)计算{Peter, Paul, Mary}的组合mass函数

根据这次的结果,我们同样可以计算组合函数对每个假设的信度函数值以及似然函数值

以上就是Dempster-shafer 的基本概念和理论知识了。

时间: 2024-12-27 22:34:04

Dempster-Shafer Evidence Theory的相关文章

空间数据挖掘常用方法

问题1:空间数据挖掘有哪些常用方法,举例说明一种方法的原理及应用. 答:空间数据挖掘的常用方法有:统计法,聚类方法,关联规则发掘方法,Rough集方法,神经网络方法,云理论,证据理论,模糊集理论,遗传算法等算法(出自丁信宙,仇环,苏晓庆. 基于云理论的缺损数据推理和预测 山东理工大学学报 2006年11月).除此以外还有老师课件上提到的聚类检测,决策树方法等. 以下对于一些常见模型做一简述: 1.空间分析方法 (Spatial Analysis Approach) 利用GIS的各种空间分析模型和

d-s证据理论

证据理论是Dempster于1967年首先提出,由他的学生Shafer于1976年进一步发展起来的一种不精确推理理论,也称为Dempster/Shafer 证据理论(D-S证据理论),属于人工智能范畴,最早应用于专家系统中,具有处理不确定信息的能力.作为一种不确定推理方法,证据理论的主要特点是:满足比贝叶斯概率论更弱的条件:具有直接表达"不确定"和"不知道"的能力·. DS理论 在此之后,很多技术将 DS 理论进行完善和发展,其中之一就是证据合成 (Evidenti

Paper: A novel method for forecasting time series based on fuzzy logic and visibility graph

Problem Forecasting time series. Other methods' drawback: even though existing methods (exponential smoothing, auto-regression and moving average-MA, ARIMA, maximum entropy method, modified grey model) have a good performance, they are not accurate e

CCJ PRML Study Note - Chapter 1.2 : Probability Theory

Chapter 1.2 : Probability Theory Chapter 1.2 : Probability Theory Christopher M. Bishop, PRML, Chapter 1 Introdcution Chapter 1.2 : Probability Theory 1. Uncertainty 2. Example discussed through this chapter 3. Basic Terminology 3.1 Probability densi

Photography theory: a beginner's guide(telegraph.co.uk)

By Diane Smyth, Tim Clark, Rachel Segal Hamilton and Lewis Bush 11:00AM BST 09 Jun 2014 Have you read the Bible cover to cover? Probably not, but it's also fair to assume you know the basic plot, the central characters and a few choice quotes. This i

文摘:Slopegraphs for comparing gradients: Slopegraph theory and practice

原文地址:https://www.edwardtufte.com/bboard/q-and-a-fetch-msg?msg_id=0003nk Slopegraphs for comparing gradients: Slopegraph theory and practice Slopegraphs compare changes usually over time for a listof nouns located on an ordinal or interval scale. Many

决策理论(Decision theory)&自动规划和调度(Automated planning and scheduling)(双语)

译的不好,还请见谅... 大部分内容来自wiki decision theory决策理论部分: Normative and descriptive decision theory 规范和描述性决策理论 规范或规范的决策理论关心的是确定最好的决定(在实践中,有些情况下,"最好"的不一定是最大,最优可能还包括值除了最大,但在特定或近似范围),假设一个理想的决策者充分了解,能够准确无误地计算,完全理性的.这说明性的方法的实际应用(人们应该做出决定)决策分析,旨在发现工具,方法和软件帮助人们做

hdu-2685I won't tell you this is about number theory(数论)

题目链接: I won't tell you this is about number theory Problem Description To think of a beautiful problem description is so hard for me that let's just drop them off. :)Given four integers a,m,n,k,and S = gcd(a^m-1,a^n-1)%k,calculate the S. Input The fi

2017 UESTC Training for Graph Theory

2017 UESTC Training for Graph Theory A       思维 题意:给你一个有n个点和m条边的无向连通图,每条边都有一个权值w.我们定义,对于一条路径,它的Charm value为该路径上所有边的权值的最大值与最小值的差.询问从1到n的所有路径的Charm value的最小值. tags:有点思维定式了..一条路径里只要最大最小值,所以边可以重复走.这样我们只要把边从小到大枚举,把第 i 条边作为最小边,然后对于每个 i ,我们按顺序逐一加入比它大的边,直到点