Bayes贝叶斯
一、Bayes小故事
贝叶斯(约1701-1761) Thomas Bayes,英国数学家。约1701年出生于伦敦,做过神甫。1742年成为英国皇家学会会员。1761年4月7日逝世。
贝叶斯定理在概率统计是最经典的内容之一,但是本人却是一个谜团。没人知道他是怎么当选英国皇家学会会士,也没有记录表明他发表过任何科学或数学论文,据说他从事数学研究的目的是为了证明上帝的存在。贝叶斯定理是被后来的数学家拉普拉斯推广为熟知。
注;贝叶斯学派略,参数是稳定值还是随机变量的问题。
二、贝叶斯可以做什么?
事件中,我们经常会用到概率,概率论是研究随机现象的统计规律性的科学。
举例两个一模一样的碗,一号碗有30颗水果糖和10颗巧克力糖,二号碗有水果糖和巧克力糖各20颗。现在随机选择一个碗,从中摸出一颗糖,发现是水果糖。请问这颗水果糖来自一号碗的概率有多大?
我们可以轻易的得到,第一个或者第二个碗里白色糖的概率,但是我们不能知道拿出一个糖的概率,判断是从哪个盘里拿的?贝叶斯就是解决“逆问题”,从他的公式中,以及定了先验概率和后验概率中也能感觉出这一点。所以,也正如常用的分类问题。
举例2:
三、准备知识
大数定理(伯努利):所谓一个时间发生的频率具有稳定性(概率),是指当实验的次数无限时,在某种收敛意义下逼近某一定数。与之对应:所谓某一实验可能发生的各种结果的频率分布情况金丝某一分布(如测量误差的分布近似于正太分布),也是从某种极限意义上说的。所以,根据大数定理,当训练集包含充足的独立同分布样本时, P(C)先验概率可以通过各类样本的频率进行估计。
中心极限定理:在客观实际中有很多随机变量,它们是有大量的相互独立的随机因素的综合影响所形成。而其中每一个因素在总的影响中所起的作用都是微小的,这种随机变量往往近似地服从正态分布,这种现象就是中心极限定理。
条件概率:P(AB)=P(A)P(B|A)=P(B)P(A|B);即事件A和事件B同时发生的概率等于在发生A的条件下B发生的概率乘以A的概率
全概率公式:P(A)=P (A|B1)P(B1)+P(A|B2)P(B2)+..P(A|Bn)P(Bn)
高斯分布
四、贝叶斯公式
P(B)称为"先验概率"(Prior probability),即在B事件发生之前,我们对A事件概率的一个判断。
P(A|B)称为"后验概率"(Posterior probability),即在B事件发生之后,我们对A事件概率的重新评估。
后验概率 = (似然度 * 先验概率)/标准化常量也就是说,后验概率与先验概率和似然度的乘积成正比
实例; 现分别有 A,B 两个容器,在容器 A 里分别有 7 个红球和 3 个白球,在容器 B 里有 1 个红球和 9 个白球,现已知从这两个容器里任意抽出了一个球,且是红球,问这个红球是来自容器 A 的概率是多少?
假设已经抽出红球为事件 B,从容器 A 里抽出球为事件 A,则有:P(B) = 8 / 20,P(A) = 1 / 2,P(B | A) = 7 / 10,按照公式,则有:P(A|B)=(7 / 10)*(1/ 2)/(8/20)=0.875
五、最大似然贝叶斯分准则类
最大似然
最大似然分类(maximumlikelihoodclassification ):在两类或多类判决中,用统计方法根据最大似然比贝叶斯判决准则法建立非线性判别函数集,假定各类分布函数为正态分布,并选择训练区,计算各待分类样区的归属概率,而进行分类的一种图像分类方法。又称为贝叶斯(Bayes)分类法,是根据Bayes准则对遥感影像进行分类的。
设为离散型随机变量,为多维参数向量,如果随机变量相互独立且概率计算式为P{,则可得概率函数为P{}=,在固定时,上式表示的概率;当已知的时候,它又变成的函数,可以把它记为,称此函数为似然函数。似然函数值的大小意味着该样本值出现的可能性的大小,既然已经得到了样本值,那么它出现的可能性应该是较大的,即似然函数的值也应该是比较大的,因而最大似然估计就是选择使达到最大值的那个作为真实的估计。
主要这里似然函数是一个联合属性分布概率,和类条件概率是有关系的,也就有贝叶斯有关。最大值的估计,可以用概率判别属于哪一类的问题。也可以说是这类中像素中包含这个点的概率。在应用中就是,哪一类的概率高,认为属于哪一类。
在下面的最大似然估计求解过程,首先要注意要有一个属于分布,然后注意极值LOG后去偏导,找到估计最大值。
决 策
样本X出现的后验概率作为判别函数来确定所用类型,先验概率转化为后验概率,中间需要训练样本的类条件概率(概率密度函数),最后用后验概率最大原则确定样本所属于类型。
其中判别函数可以分类界限,是由公式决定,如下公式和图
其中对于类条件概率(联合概率)又分为,
l 基于最小错误率的贝叶斯分类
l 基于最小风险的贝叶斯分类
因为最小错误不一定是最好,有时候需要牺牲错误率,而减少风险,例如把好药错当我坏药要比把坏药当作好药的结果要好。
六、最大似然与贝叶斯联系与区别
1. 最大似然估计是求似然函数的最大,可以决定点属于哪类概率 对点的估计
2. 贝叶斯估计是求似然函数*先验概率的最大,是对分布的估计
3. 两者决策有相同。
七、贝叶斯的拓展
有缺点,会引出随机漫步(random walk)、马尔科夫链(markovcahain)、EM算法