贝叶斯方法的m-估计

为什么要有m-估计？

当我们通过在全部事件的基础上观察某事件出现的比例来估计概率时，例如：P=nc/n.，其中nc为该类别中的样本数量，n为总样本数量。若n=5，当P=0.6时，则nc为3。多数情况下该比例是对概率的一个良好的估计。但当nc很小时估计会较差，例如：P=0.08，样本中同样有5个样例，那么对于nc最可能的取值只有0,。这会导致两个问题：

1、nc/n产生了一个有偏的过低估计概率。

2、当此概率估计为0时，将来的查询此概率项将会在贝叶斯分类器中占统治地位。原因是贝叶斯公式中计算得量其他所有概率项都将乘以此0值。

为了避免此问题，所以需要采用一种估计概率，即如下定义的m-估计：

其中nc为该类别中的样本数量，n为总样本数量，p为将要确定的概率的先验估计，m为等效样本大小的常量。

为什么m-估计的公式是这样的？

首先，请思考问题出现的根本原因，问题出现的根本原因是样本数量过小。所以为了避免此问题，最好的方法是等效的扩大样本的数量，即在为观察样本添加m个等效的样本，所以要在该类别中增加的等效的类别的数量就是等效样本数m乘以先验估计p。

为什么在贝叶斯应用（如mahout）中使用的公式如下呢？

其中nk为单词W出现的次数，n为所有单词出现的次数。

其实，这只是m的取值的关系，当等效样本数m为词汇表中的单词数时，自然取统一的先验概率的p的值就是1/|vocabulary|咯。

转自：http://www.xuebuyuan.com/1562982.html

时间： 2024-11-10 18:43:22

贝叶斯方法的m-估计的相关文章

贝叶斯方法

学习资料:http://mindhacks.cn/2008/09/21/the-magical-bayesian-method/ 概率论只不过是把常识用数学公式表达了出来. ——拉普拉斯记得读本科的时候,最喜欢到城里的计算机书店里面去闲逛,一逛就是好几个小时:有一次,在书店看到一本书,名叫贝叶斯方法.当时数学系的课程还没有学到概率统计.我心想,一个方法能够专门写出一本书来,肯定很牛逼.后来,我发现当初的那个朴素归纳推理成立了——这果然是个牛逼的方法. ——题记目录 0. 前言 1. 历史

数学之美番外篇：平凡而又神奇的贝叶斯方法

转载自:http://mindhacks.cn/2008/09/21/the-magical-bayesian-method/ 概率论只不过是把常识用数学公式表达了出来. ——拉普拉斯记得读本科的时候,最喜欢到城里的计算机书店里面去闲逛,一逛就是好几个小时:有一次,在书店看到一本书,名叫贝叶斯方法.当时数学系的课程还没有学到概率统计.我心想,一个方法能够专门写出一本书来,肯定很牛逼.后来,我发现当初的那个朴素归纳推理成立了——这果然是个牛逼的方法. ——题记目录 0. 前言 1. 历史

【转载】数学之美番外篇：平凡而又神奇的贝叶斯方法

数学之美番外篇:平凡而又神奇的贝叶斯方法 BY 刘未鹏 – SEPTEMBER 21, 2008POSTED IN: 数学, 机器学习与人工智能, 计算机科学概率论只不过是把常识用数学公式表达了出来. ——拉普拉斯记得读本科的时候,最喜欢到城里的计算机书店里面去闲逛,一逛就是好几个小时:有一次,在书店看到一本书,名叫贝叶斯方法.当时数学系的课程还没有学到概率统计.我心想,一个方法能够专门写出一本书来,肯定很牛逼.后来,我发现当初的那个朴素归纳推理成立了——这果然是个牛逼的方法. ——题记目

机器学习笔记：朴素贝叶斯方法（Naive Bayes）原理和实现

本文主要描述了朴素贝叶斯分类方法,包括模型导出和学习描述.实例部分总结了<machine learning in action>一书中展示的一个该方法用于句子感情色彩分类的程序. 方法概述学习(参数估计) 实现:朴素贝叶斯下的文本分类模型概述朴素贝叶斯方法,是指朴素:特征条件独立贝叶斯:基于贝叶斯定理根据贝叶斯定理,对一个分类问题,给定样本特征x,样本属于类别y的概率是 p(y|x)=p(x|y)p(y)p(x)......(1) 在这里,x是一个特征向量,将设x维度为M.因为朴素

【原】对频率论（Frequentist）方法和贝叶斯方法（Bayesian Methods）的一个总结

注: 本文是对<IPython Interactive Computing and Visualization Cookbook>一书中第七章[Introduction to statistical data analysis in Python – frequentist and Bayesian methods]的简单翻译和整理,这部分内容主要将对统计学习中的频率论方法和贝叶斯统计方法进行介绍. 本文将介绍如何洞察现实世界的数据,以及如何在存在不确定性的情况下做出明智的决定. 统计数据分析

平凡而又神奇的贝叶斯方法

转自 http://mindhacks.cn/2008/09/21/the-magical-bayesian-method/ 数学之美番外篇:平凡而又神奇的贝叶斯方法概率论只不过是把常识用数学公式表达了出来. --拉普拉斯记得读本科的时候,最喜欢到城里的计算机书店里面去闲逛,一逛就是好几个小时:有一次,在书店看到一本书,名叫贝叶斯方法.当时数学系的课程还没有学到概率统计.我心想,一个方法能够专门写出一本书来,肯定很牛逼.后来,我发现当初的那个朴素归纳推理成立了--这果然是个牛逼的方法. --

平凡而又神奇的的贝叶斯方法

平凡而又神奇的贝叶斯方法概率论只不过是把常识用数学公式表达了出来. —拉普拉斯目录 0. 前言 1. 历史 1.1 一个例子:自然语言的二义性 1.2 贝叶斯公式 2. 拼写纠正 3. 模型比较与贝叶斯奥卡姆剃刀 3.1 再访拼写纠正 3.2 模型比较理论(Model Comparasion)与贝叶斯奥卡姆剃刀(Bayesian Occam’s Razor) 3.3 最小描述长度原则 3.4 最优贝叶斯推理 4. 无处

[转]数学之美番外篇：平凡而又神奇的贝叶斯方法

原文转自:http://mindhacks.cn/2008/09/21/the-magical-bayesian-method/ 概率论只不过是把常识用数学公式表达了出来.——拉普拉斯记得读本科的时候,最喜欢到城里的计算机书店里面去闲逛,一逛就是好几个小时:有一次,在书店看到一本书,名叫贝叶斯方法.当时数学系的课程还没有学到概率统计.我心想,一个方法能够专门写出一本书来,肯定很牛逼.后来,我发现当初的那个朴素归纳推理成立了——这果然是个牛逼的方法. ——题记目录 0. 前言 1. 历史 1.

朴素贝叶斯方法（Naive Bayes）

本文主要描述了朴素贝叶斯分类方法,包括模型导出和学习描述.实例部分总结了<machine learning in action>一书中展示的一个该方法用于句子感情色彩分类的程序.1 方法概述学习(参数估计) 实现:朴素贝叶斯下的文本分类模型概述朴素贝叶斯方法,是指朴素:特征条件独立贝叶斯:基于贝叶斯定理根据贝叶斯定理,对一个分类问题,给定样本特征x,样本属于类别y的概率是 p(y|x)=p(x|y)p(y)p(x)......(1) 在这里,x是一个特征向量,将设x维度为M.因为朴

猜你喜欢

集合、增强for、泛型

Collection集合:Collection是层次结构中的根接口,存储的元素为对象,(也就是说只能存储引用数据类型,不能存储基础数据类型),具体可查询API.集合与数组的区别:1.集合只能存放引用数 ...

四种排序算法的时间比较

#include<iostream> #include<time.h> using namespace std; template<class T> inline ...

JavaScript单例模式

一.什么是单例意思是指获取的对象只有一份. 二.最通用的单例任何时刻获取SingLeton.instance都是同一个对象 1 var SingLeton={ 2 instance:{ 3 pro ...

JY01-KX-01

复习: 1.a标签跳转 <p id="地址"></p> <a href="#地址"></a> 预习: 1.out ...

通过一个内存泄露例子体会参数传递

程序例子如下: 1 #include <stdio.h> 2 #include <stdlib.h> 3 4 void func(int *p , int n) 5 { 6 ...

RubyGem修改国内源

RubyGem默认源安装太慢,修改国内淘宝源 2013-07-09 07:26:29 / 分类: 技术 / 标签: ruby/Gem/淘宝 / 6 WHY? 由于国内网络原因(你懂的),导致 rub ...

【C#利用后台动态加载数据】Winform“防界面卡死”【BackgroundWorker】类

using System.ComponentModel 直接使用EgProgressBar方法 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 2 ...

mysql系列之多实例2----基于多配置文件

经过上一篇博文mysql系列之多实例1----介绍对mysql多实例进行了简单的介绍,本片博文将开始针对mysql多实例的第一种实现方案,基于多配置文件的mysql多实例进行部署实现. 环境: Cen ...

hdu2073-2078

hdu2073 数学 1 #include<stdio.h> 2 #include<math.h> 3 double len(double x){ 4 return sqrt( ...

ReentrantReadWriteLock锁例子

锁所提供的最重要的改进之一就是ReadWriteLock接口和唯一一个实现它的ReentrantReadWriteLock类.这个类提供两把锁,一把用于读操作和一把用于写操作.同时可以有多个线程执行 ...

[ES6] Objects create-shorthand && Destructuring

Creating Object: Example 1: let name = "Brook"; let totalReplies = 249; let avatar = " ...

<?php define("APP_NAME","ADDINFO"); define("APP_PATH","./ADD ...

使用nssm将bat文件注册为windows service (eg:solr, nodejs)

nssm下载:http://pan.baidu.com/s/1sjAEevj _install.bat @echo off Set BasePath=D:\Tools %BasePath%\nssm- ...

mysql+keepalived 双主热备高可用

理论介绍:我们通常说的双机热备是指两台机器都在运行,但并不是两台机器都同时在提供服务.当提供服务的一台出现故障的时候,另外一台会马上自动接管并且提供服务,而且切换的时间非常短.MySQL双主复制,即互 ...

算法练习4---冒泡排序java版

冒泡排序的基本思想:在要排序的一组数中,对当前还未排好序的范围内的全部数,自上而下对相邻的两个数依次进行比较和调整,让较大的数往下沉,较小的往上冒.即:每当两相邻的数比较后发现它们的排序与排序要求相反 ...

计算球面上经纬度坐标方法比较

计算球面上的两点(坐标为经纬度)之间的距离可以直接通过公式计算得到,也可以先将经纬度坐标转化为墨卡托投影坐标来,然后用平面中两点之间的距离公式来计算. 在网上找了一些代码,然后简单进行了测试,发现前者 ...

位数问题

1 #include <stdio.h> 2 int main() 3 { 4 int n; 5 long long int a=9,b=1,x,y; 6 int i; 7 //freop ...

黑马程序员-练习1

<pre name="code" class="csharp"><pre name="code" class=" ...

StrangeIOC MVCS框架介绍及进阶

这一篇教程将带大家熟悉 StrangeIOC框架并且讲解一些C#的实用的高级技巧如 "依赖注入(DI)之属性注入" ,"控制反转(IOC)".老规矩先问几个 ...

23种设计模式（5）：原型模式

定义:用原型实例指定创建对象的种类,并通过拷贝这些原型创建新的对象. 类型:创建类模式类图: 原型模式主要用于对象的复制,它的核心是就是类图中的原型类Prototype.Prototype类须要具备 ...

专题

随机推荐

© 2024 憋错料 | info#biecuoliao.com | 10 q. 0.024 s.