scikit-learn学习之贝叶斯分类算法

版权声明:<—— 用心写好你的每一篇文章,转载请注明出处@http://blog.csdn.net/gamer_gyt <——

目录(?)[+]

======================================================================

本系列博客主要参考 Scikit-Learn 官方网站上的每一个算法进行,并进行部分翻译,如有错误,请大家指正

转载请注明出处,谢谢

======================================================================

另外在《机器学习实战》中的 朴素贝叶斯分类算法比较深刻的解读了朴素贝叶斯分类算法的原理,基于朴素贝叶斯分类算法构建文本分类器的Python实现主要用Python实现贝叶斯分类,并构建了一个简单的文本分类器模型,接下来将着重解读scikit-learn中关于贝叶斯算法的一些说明

1:朴素贝叶斯算法说明

2:高斯朴素贝叶斯(Gaussian Naive Bayes)

3:多项式朴素贝叶斯(Multinomial Naive Bayes)

4:伯努利朴素贝叶斯( Bernoulli Naive Bayes)

一:朴素贝叶斯算法说明

朴素贝叶斯算法是建立在每一个特征值之间时独立的基础上的监督学习分类算法,而这也是称他为 “朴素”贝叶斯的缘由,在现实环境中,很难达到两个特征值之间绝对的相互独立。在给定一个类变量Y和依赖的特征向量x_1通过x_n,贝叶斯定理的状态下面的关系:

假设两个特征值之间时相互独立的                

对于所有的 i 值,这种关系被简化为             

由于P(x_1,....  ,x_n)是恒定的给定的输入,我们可以使用以下的分类规则(前者正比于后者):

我们可以使用最大后验概率(MAP)来估计p(y)和p(xi|y),p(y)是在训练集中y发生的概率

不同朴素贝叶斯分类算法是因为他们对P(Xi|y)做出了不同的假设

尽管朴素贝叶斯的假设过于简单,但在已有的应用中,如文档分类和垃圾邮件分类,他都表现出了相当好的效果(至于理论上的原因,为什么朴素贝叶斯的效果很好,并且他适合处理的数据类型,请继续往下阅读)

和其他更先进的方法相比,朴素贝叶斯算法学习和分类的过程效率更高,每个类条件特征的独立分布意味着每个类分布可以独立的估计为一维分布,这反过来有助于缓解数据降维所带来的麻烦

另一方面,尽管朴素贝叶斯分类被归纳为一个高效的分类器,但是他有一个坏的估计,因为对于他的输出预测并不能被认真看待

上边提到了不同的贝叶斯分类算法是因为他们对P(Xi|y)做出了不同的假设,下面我们就来看集中常见的P(Xi|y)的假设以及scikit-learn中的实现方法

二:高斯朴素贝叶斯

GaussianNB 继承高斯朴素贝叶斯,特征可能性被假设为高斯:

代码示例如下:

[python] view plain copy

  1. #高斯朴素贝叶斯
  2. import numpy as np
  3. X = np.array([[-1, -1], [-2, -1], [-3, -2], [1, 1], [2, 1], [3, 2]])
  4. Y = np.array([1, 1, 1, 2, 2, 2])
  5. from sklearn.naive_bayes import GaussianNB
  6. clf = GaussianNB().fit(X, Y)
  7. print clf.predict([[-0.8,-1]])
  8. ‘‘‘‘‘
  9. partial_fit说明:增量的训练一批样本
  10. 这种方法被称为连续几次在不同的数据集,从而实现核心和在线学习,这是特别有用的,当数据集很大的时候,不适合在内存中运算
  11. 该方法具有一定的性能和数值稳定性的开销,因此最好是作用在尽可能大的数据块(只要符合内存的预算开销)
  12. ‘‘‘
  13. clf_pf = GaussianNB().partial_fit(X, Y, np.unique(Y))
  14. print clf_pf.predict([[-0.8,-1]])

输出结果为:


更多关于高斯贝叶斯分布的请参考:点击阅读

三:多项式分布

MultinomialNB实现multinomially分布数据的贝叶斯算法,是一个经典的朴素贝叶斯文本分类中使用的变种(其中的数据是通常表示为词向量的数量,虽然TF-IDF向量在实际项目中表现得很好),对于每一个y来说,分布通过向量参数化,n是类别的数目(在文本分类中,表示词汇量的长度) 表示标签i出现的样本属于类别y的概率

该参数   是一个平滑的最大似然估计,即相对频率计数:

  表示标签i在样本集T中属于类别y的 数目

 表示在所有标签中类别y出现的数目

平滑先验 a >=0表示学习样本中不存在的特征并防止在计算中概率为0,设置alpha = 1被称为拉普拉斯平滑,当α<1称为Lidstone平滑

代码示例如下:

[python] view plain copy

  1. #多项式分布
  2. import numpy as np
  3. X = np.random.randint(5, size=(6, 100))
  4. y = np.array([1, 2, 3, 4, 5, 6])
  5. from sklearn.naive_bayes import MultinomialNB
  6. clf = MultinomialNB().fit(X, y)
  7. print clf.predict(X[2:3])

输出为   [3]

更多关于多项式分布请参考:点击阅读

四:伯努利朴素贝叶斯

BernoulliNB实现了朴素贝叶斯训练和分类算法是根据多元伯努利分布的分布数据;例如,可能会有多个特征,但每一个被假定为一个二进制值(伯努利、布尔)变量。因此,这类要求的样品被表示为二进制值的特征向量;如果交给其他任何类型的数据,一个bernoullinb实例可以进行输入(取决于二值化参数)

伯努利朴素贝叶斯决策规则的基础上

在文本分类的情况下,词的出现向量(而不是字计数向量)可以用来训练和使用该分类。bernoullinb可能会执行一些数据集上的更好,尤其是那些短的文件。如果时间允许的话,建议对两种模型进行评估。

示例代码如下:

[python] view plain copy

  1. #伯努利分布
  2. import numpy as np
  3. X = np.random.randint(2, size=(6, 100))
  4. Y = np.array([1, 2, 3, 4, 4, 5])
  5. from sklearn.naive_bayes import BernoulliNB
  6. clf = BernoulliNB()
  7. clf.fit(X, Y)
  8. BernoulliNB(alpha=1.0, binarize=0.0, class_prior=None, fit_prior=True)
  9. print(clf.predict(X[2:3]))

输出结果为  [3]

更多关于伯努利朴素贝叶斯请参考:点击阅读

时间: 2024-10-29 19:06:38

scikit-learn学习之贝叶斯分类算法的相关文章

机器学习-scikit learn学习笔记

scikit-learn官网:http://scikit-learn.org/stable/ 通常情况下,一个学习问题会包含一组学习样本数据,计算机通过对样本数据的学习,尝试对未知数据进行预测. 学习问题一般可以分为: 监督学习(supervised learning) 分类(classification) 回归(regression) 非监督学习(unsupervised learning) 聚类(clustering) 监督学习和非监督学习的区别就是,监督学习中,样本数据会包含要预测的标签(

Query意图分析:记一次完整的机器学习过程(scikit learn library学习笔记)

所谓学习问题,是指观察由n个样本组成的集合,并根据这些数据来预测未知数据的性质. 学习任务(一个二分类问题): 区分一个普通的互联网检索Query是否具有某个垂直领域的意图.假设现在有一个O2O领域的垂直搜索引擎,专门为用户提供团购.优惠券的检索:同时存在一个通用的搜索引擎,比如百度,通用搜索引擎希望能够识别出一个Query是否具有O2O检索意图,如果有则调用O2O垂直搜索引擎,获取结果作为通用搜索引擎的结果补充. 我们的目的是学习出一个分类器(classifier),分类器可以理解为一个函数,

从决策树学习谈到贝叶斯分类算法、EM、HMM

从决策树学习谈到贝叶斯分类算法.EM.HMM 引言 近期在面试中,除了基础 &  算法 & 项目之外,经常被问到或被要求介绍和描写叙述下自己所知道的几种分类或聚类算法(当然,这全然不代表你将来的面试中会遇到此类问题,仅仅是由于我的简历上写了句:熟悉常见的聚类 & 分类算法而已),而我向来恨对一个东西仅仅知其皮毛而不得深入,故写一个有关数据挖掘十大算法的系列文章以作为自己备试之用,甚至以备将来经常回想思考.行文杂乱,但侥幸若能对读者起到一点帮助,则幸甚至哉. 本文借鉴和參考了两本书,

从决策树学习谈到贝叶斯分类算法、EM、HMM --别人的,拷来看看

从决策树学习谈到贝叶斯分类算法.EM.HMM 引言 最近在面试中,除了基础 &  算法 & 项目之外,经常被问到或被要求介绍和描述下自己所知道的几种分类或聚类算法(当然,这完全不代表你将来的面试中会遇到此类问题,只是因为我的简历上写了句:熟悉常见的聚类 & 分类算法而已),而我向来恨对一个东西只知其皮毛而不得深入,故写一个有关数据挖掘十大算法的系列文章以作为自己备试之用,甚至以备将来常常回顾思考.行文杂乱,但侥幸若能对读者起到一点帮助,则幸甚至哉. 本文借鉴和参考了两本书,一本是T

朴素贝叶斯分类算法(1)

转自http://blog.csdn.net/lch614730/article/details/17031145 朴素贝叶斯分类算法(Naive Bayesian classification) PS:本文在讲解的时候会用通俗的例子来讲解 本文我们将学习到: (1)什么是朴素贝叶斯? (2)先验概率和条件概率是如何证明的? (3)文本分类的多项式模型和伯努利模型(附加例子说明) (4)垃圾邮件的分类及代码的演示(暂缺以后会补上) (1)什么是朴素贝叶斯(Naive Bayes,以后简称NB)?

算法 - 朴素贝叶斯分类算法

带你搞懂朴素贝叶斯分类算法 带你搞懂朴素贝叶斯分类算 贝叶斯分类是一类分类算法的总称,这类算法均以贝叶斯定理为基础,故统称为贝叶斯分类.而朴素朴素贝叶斯分类是贝叶斯分类中最简单,也是常见的一种分类方法.这篇文章我尽可能用直白的话语总结一下我们学习会上讲到的朴素贝叶斯分类算法,希望有利于他人理解. 1  分类问题综述 对于分类问题,其实谁都不会陌生,日常生活中我们每天都进行着分类过程.例如,当你看到一个人,你的脑子下意识判断他是学生还是社会上的人:你可能经常会走在路上对身旁的朋友说“这个人一看就很

朴素贝叶斯分类算法介绍及python代码实现案例

朴素贝叶斯分类算法 1.朴素贝叶斯分类算法原理 1.1.概述 贝叶斯分类算法是一大类分类算法的总称 贝叶斯分类算法以样本可能属于某类的概率来作为分类依据 朴素贝叶斯分类算法是贝叶斯分类算法中最简单的一种 注:朴素的意思是条件概率独立性 P(A|x1x2x3x4)=p(A|x1)*p(A|x2)p(A|x3)p(A|x4)则为条件概率独立 P(xy|z)=p(xyz)/p(z)=p(xz)/p(z)*p(yz)/p(z) 1.2.算法思想 朴素贝叶斯的思想是这样的: 如果一个事物在一些属性条件发生

朴素贝叶斯分类算法原理分析与代码实现

前言 本文介绍机器学习分类算法中的朴素贝叶斯分类算法并给出伪代码,Python代码实现. 词向量 朴素贝叶斯分类算法常常用于文档的分类,而且实践证明效果是挺不错的. 在说明原理之前,先介绍一个叫词向量的概念. --- 它一般是一个布尔类型的集合,该集合中每个元素都表示其对应的单词是否在文档中出现. 对应关系和词汇表一一对应. 比如说,词汇表只有三个单词:'apple', 'orange', 'melo',某文档中,apple和melo出现过,那么其对应的词向量就是 {1, 0, 1}. 这种模型

数据挖掘系列(8)朴素贝叶斯分类算法原理与实践

隔了很久没有写数据挖掘系列的文章了,今天介绍一下朴素贝叶斯分类算法,讲一下基本原理,再以文本分类实践. 一个简单的例子 朴素贝叶斯算法是一个典型的统计学习方法,主要理论基础就是一个贝叶斯公式,贝叶斯公式的基本定义如下: 这个公式虽然看上去简单,但它却能总结历史,预知未来.公式的右边是总结历史,公式的左边是预知未来,如果把Y看出类别,X看出特征,P(Yk|X)就是在已知特征X的情况下求Yk类别的概率,而对P(Yk|X)的计算又全部转化到类别Yk的特征分布上来. 举个例子,大学的时候,某男生经常去图