朴素贝叶斯文本分类器

两个重量级博客: 1.洞庭散人 http://www.cnblogs.com/phinecos/archive/2008/10/21/1316044.html,包含实验demo

         2.dongxicheng  http://dongxicheng.org/data-mining/naive-bayes-in-hadoop/

资源:lucene-core-2.3.0.jar + je-analysis-1.5.1.jar, 地址:http://pan.baidu.com/s/1o6A13dS,

     搜狗语料库,mini, http://pan.baidu.com/s/1i3BX9TN.

    完整demo,代码来自洞庭散人,鄙人自己整理了一下. 地址:http://pan.baidu.com/s/1pJ7H84j

时间: 2024-11-04 21:03:30

朴素贝叶斯文本分类器的相关文章

机器学习之基于朴素贝叶斯文本分类算法

原理 在分类(classification)问题中,常常需要把一个事物分到某个类别.一个事物具有很多属性,把它的众多属性看做一个向量,即x=(x1,x2,x3,-,xn),用x这个向量来代表这个事物.类别也是有很多种,用集合Y=y1,y2,-ym表示.如果x属于y1类别,就可以给x打上y1标签,意思是说x属于y1类别.这就是所谓的分类(Classification). x的集合记为X,称为属性集.一般X和Y的关系是不确定的,你只能在某种程度上说x有多大可能性属于类y1,比如说x有80%的可能性属

【甘道夫】通过Mahout构建贝叶斯文本分类器案例详解

http://acm.hdu.edu.cn/showproblem.php?pid=1507 大致题意:在一个n*m的格子上,黑色的地方不可用,问在白色格子上最多可放多少1*2的矩阵. 思路:建图,每个白色格子与它临近的上下左右的白色格子建边,求最大匹配,答案为最大匹配/2,因为是双向图.最后输出匹配边时,当找到一组匹配边记得将该边标记,以防重复计算. #include <stdio.h> #include <algorithm> #include <set> #inc

详解使用EM算法的半监督学习方法应用于朴素贝叶斯文本分类

1.前言 对大量需要分类的文本数据进行标记是一项繁琐.耗时的任务,而真实世界中,如互联网上存在大量的未标注的数据,获取这些是容易和廉价的.在下面的内容中,我们介绍使用半监督学习和EM算法,充分结合大量未标记的样本,以期获得文本分类更高的准确率.本文使用的是多项式朴素贝叶斯作为分类器,通过EM算法进行训练,使用有标记数据以及未标记的数据.研究了多类分类准确率与训练集中未标记数据的比例之间的关系.并探索方法来降低EM过程的计算代价来加速训练.结果显示,半监督EM-NB分类器可以在只给2%标记数据情况

分类(一):朴素贝叶斯文本分类

1.朴素贝叶斯假设 为了处理这种维数过高的情况,我们做一个假设:X的每一维特征之间都是独立的.这也就是朴素贝叶斯假设. 根据独立分布的条件,我们就能够容易地写出P(d|C),如下: P(d/C) = ∏ P(ti / C) d代表文档,ti代表文档中的每个词,C代表类. 2.朴素贝叶斯分类器 朴素贝叶斯分类器是一种有监督学习,常见有两种模型,多项式模型(multinomial model)和伯努利模型(Bernoulli model). 先验概率在<信息检索导论>里面都是以类c下的文档数占比来

【甘道夫】通过Mahout构建贝叶斯文本分类器案例具体解释

背景&目标: 1.sport.tar 是体育类的文章,一共同拥有10个类别. 用这些原始材料构造一个体育类的文本分类器,并測试对照bayes和cbayes的效果: 记录分类器的构造过程和測试结果. 2.user-sport.tar 是用户浏览的文章,每一个目录相应一个用户. 利用上题构造的文本分类器,计算每一个用户浏览各类文章的占比. 记录计算过程和结果. 实验环境: Hadoop-1.2.1 Mahout0.6 Pig0.12.1 Ubuntu12 Jdk1.7 原理&流程 建立文本分类

朴素贝叶斯文本分类(详解)

from numpy import zeros,array from math import log def loadDataSet(): #词条切分后的文档集合,列表每一行代表一个email postingList=[['your','mobile','number','is','award','bonus','prize'], ['new','car','and','house','for','my','parents'], ['my','dalmation','is','so','cute

跟我学算法-贝叶斯文本分类器

我们使用了两种提取方式 1 .词频统计 2. 关键字提取 关键字提取的方式效果更好一些 第一步:数据读取 #读入数据,属性命名为['category','theme','URL','content'] df_new = pd.read_table('./data/val.txt', names=['category','theme','URL','content'], encoding='utf-8') df_new.dropna() #去除为空的数据 print(df_new.head())

机器学习第5周--炼数成金-----线性分类器,Knn算法,朴素贝叶斯分类器,文本挖掘

分类:分类的意义 传统意义下的分类:生物物种预测:天气预报决策:yes or no分类的传统模型分类(判别分析)与聚类有什么差别?有监督学习,无监督学习,半监督学习 常见分类模型与算法 线性判别法距离判别法贝叶斯分类器决策树支持向量机(SVM)神经网络 文本挖掘典型场景 网页自动分类垃圾邮件判断评论自动分析通过用户访问内容判别用户喜好 网页自动分类 自动化门户系统(百度新闻,谷歌新闻等)搜索引擎根据用户标签类型推送不同类别的搜索结果 距离判别法 原理:计算待测点与各类的距离,取最短者为其所属分类

PGM:贝叶斯网络与朴素贝叶斯网络

http://blog.csdn.net/pipisorry/article/details/51471222 贝叶斯与频率派思想 频率派思想 长久以来,人们对一件事情发生或不发生,只有固定的0和1,即要么发生,要么不发生,从来不会去考虑某件事情发生的概率有多大,不发生的概率又是多大.而且事情发生或不发生的概率虽然未知,但最起码是一个确定的值. 比如如果问那时的人们一个问题:"有一个袋子,里面装着若干个白球和黑球,请问从袋子中取得白球的概率是多少?"他们会立马告诉你,取出白球的概率就是