详解使用EM算法的半监督学习方法应用于朴素贝叶斯文本分类

1.前言

　　对大量需要分类的文本数据进行标记是一项繁琐、耗时的任务，而真实世界中，如互联网上存在大量的未标注的数据，获取这些是容易和廉价的。在下面的内容中，我们介绍使用半监督学习和EM算法，充分结合大量未标记的样本，以期获得文本分类更高的准确率。本文使用的是多项式朴素贝叶斯作为分类器，通过EM算法进行训练，使用有标记数据以及未标记的数据。研究了多类分类准确率与训练集中未标记数据的比例之间的关系。并探索方法来降低EM过程的计算代价来加速训练。结果显示，半监督EM-NB分类器可以在只给2%标记数据情况下达到大于50%的准确率，在给定33%标记数据情况下达到大于70%的准确率。本文来源于参考中的附录1，详细代码和介绍可以参见链接。

2.模型介绍

3.关键代码实现

X.参考

附录1：Text Classification Using EM and Semi-Supervised Learning

原文地址：https://www.cnblogs.com/yanmk/p/8425744.html

时间： 2024-10-11 13:15:22

详解使用EM算法的半监督学习方法应用于朴素贝叶斯文本分类的相关文章

机器学习之基于朴素贝叶斯文本分类算法

原理在分类(classification)问题中,常常需要把一个事物分到某个类别.一个事物具有很多属性,把它的众多属性看做一个向量,即x=(x1,x2,x3,-,xn),用x这个向量来代表这个事物.类别也是有很多种,用集合Y=y1,y2,-ym表示.如果x属于y1类别,就可以给x打上y1标签,意思是说x属于y1类别.这就是所谓的分类(Classification). x的集合记为X,称为属性集.一般X和Y的关系是不确定的,你只能在某种程度上说x有多大可能性属于类y1,比如说x有80%的可能性属

朴素贝叶斯文本分类（详解）

from numpy import zeros,array from math import log def loadDataSet(): #词条切分后的文档集合,列表每一行代表一个email postingList=[['your','mobile','number','is','award','bonus','prize'], ['new','car','and','house','for','my','parents'], ['my','dalmation','is','so','cute

(转)详解八大排序算法

概述排序有内部排序和外部排序,内部排序是数据记录在内存中进行排序,而外部排序是因排序的数据很大,一次不能容纳全部的排序记录,在排序过程中需要访问外存. 我们这里说说八大排序就是内部排序. 当n较大,则应采用时间复杂度为O(nlog2n)的排序方法:快速排序.堆排序或归并排序序. 快速排序:是目前基于比较的内部排序中被认为是最好的方法,当待排序的关键字是随机分布时,快速排序的平均时间最短: 1.插入排序—直接插入排序(Straight Insertion Sort) 基本思想: 将一个记录插入到

详解四大排序算法

作者: Dsir 分类: PHP 发布时间: 2017年08月04日 07时40分详解四大排序算法如何排序? NBA总决赛正在如火如荼的进行,老詹也正朝着他的第5个总亚军前进着.假设骑士队队员在运动场上排列成一队,如图所示,所有队员已经站好,准备热身,现在需要按身高从低到高为队员们排队(最矮的站在左边),给他们照一张集体照,应该怎么排队呢? 在排序这件事情上,人与计算机程序相比有以下优势:我可以同时看到所有的队员,并且可以立刻找出最高的一个,毫不费力得测量和比较每一个人的身高.而且队员们不

【机器学习详解】SMO算法剖析（转载）

[机器学习详解]SMO算法剖析转载请注明出处:http://blog.csdn.net/luoshixian099/article/details/51227754 CSDN?勿在浮沙筑高台本文力求简化SMO的算法思想,毕竟自己理解有限,无奈还是要拿一堆公式推来推去,但是静下心看完本篇并随手推导,你会迎刃而解的.推荐参看SMO原文中的伪代码. 1.SMO概念上一篇博客已经详细介绍了SVM原理,为了方便求解,把原始最优化问题转化成了其对偶问题,因为对偶问题是一个凸二次规划问题,这样的凸二次规

基于半监督学习方法的异常值检测

在韩家炜书中提到了使用半监督学习方法的异常值检测.在半监督学习中,一部分样本会被标记为“正常”或"离群点“,另一部分样本没有标号,需要算法去估计.貌似这看上去有些像分类得预测问题.但是半监督学习的思想是每次学习后,把最有可能预测正确的样本,加入到下一次迭代的训练集中去.如此不断扩大学习和标记的范围.问题是如何指定一开始的初始标签?( 当然可以人为指定 ) 我们来看这个数据集.绿色部分是被标记“正常”的样本.红色的为“异常”的样本.蓝色的为“未标记”样本点.其实这里我自己采用的初始标记方法很简单,

【机器学习详解】SMO算法剖析

转载请注明出处:http://blog.csdn.net/luoshixian099/article/details/51227754 CSDN?勿在浮沙筑高台本文力求简化SMO的算法思想,毕竟自己理解有限,无奈还是要拿一堆公式推来推去,但是静下心看完本篇并随手推导,你会迎刃而解的.推荐参看SMO原文中的伪代码. 1.SMO概念上一篇博客已经详细介绍了SVM原理,为了方便求解,把原始最优化问题转化成了其对偶问题,因为对偶问题是一个凸二次规划问题,这样的凸二次规划问题具有全局最优解,如下: 其

【机器学习详解】AdaBoost算法原理

转载请注明出处:勿在浮沙筑高台http://blog.csdn.net/luoshixian099/article/details/51714346 1.概念 AdaBoost是一种级联算法模型,即把几个弱分类器级联到一起去处理同一个分类问题.也就是"三个臭皮匠顶一个诸葛亮"的道理.例如一个专家作出的判定往往没有几个专家一起作出的判定更准确.一种情况:如果每个专家都仅有一票的权利,采用投票机制的方法属于uniform形式:另一种情况是分配给每个专家的票数不一致则属于linear形式.A

树状数组详解（图形学算法）

目录一.从图形学算法说起 1.Median Filter 概述 2.r pixel-Median Filter 算法 3.一维模型 4.数据结构的设计 5.树状数组华丽登场二.细说树状数组 1.树 or 数组? 2.结点的含义 3.求和操作 4.更新操作 5.lowbit函数O(1)实现 6.小结三.树状数组的经典模型 1.PUIQ模型 2.IUPQ模型 3.逆序模型 4.二分模型 5.再说Median Filter 6.多维树状数组模型四.树状数组题集整理一.从图形学算法说起 1.M

猜你喜欢

DedeCMS Error Warning!Technical Support:DedeCms错误警告

当前位置:主页 > dedecms > dede模板标签使用说明 > DedeCMS Error Warning!Technical Support:DedeCms错误警告(2) 解 ...

OO 抽象方法与虚方法的区别

抽象方法与虚方法的区别抽象方法与虚方法的区别: 一.抽象方法: 1.只能在抽象类中定义: 2.不能有方法的实现:(方法体)[因为抽象类无法实例化,所以抽象方法没有办法被调用,也就是说抽象方法永远不 ...

Fiddler抓取HTTPS协议

HTTPS协议握手过程: 1,客户端明文请求,把自己支持的非对称加密算法(用于使用CA证书公钥加密计算生成协商密钥的随机数per_master).对称加密算法(用于以后使用协商密钥加密传输内容).验证 ...

Directx10 龙书笔记- 第7章课后题实现火焰动画

火焰的图片我是没找到,找到了几张雷电的,就在d3dcoder.net 的directx10那本书代码下载的Bolt Animations for Chapter 9 里面里面很多张图片,由于c++ ...

【如何使用jQuery】【jQuery弹出框】【jQuery对div进行操作】

1.如何使用jQuery jQuery是一个快速.简洁的JavaScript框架,是继Prototype之后又一个优秀的JavaScript代码库(或JavaScript框架).jQuery设计的宗旨 ...

特殊地址0.0.0.0

In the Internet Protocol Version 4, the address 0.0.0.0 is a non-routable meta-address used to desig ...

调整Exchange接收连接器延迟参数解决SMTP代发送邮件问题

Exchange在企业应用中,经常会有各种应用程序需要调用Exchange的SMTP服务来发送各知系统通知邮,如:OA.HR.E-flow签核系统等. 最近,碰到一个案例,用户反映某E-Flow签核系 ...

Android开发--布局

一:LinearLayout 1.线性布局,这个东西,从外框上可以理解为一个div,他首先是一个一个从上往下罗列在屏幕上.每一个LinearLayout里面又可分为垂直布局(android:orie ...

动态规划之背包问题

背包问题是一个经典的算法问题,可以用动态规划,贪心法,分支界限法等方法解决.问题描述:有n个物品,编号1,2,3,..n,其中第 i 个物品重量为Wi 价值 Vi ,有一个容量为W的背包.在容量允许范 ...

保存图片至相册

//创建图形上下文 UIGraphicsBeginImageContext(CGSizeMake(200, 200)); CGContextRef context = UIGraphicsGetCur ...

HDOJ-ACM1010(JAVA) 奇偶剪枝法迷宫搜索

转载声明:原文转自:http://www.cnblogs.com/xiezie/p/5568822.html 第一次遇到迷宫搜索,给我的感觉是十分惊喜的:搞懂这个的话,感觉自己又掌握了一项技能~ 个人 ...

APP1 window

self.window = UIWindow(frame:UIScreen.mainScreen().bounds) let rootVC : RootViewController = RootVie ...

自动学满1000分钟的中国语文在线学习

需要1000分钟才能考试,差不多挂机17个小时就行. 需要先安装浏览器插件,步骤请见:https://zhengyc.wordpress.com/2016/02/21/安装用户脚本基本步骤/ 代码: ...

为你的博客园添加平滑移动到页面顶端的锚点和tag云

首先我的目录是在marvin的基础上二次开发的.然后我发现锚点图和目录都在同一个图上面,所以就一起用了. 返回顶部锚点: 我用以前旧版bilibili的那个函数.可以做到平滑滚动到页面,并且在触顶前不 ...

prototype.js 源码解读（01）

prototype.js是一个设计的非常优雅且很有实用价值的js基础类库,其源码非常值得研究.研究它的源码不仅能提升个人水平,而且对你打下坚实的js基础也很有帮助.因本人技术水平有限,该解读仅供参考. ...

swift编程语言简单开发二维码扫描

最近在学习swift编程语言(http://www.maiziedu.com/course/ios/16-161/), 在看视频学习swift编程语言时,发现有个二维码扫面案例的教程,非常的不错,其中 ...

转载——如何选择机器学习算法

Choosing a Machine Learning Classifier by Edwin Chen on Wed 27 April 2011 How do you know what machi ...

Javascript中的构造函数与原型

构造函数构造函数,是一种特殊的方法.主要用来创建对象时初始化对象,即为对象成员变量赋初始值,总与new运算符一起使用在创建对象的语句中.特别的一个类可以有多个构造函数,可根据其参数个数的不同或参数类 ...

JAVA基础再回首（二十五）——Lock锁的使用、死锁问题、多线程生产者和消费者、线程池、匿名内部类使用多线程、定时器、面试题

JAVA基础再回首(二十五)--Lock锁的使用.死锁问题.多线程生产者和消费者.线程池.匿名内部类使用多线程.定时器.面试题版权声明:转载必须注明本文转自程序员杜鹏程的博客:http://blog ...

[2016-05-25]OMG美语笔记-Have you ever felt like you had fever and you're burning up like really,really bad?

坚持~坚持~坚持~! go to the doctor 看病 I think I need to go to the doctor.I feel really,really gross.Do you ...

专题

随机推荐

© 2024 憋错料 | info#biecuoliao.com | 10 q. 0.026 s.