基于协同训练的半监督文本分类算法

标签: 半监督学习,文本分类

作者:炼己者

---

本博客所有内容以学习、研究和分享为主,如需转载,请联系本人,标明作者和出处,并且是非商业用途,谢谢!

如果大家觉得格式看着不舒服,也欢迎大家去看我的简书


半监督学习文本分类系列

用半监督算法做文本分类(sklearn)

sklearn半监督学习(sklearn)

基于自训练的半监督文本分类算法


一. 摘要

本文主要讲述基于协同训练的半监督算法做文本分类,用三个差异性比较大的分类器对未标注数据进行标注,它们可以进行交叉验证,大大提升了对未标注数据标记的置信度(简单理解就是三个分类器同时对一个未标注数据标记一样的标签,那么这个标签就可信了),从而提高分类器标注的准确率

二. 操作流程

1. 文本预处理

这里就不再赘述,参考这篇文章:中文文本预处理流程

这上面的流程很完整,而且有代码,你只需要按着那个操作来即可

2. 协同训练的操作方法

操作思路:

  1. 数据data平均分成三份data1,data2,data3(也就是把上面操作之后得到的文本向量均分成三份)
  2. 写一个函数:包含三个分类算法。就是构建三个差异性较大的分类器,我采用的是SVM,贝叶斯,xgboost三种算法。
  3. 用data1训练SVM分类器,用data2训练贝叶斯分类器,用data3训练xgboost分类器。这样我们就得到了三个初步训练好的分类器。
  4. 接下来就是对剩下的所有未标注数据进行操作了,未标注数据一条一条过

    操作思路:假设有10条未标注数据,第一条取出来了,三个分类器对它进行预测。有以下三种可能:

    • 如果大家预测的都一样,那就把它连同预测的标签加入到总的训练集data里。
    • 如果有两个预测的一样,另外一个分类器预测的不一样,比如SVM和贝叶斯预测的一样,xgboost的不一样,就把它们俩的标注结果放到data3里,然后再让xgboost对更新的data3进行训练。
    • 如果大家都预测的不一样,就把它放回未标注数据中

这样操作的目的就是为了不断地训练三个分类器,让它们最终对未标注数据预测的结果一样。这样一条一条未标注数据地过,直到未标注数据为空,最终过完。

3. 测试结果

我选了5000条数据进行预测。

测试的操作流程

  1. 把测试数据用同样的方法转化成文本向量
  2. 上面训练过程中会保存模型,怎么操作可以看这篇文章 :

    如何保存sklearn训练好的算法模型

  3. 你把所有的模型都保存到一个目录下了,那么我们进行预测的时候怎么批量地读取这些模型呢?简单地说就是怎么把目录下所有的文件的文件名读取到一个列表上。看这里—— python如何获取目录下的所有文件名
  4. 读取模型,调用sklearn里的函数计算精度。因为保存的模型太多了,我是每种模型取100个左右,做测试,然后画折线图,看看精度的变化情况。

先放图,看结果

1)这是svm的结果,我们发现训练到后面,模型的效果在降低

2)这是bayes的结果,一开始有点诡异,但后面趋于稳定

3)这是xgboost的结果,很鬼畜,不知道为什么会如此波动

从模型效果上来讲,我选出了每种模型效果最好的情况

SVM:0.62

bayes:0.67

xgboost:0.75

4.结论

从图中观察,我们发现:svm先升后降,bayes先升后稳定,而xgboost很鬼畜。但是效果xgboost是最强的。这里面的原因我知识有限,暂时无法解释,大伙要是有什么想法可以在底下评论,我们可以交流交流

原文地址:https://www.cnblogs.com/lookfor404/p/9821256.html

时间: 2024-08-16 10:42:36

基于协同训练的半监督文本分类算法的相关文章

基于朴素贝叶斯分类器的文本分类算法

源代码下载:NaviveBayesClassify.rar Preface 文本的分类和聚类是一个比较有意思的话题,我以前也写过一篇blog<基于K-Means的文本聚类算法>,加上最近读了几本数据挖掘和机器学习的书籍,因此很想写点东西来记录下学习的所得. 在本文的上半部分<基于朴素贝叶斯分类器的文本分类算法(上)>一文中简单介绍了贝叶斯学习的基本理论,这一篇将展示如何将该理论运用到中文文本分类中来,具体的文本分类原理就不再介绍了,在上半部分有,也可以参见代码的注释. 文本特征向量

带监督的文本分类算法FastText

该算法由facebook在2016年开源,典型应用场景是"带监督的文本分类问题". 模型 模型的优化目标如下: 其中,$<x_n,y_n>$是一条训练样本,$y_n$是训练目标,$x_n$是normalized bag of features.矩阵参数A是基于word的look-up table,也就是A是词的embedding向量.$Ax_n$矩阵运算的数学意义是将word的embedding向量找到后相加或者取平均,得到hidden向量.矩阵参数B是函数f的参数,函数f

基于的朴素贝叶斯的文本分类(附完整代码(spark/java)

本文主要包括以下内容: 1)模型训练数据生成(demo) 2 ) 模型训练(spark+java),数据存储在hdfs上 3)预测数据生成(demo) 4)使用生成的模型进行文本分类. 一.训练数据生成 spark mllib模型训练的输入数据格式通常有两种,一种叫做 LIBSVM 格式,样式如下: label index1:value1 index2:value2 label为类别标签,indexX为特征向量索引下标,value为对应的那维的取值. 另一种格式样式如下: label f1,f2

中文文本分类

本文介绍文本挖掘与文本分类的一些基本概念和流程,为后续学习分类算法做好铺垫. 一. 文本挖掘的概念 文本挖掘(Text Mining)是从非结构化文本信息中获取用户感兴趣或者有用的模式 的过程.其中被普遍认可的文本挖掘定义如下:文本挖掘是指从大量文本数据中抽取事先未知的.可理解的.最终可用的知识的过程,同时运用这些知识更好地组织信息以便将来参考. 简言之,文本挖掘就是从非结构化的文本中寻找知识的过程. 文本挖掘的七个主要领域: (1)搜索和信息检索(IR):存储和文本文档的检索,包括搜索引擎和关

文本分类需要CNN?No!fastText完美解决你的需求(后篇)

http://blog.csdn.net/weixin_36604953/article/details/78324834 想必通过前一篇的介绍,各位小主已经对word2vec以及CBOW和Skip-gram有了比较清晰的了解.在这一篇中,小编带大家走进业内最新潮的文本分类算法,也就是fastText分类器.fastText与word2vec的提出者之所以会想到用fastText取代CNN(卷积神经网络)等深度学习模型,目的是为了在大数据情况下提高运算速度. 其实,文本的学习与图像的学习是不同的

2.中文文本分类

这这一篇博客中,将系统介绍中文文本分类的流程和相关算法.先从文本挖掘的大背景开始,以文本分类算法为中心,介绍中文文本分类项目的流程以及相关知识,知识点设计中文分词,向量空间模型,TF-IDF方法,几个典型的文本分类算法和评价指标等. 本篇主要有: 朴素的贝叶斯算法 KNN最近邻算法. 2.1 文本挖掘与文本分类的概念 简单来说,文本挖掘就是从已知的大量文本数据中提取一些未知的最终可能用过的知识的过程,也就是从非结构化的文本中寻找知识的过程.文本挖掘主要领域有: 搜索和信息检索:存储和文本文档的检

文本分类需要CNN?No!fastText完美解决你的需求(前篇)

http://blog.csdn.net/weixin_36604953/article/details/78195462?locationNum=8&fps=1 文本分类需要CNN?No!fastText完美解决你的需求(前篇) fastText是个啥?简单一点说,就是一种可以得到和深度学习结果准确率相同,但是速度快出几个世纪的文本分类算法.这个算法类似与CBOW,可爱的读着是不是要问CBOW又是个什么鬼?莫急,听小编给你慢慢到来,一篇文章,让你了解word2vec的原理,CBOW.Skip-

step by step带你RCNN文本分类

本文参考原文-http://bjbsair.com/2020-03-25/tech-info/6304/ **传统文本分类 ** 之前介绍的都是属于深度神经网络框架的,那么在Deep Learning出现或者风靡之前,文本分类是怎么做的呢? 传统的文本分类工作主要分为三个过程:特征工程.特征选择和不同分类机器学习算法. 1.1 特征工程 对于文本数据的特征工程来说,最广泛使用的功能是bag-of-words.tf-idf等.此外,还可以设计一些更复杂的特征,比如词性标签.名词短语以及tree k

详解使用EM算法的半监督学习方法应用于朴素贝叶斯文本分类

1.前言 对大量需要分类的文本数据进行标记是一项繁琐.耗时的任务,而真实世界中,如互联网上存在大量的未标注的数据,获取这些是容易和廉价的.在下面的内容中,我们介绍使用半监督学习和EM算法,充分结合大量未标记的样本,以期获得文本分类更高的准确率.本文使用的是多项式朴素贝叶斯作为分类器,通过EM算法进行训练,使用有标记数据以及未标记的数据.研究了多类分类准确率与训练集中未标记数据的比例之间的关系.并探索方法来降低EM过程的计算代价来加速训练.结果显示,半监督EM-NB分类器可以在只给2%标记数据情况