【搜索引擎(四)】文本分类

Q1. 为什么搜索引擎要用到文本分类?

  搜索引擎要处理海量文本,人工分类不现实,机器的自动分类对提高文本的分类效率至少起到了一个基准的效果。另外,文本分类跟搜索引擎系统可以进行信息互通,文本分类的输入是文本,输出可以是标签或者是否从属于某个分类。

Q2.文本分类基础算法

  文本分类基础算法与机器学习、人工智能、数据挖掘中用到的算法都是联系紧密的,它从属的自然语言处理也正是人工智能的分支。你可能会想到文本分类肯定要用到基础的分类器,而且在更复杂的情况下可能还要用到人工智能的一些学习方法,比如双向LSTM和CNN。

  目前来看,文本分类通常用的是有监督的学习方法,这不是说无监督就没有用了,只是为了精度的要求,有监督是比较靠谱的。另外,文本分类几乎都是按照数据挖掘的套路来做的,好像是抽取特征->训练->验证->分类。

  分类器输入文本,输出标签(single-label or multi-label)。

Q3.文本分类的规模有多大?

  文本分类的规模有大有小,但是这只是针对训练集来说,而实际分类的输入除了数目以外,单个的大小是没有太大差异的。

正文

无监督算法和有监督算法

   一、有监督分类器

  决策树

  Bayes 分类器    Rocchio分类器

    朴素贝叶斯分类器:计算

, 即给出文档dj,求它属于类别 cp的概率,概率最大的cp就是文档本分到的类别了。在概率论与数理统计中求这个概率的最大一般都是求对数然后偏导为0。

  二、支持向量机

    支持向量机是什么?从一般的教材说法来看,它是一个多维空间的平面方程,由法向量和点唯一确定。支持向量是指在这个空间内能够使该方程满足偏移常数为1的向量。

    这个平面是由训练集确定参数,以实现分类间隔最大化的一个结果。

    【在机器学习包sklearn中提供了它的实现,训练的特点是花的空间少但是时间特别长】

    核函数:针对不同的输入向量,将它们映射到变换空间中所用到的函数,一般采用输入向量的乘积(或称点积)

    有了支持向量机,就要用SVM的相应决策函数。

  三、集成分类器

    它是将不同的分类器(如前面说的SVM, DT, Bayes)的结果合成,构成更高精度的方法。

    当然,怎么合成不是乱来的。怎么合理地合成引出了集成学习这一概念。

    增强学习分类器叫做boost

    Adaboost 是最早在论文中提到的将boost应用在文本分类的算法。此后又出现了一些算法。

    历史发展: boost->Adaboost->AdaBoost。

  四、无监督学习

    特征选择和降维(一般用SVD, PCA)。

其他

     文档分类的评价标准

      Precision, Recall,F-标准,。

    标准文档集

    1. Reuters [21578] http://www.daviddlewis.com/resources/testcollections/reuters21578/, 2004年收集, (8.2 MB; 28.0 MB uncompressed, though I downloaede a file of 27 MB).

    2. RCV Reuters Corpus Volumes 路透社新闻报道

    3. OHSUMED 医学主题词, MEDICINE 数据库的子集

    ftp://medir.ohsu.edu/pub/ohsumed (已失效)

    http://davis.wpi.edu/xmdv/datasets/ohsumed.html

           TREC9 的文档过滤子竞赛

    WebKB  ACMDL, ODP

 竞赛举例

      CIKM竞赛, 2014年 Query Intent Detection,

    N-gram Model

软件包

    ID3 C4.5 [1311], [1313]

    SVMLight[839], LibSVM[355], SVMPerf[840]

    Bow[1104], Weka[1707]

     参考会议

    ICML, SIGKDD,SIGIR,

时间: 2024-10-08 17:27:55

【搜索引擎(四)】文本分类的相关文章

中文文本分类

本文介绍文本挖掘与文本分类的一些基本概念和流程,为后续学习分类算法做好铺垫. 一. 文本挖掘的概念 文本挖掘(Text Mining)是从非结构化文本信息中获取用户感兴趣或者有用的模式 的过程.其中被普遍认可的文本挖掘定义如下:文本挖掘是指从大量文本数据中抽取事先未知的.可理解的.最终可用的知识的过程,同时运用这些知识更好地组织信息以便将来参考. 简言之,文本挖掘就是从非结构化的文本中寻找知识的过程. 文本挖掘的七个主要领域: (1)搜索和信息检索(IR):存储和文本文档的检索,包括搜索引擎和关

文本分类概述

转自:http://blog.csdn.net/csdwb/article/details/7082066 一概述 二特征选择 三分类器 一.概述 文本分类在文本处理中是很重要的一个模块,它的应用也非常广泛,比如:垃圾过滤,新闻分类,词性标注等等.它和其他的分类没有本质的区别,核心方法为首先提取分类数据的特征,然后选择最优的匹配,从而分类.但是文本也有自己的特点,根据文本的特点,文本分类的流程为:1.预处理:2.文本表示及特征选择:3.构造分类器:4.分类.下面分别介绍每个模块. 1. 预处理

文本分类,数据挖掘和机器学习

转自:http://blog.chinaunix.net/uid-446337-id-94440.html 分类: 机器学习的有概率分类器(probabilistic) ,贝叶斯推理网络(bayesian inference networks) , 决策树分类器(decision tree) ,决策规则分类器(decision rule) ,基于回归的线性最小二乘llsf(regression based on linearleast squares fit ) , 符号规则归纳法( symbo

LingPipe-TextClassification(文本分类)

What is Text Classification? Text classification typically involves assigning a document to a category by automated or human means. LingPipe provides a classification facility that takes examples of text classifications--typically generated by a huma

文本分类--多分类

文本分类算是自然语言处理领域最最常见的问题了,开源的工具也很好用,但是苦于训练速度缓慢,需要引进多核的版本,开源提供的多核支持参数有限,而同事提供的又有语言障碍,觉得自己探索下多分类器. 分类算法有很多,但是效果较好的基本就是LR和SVM,而这两个算法业内著名的开源代码应该就是liblinear和libsvm,libsvm支不支持多核暂时还未了解,但是liblinear支持的多核版本也就三组(0.2.11),正好避开了我需要用的那组参数,于是就摸索下liblinear的train代码. 一.先说

统计学习方法文本分类

一个文本分类问题就是将一篇文档归入预先定义的几个类别中的一个或几个,而文本的自动分类则是使用计算机程序来实现这样的分类.通俗点说,就好比你拿一篇文章,问计算机这文章要说的究竟是体育,经济还是教育,计算机答不上,说明计算机弱爆了就打它的屁屁. 注意这个定义当中着重强调的两个事实. 第一,用于分类所需要的类别体系是预先确定的.例如新浪新闻的分类体系,Yahoo!网页导航的分类层次.这种分类层次一旦确定,在相当长的时间内都是不可变的,或者即使要变更,也要付出相当大的代价(基本不亚于推倒并重建一个分类系

机器学习经典算法详解及Python实现---朴素贝叶斯分类及其在文本分类、垃圾邮件检测中的应用

摘要: 朴素贝叶斯分类是贝叶斯分类器的一种,贝叶斯分类算法是统计学的一种分类方法,利用概率统计知识进行分类,其分类原理就是利用贝叶斯公式根据某对象的先验概率计算出其后验概率(即该对象属于某一类的概率),然后选择具有最大后验概率的类作为该对象所属的类.总的来说:当样本特征个数较多或者特征之间相关性较大时,朴素贝叶斯分类效率比不上决策树模型:当各特征相关性较小时,朴素贝叶斯分类性能最为良好.另外朴素贝叶斯的计算过程类条件概率等计算彼此是独立的,因此特别适于分布式计算.本文详述了朴素贝叶斯分类的统计学

多种贝叶斯模型构建文本分类

多种贝叶斯模型构建及文本分类的实现 作者:白宁超 2015年9月29日11:10:02 摘要:当前数据挖掘技术使用最为广泛的莫过于文本挖掘领域,包括领域本体构建.短文本实体抽取以及代码的语义级构件方法研究.常用的数据挖掘功能包括分类.聚类.预测和关联四大模型.本文针对四大模型之一的分类进行讨论.分类算法包括回归.决策树.支持向量机.贝叶斯等,显然,不少涉及机器学习的知识(随后会写些机器学习专题).本文重点介绍贝叶斯分类,涉及朴素贝叶斯模型.二项独立模型.多项模型.混合模型等知识.在本人研究贝叶斯

NLP系列(2)_用朴素贝叶斯进行文本分类(上)

作者:寒小阳 && 龙心尘 时间:2016年1月. 出处:http://blog.csdn.net/longxinchen_ml/article/details/50597149 http://blog.csdn.net/han_xiaoyang/article/details/50616559 声明:版权全部,转载请联系作者并注明出处 1. 引言 贝叶斯方法是一个历史悠久.有着坚实的理论基础的方法,同一时候处理非常多问题时直接而又高效.非常多高级自然语言处理模型也能够从它演化而来.因此,