驾驭文本部分内容总结

(1)词向量模型(vector space model),它将文档中的词项映射到$n$维线性空间。

(2) 词项频率-逆文档频率(term frequncy-inverse document frequency)模型,简称TF-IDF。这种模型的本质是:文档中出现频繁(TF),但在整个文档集中出现相对不频繁(IDF)的词要比在大量文档中普遍存在的词更重要。它用来得到词项的权重,并由此构成词向量。

(3)文本聚类。文本聚类就是用某种相似度计算方法将未标记文档分组,即将文档集中所有文档分成多簇,簇中文档尽量相似,不相似文档出现在不同簇中。LDA(Latent Dirichlet Allocation)是一种主题建模方法(识别文档中的主题),它也是文档聚类的一种方法。Mahout是Apache下的开源分布式机器学习库。

主要有三种类型的文档聚类:针对文档的聚类;对搜索结果的聚类;词/话题的聚类。

(1)文档聚类通常是离线处理,它会输出一个文档列表和中心向量。对簇的描述可通过考察离中心最近的文档中最重要的词项(由某种权重机制来确定,比如TF-IDF)来生成。

(2)搜索结果的聚类会将结果聚类成多个簇。当用户输入一般性词项、有歧义(如Apple)词项或数据集包含不同类别时,需要对搜索结果聚类。搜索结果聚类通常有如下特点:

(a)对短文本片段(标题,或许和查询项匹配的部分正文文字)进行聚类;

(b)聚类算法要能在小规模结果集合上快速返回结果;

(c)检签十分重要,因为用户可能会将簇看成面,以进一步浏览结果集。

结果聚类可参见论文 A Survey of Web Clustering Engines(Carpineto 2009)。

(4)文档分类和归类(categorization)与标注。

文档分类与归类一般并没有区别。但在这本书中归类算法是指将对象放入输小的类别集合。比如将汽车归到小轿车、厢式轿车、货车等小类别中。

文档分类是指将一些主题的类别赋给文档。还有一些文档分类不是这样,比如情感分析会利用文档分类来确定产品评论的正负倾向,或邮件或客户请求背后的情绪。

文档特征对文档分类非常重要,提取文档特征的方法有

(1)词袋方法,它是最简单的特征提取方法。这种方法将文档看成词的集合,出现在文档中的每个词被看成特征,这些特征会按照其出现的频率计算权重。

(2)词组合也可得到有用的文档特征。可用$n$元组来得到最重要的词语组合。

(3)其它特征,比如作者和信息源就十分有用;文章出现在日文报纸上会表明这个文档更可能属于Asisan Business类;某个作者经常写体育类的文章; 文章长度可能用来判断是否属于学术论文还是邮件,或者是推文。

(4)借用额外的资源来从文档中导出特征。可借用WordNet一样的词汇资源来扩展文档关键词项的同义或近义词,扩展词项会作为特征使用。

(5)实体通常会作为很好的特征。

时间: 2024-11-10 12:10:40

驾驭文本部分内容总结的相关文章

OpenNLP:驾驭文本,分词那些事

OpenNLP:驾驭文本,分词那些事 作者 白宁超 2016年3月27日19:55:03 摘要:字符串.字符数组以及其他文本表示的处理库构成大部分文本处理程序的基础.大部分语言都包括基本的处理库,这也是对文本处理或自然语言处理的前期必要工作.典型代表便是分词.词性标注.句子识别等等.本文所介绍的工具主要针对英文分词,对于英文分词工具很多,笔者经比较Apache OpenNLP效率和使用便捷度较好.另外其针对Java开发提供开源的API.开篇简介OpenNLP的情况,随后介绍6种常用模型,最后针对

驾驭文本:文本的发现、组织和处理——互动出版网

这篇是计算机类的优质预售推荐>>>><驾驭文本:文本的发现.组织和处理> 编辑推荐 本书适合于互联网文本内容处理领域的开发人员阅读,也适合有志于加入这一领域的学生.从业人员阅读.即使对于已经从事多年文本处理研究和开发工作的人员来说,本书也不失为一种有益的补充性读物. 内容简介 文本处理是目前互联网内容应用(如搜索引擎.推荐引擎)的关键技术.本书涵盖了文本处理概念和技术的多个方面,包括文本预处理.搜索.字符串匹配.信息抽取.命名实体识别.分类.聚类.标签生成.摘要.问答等

Excel自文本导入内容时如何做到单元格内换行

前言:今天在处理数据的时候,在数据库中用到了\n换行符号,目的是在同表格内做到数据多行显示,比如  字段名1  字段名2  字段名3  1 数据一行 数据二行 数据三行 例子是在sql查询后的结果   2 例子如上  数据未导出  本来在sql查询后是如此显示的,但是后来导出文本格式,Excel自文本导入内容时就会报错,那么问题来了, 如何做到Excel自文本导入内容时如何做到单元格内换行? 正文:在网上找了很多例子,其中有位前辈讲的很有道理,原话如下: excel实现自动换行的两个必要条件1.

将文本框内容添加到表格中的行代码实例

将文本框内容添加到表格中的行代码实例:在实际操作中,往往需要将文本框中的内容添加到表格的行中或者类似的情况,下面就通过一个实例介绍一下如何实现此效果,希望能够对需要的朋友有所帮助,代码如下: <!DOCTYPE html> <html> <head> <meta charset=" utf-8"> <meta name="author" content="http://www.softwhy.com/&

JS来推断文本框内容改变事件

   oninput,onpropertychange,onchange的使用方法 onchange触发事件必须满足两个条件: a)当前对象属性改变,而且是由键盘或鼠标事件激发的(脚本触发无效) b)当前对象失去焦点(onblur):    onpropertychange的话,仅仅要当前对象属性发生改变,都会触发事件,可是它是IE专属的: oninput是onpropertychange的非IE浏览器版本号,支持firefox和opera等浏览器,但有一点不同,它绑定于对象时,并不是该对象全部

利用lucene和pdfBox对PDF文本进行内容的解析

/*  * 这段代码的功能是利用PDFBox.zip的包  * 利用lucene对PDF文本进行内容的解析  * 读取pdf文件的内容.然后重新的写入到同名的.txt文件中  * */ 结果截图: package pdfbox; import java.io.File; import java.io.FileOut... songtaste.com/user/10335914/infosongtaste.com/user/10335923/infosongtaste.com/user/10335

jQuery—— jQuery get方法+一般处理程序处理文本框内容

3.Setting Up and Configuring Backup and Recovery 这个单元讲述如何启动.与rman client如何互动,准备rman环境,实现备份和恢复策略 注意:尽管闪回数据库和安全还原点不是真的数据库备份,但是它们是数据保护策略一个重要部分.这些特性需要一些初始化设置,这些设置依赖于在备份策略中你怎么混合它们.Chapter 5-Data Protection with Restore Points andFlashback Database 提供了关于怎么

Swift - 文本输入框内容改变时响应,并获取最新内容

1,问题描述 有时我们开发的时候需要先把“确认”按钮初始设置为不可用,当文本框中输入文字以后,再将输入按钮变为可用. 2,实现原理 (1)要检测文本框内容的变化,我们需要让新界面的Controller遵循一个文本协议UITextFieldDelegate. 同时在viewDidLoad方法内将文本框的代理设置为MainListController当前实例. 然后实现textFile的shouldChangeCharactersInRange方法就能在文本框将要变化的时候执行一些代码. (2)但这

VB.NET-轻松判断文本框是否为空,一键清空文本框内容

房收费系统的时候,令人相当恶心的一件事就是判断文本框和组合框是否为空还有清空文本框.基本上每个窗体都要进行判断,那一个接着一个的If...Else...语句,长长一串,看着就头疼,但是第一次做机房收费系统的时候竟然傻傻的一个不落都写了出来.真佩服当时的自己,不过这一次还是不要在做那种傻事了,因为我们经历了不少面向对象的洗礼,认识了封装. 向对象的范畴里,对于相同的或者类似的代码只要重复3次以上我们应该想到面向对象的三大特性之一:封装.想是想到了但是具体怎么通过封装来简化繁琐的判断任务呢? 1.