关键字抽取论文阅读笔记

刘知远老师博士论文-基于文档主题结构的关键词抽取方法研究

一、研究背景和论文工作介绍

  关键词抽取分为两步:选取候选关键词和从候选集合中推荐关键词

1.1. 选取候选关键词

关键词:单个词或者多个单词组成的短语。

抽取难点:如何正确判定候选关键词的边界。(在英文关键词抽取中,一般选N元词串,计算N元词串内部联系的紧密程度来判断是否是一个有独立语义的短语。类比搭配抽取、多词表达抽取任务)

1.2. 推荐关键词

  得到候选关键词集合后,两种途径解决关键词选取问题。

(1)无监督的方法

  利用统计特性(egTF-IDF),排序,选取最高若干作为关键词。

(2)有监督的方法

  将关键词抽取问题转换为判断每个候选关键词是否为关键词的二分类问题,它需要一个已经标注关键词的文档集合训练分类模型。(什么意思?具体怎么做?)

:标注虽效果好,但耗时耗力,不能灵活面对时间变化下文档主题的变化,因此方法集中在无监督。

知识扩展(了解一些算法思想)

  PageRank算法:对网页进行排序,基本思想,一个网页的重要性由链向它的其他网页重要性来决定,即如果越多重要的网页指向某网页,那么该网页也就相应越重要。

  PageRank引出TextRank(基于图的关键词抽取算法),用在关键字抽取和文档摘要。基本思想,将文档看作一个词的网络,该网络中的链接表示词与词之间的语义关系。基于与PageRank相似的思想,TextRank认为一个词的重要性由链向它的其他词的重要性来决定,利用PageRank计算网络中词的重要性,然后根据候选关键词的PageRank值进行排序,从而选择排名最高的若干个词作为关键词。优点是考虑了文档中词与词之间的语义关系。

  用于网页排序的HITS算法用于候选关键词排序,效果也相似。

主流方法:基于图的算法成为无监督关键词抽取的主流方法。关键词抽取以文档的词网作为基础。

应用扩展:社会标签自动标注(1.3节)分为两部分

(1)基于图的方法(涉及概念:协同标注、协同过滤、FolkRank算法、矩阵分解技术, 冷启动)

(2)基于内容的方法(涉及概念:K 近邻、隐含主题模型)

图 传统方法

 总结:以上为传统方法,已有实现,但未系统考虑文档主题结构对关键词标注的作用。文档关键词同时有三个特点:可读性,相关性,覆盖度(考虑多主题问题)。论文主要解决关键词对文档主题覆盖度问题和文档与主题之间的词汇差异问题(什么是词汇差异?1.4.2节介绍)。

二、文档词汇聚类算法构建文档主题(利用文档内部信息、提高对文档主题的覆盖度)

主要步骤:

1. 去停用词,选取候选词2. 计算候选词之间的语义相似度

3. 根据语义相似度进行聚类

4. 选取每个聚类中心词,在文档中选取合适的关键词

对每个步骤详细介绍:

2.1. 去停用词,选取候选词

2.1.1 英语要进行断词,如果是汉语,先分词。(断词和分词的区分)

2.1.2 去停用词得到候选词。(一种候选关键词研究方法:先将单词作为候选词,聚类中心词,再将单个候选词扩展为多个词的短语)4,73

2.2. 计算候选词之间的语义相似度

2.2.1 基于文档内的词同现关系(度量词与词的相似度)

  词与词的同现关系简单地表示为两个词在一个最多为w个词的滑动窗口内同现的次数。窗口大小w一般设为2到10之间的数值。在计算同现相似度时,利用每个文档中的每个词(不去停用词,无意义词用来提供距离信息),转换为词的序列

2.2.2 利用外部知识库

  利用维基百科来度量词与词之间的相似度,基本思想:将每个维基百科词条看作是一个独立的概念,一个词的语义信息可以用维基百科概念上的分布来表示,在某个概率上的权重可以用这个词的概率词条中的TF-IDF值来表示。比较两个词的概念向量来度量相似度。(很有效

  选用余弦相似度(COS)、欧式距离(EU-C)、点互信息(PMI)和规范化Google距离(NGD)来计算相似度。具体公式查看第12页

2.3 聚类方法(无监督,将对象划分为不同组,每个组内对象相互比较相似,组与组之间对象不同)

  采用三种典型聚类算法:层次聚类、谱聚类、信任传播聚类。

未完待续

三、隐含主题模型构建文档主题(利用文档外部信息,不受限文档长短)

四、基于主题的随机游走模型(隐含主题模型和文档结构信息相结合)

五、机器翻译词对齐模型计算词到关键词的翻译概率(比较有效)

时间: 2024-10-13 02:22:46

关键字抽取论文阅读笔记的相关文章

Google File System 论文阅读笔记

核心目标:Google File System是一个面向密集应用的,可伸缩的大规模分布式文件系统.GFS运行在廉价的设备上,提供给了灾难冗余的能力,为大量客户机提供了高性能的服务. 1.一系列前提 GFS的系统构建针对其自身使用的特点在传统的分布式系统的基础上又进行了一些创新,基于的前提假设主要包括以下方面: 1.由于系统由廉价的商用机构成,组件失效被认为是一种常态,系统必须可以持续监控自身的状态. 2.系统存储以大文件为主,小文件也支持,但是没有进行特别的优化处理. 3.系统的工作负载主要包含

深度学习论文阅读笔记--Deep Learning Face Representation from Predicting 10,000 Classes

来自:CVPR 2014   作者:Yi Sun ,Xiaogang Wang,Xiaoao Tang 题目:Deep Learning Face Representation from Predicting 10,000 Classes 主要内容:通过深度学习来进行图像高级特征表示(DeepID),进而进行人脸的分类. 优点:在人脸验证上面做,可以很好的扩展到其他的应用,并且夸数据库有效性:在数据库中的类别越多时,其泛化能力越强,特征比较少,不像其他特征好几K甚至上M,好的泛化能力+不过拟合于

Apache Spark源码走读之1 -- Spark论文阅读笔记

转自:http://www.cnblogs.com/hseagle/p/3664933.html 楔子 源码阅读是一件非常容易的事,也是一件非常难的事.容易的是代码就在那里,一打开就可以看到.难的是要通过代码明白作者当初为什么要这样设计,设计之初要解决的主要问题是什么. 在对Spark的源码进行具体的走读之前,如果想要快速对Spark的有一个整体性的认识,阅读Matei Zaharia做的Spark论文是一个非常不错的选择. 在阅读该论文的基础之上,再结合Spark作者在2012 Develop

论文阅读笔记:Fully Convolutional Networks for Semantic Segmentation

这是CVPR 2015拿到best paper候选的论文. 论文下载地址:Fully Convolutional Networks for Semantic Segmentation 尊重原创,转载请注明:http://blog.csdn.net/tangwei2014 1.概览&主要贡献 提出了一种end-to-end的做semantic segmentation的方法,简称FCN. 如下图所示,直接拿segmentation 的 ground truth作为监督信息,训练一个端到端的网络,让

论文阅读笔记--Selective Search for Object Recognition

Selective Search for Object Recognition [email protected] 作者: J. R. R. Uijlings, K. E. A. van de Sande, T. Gevers, A. W. M. Smeulders. 引用: Uijlings, Jasper RR, et al. "Selective search for object recognition." International journal of computer v

论文阅读笔记——End-to-end Learning of Action Detection from Frame Glimpses in Videos

论文题目:End-to-end Learning of Action Detection from Frame Glimpses in Videos 出处:arXiv,目前尚未有正式出版 作者及单位: Serena Yeung1, Olga Russakovsky1,2, Greg Mori3, Li Fei-Fei1 1Stanford University, 2Carnegie Mellon University, 3Simon Fraser University 相关工作:视频中的行为检测

SLAM论文阅读笔记

[1]陈卫东, 张飞. 移动机器人的同步自定位与地图创建研究进展[J]. 控制理论与应用, 2005, 22(3):455-460. [2]Cadena C, Carlone L, Carrillo H, et al. Past, Present, and Future of Simultaneous Localization and Mapping: Toward the Robust-Perception Age[J]. IEEE Transactions on Robotics, 2016

Linux根文件系统裁剪 论文阅读笔记

Linux裁剪方法研究 2006 2 Linux裁剪原理: 2 Linux嵌入式系统根文件系统的选择与制作 2006 3 Linux嵌入式系统根文件系统的选择与制作 2006 3 基于ARM的嵌入式Linux操作系统移植的研究 2006 5 基于ARM的嵌入式文件系统研究与设计 2010 6 基于嵌入式Linux的Ext2根文件系统制作分析 2015 6 嵌入式Linux裁剪研究 2009 7 嵌入式Linux根文件系统的构建与分析 2015 8 嵌入式Linux共享库裁剪技术分析与改进 200

跨语言论文阅读笔记———第一篇

Cross-lingual Transfer of Named Entity Recognizerswithout Parallel Corpora 1.布朗聚类: 布朗聚类是一种针对词汇的聚类方法,Input是一系列的文章或者句子,Output有两种: 第一种是:一系列的词组,具体多少个类看你之前的设定: 第二种是:每个词都有一长串的二进制码,用类似霍夫曼编码的方式对每个词进行编码 可以显而易见的是,前缀相似度更高的词就越相近 什么样的词汇相似呢?一个直觉的想法就是:相似的词出现在相似的位置.