文本自动摘要

1.引言  

  所谓自动摘要就是利用计算机自动的从原始文献中提取文摘。文摘还是准确全面的反映某一文献中心内容的简介连贯的短文。随着Internet的飞速发展, 人们越来越多地依赖于万维网来获取所需要的信息。如何更加有效地浏览和查阅万维网上的海量信息成了当前情报科学领域的研究热点。自动文本摘要技术对文档信息进行压缩表示, 更好地帮助用户浏览和吸收万维网上的海量信息。在万维网用户普遍面临信息过载问题的今天, 自动文本摘要技术无疑能够有效地降低用户的信息负载, 帮我们更好地从万维网获取各类科技情报信息。

2.研究现状

  自动文本摘要技术从20世纪50年代开始兴起,最初是以统计学为支撑, 依靠文章中的词频、位置等信息为文章生成摘要, 主要适用于格式较为规范的技术文档。从90年代开始, 随着机器学习技术在自然语言处理中的应用, 自动文本摘要技术中开始融入人工智能的元素。针对新闻、学术论文等主题明确、结构清晰的文档, 一些自动摘要技术使用贝叶斯方法和隐马尔可夫模型抽取文档中的重要句子组成摘要。到了21世纪, 自动文本摘要技术开始广泛应用于网页文档。针对网页文档结构较为松散、主题较多的特点, 网页文档摘要领域出现了一些较新的自动摘要技术, 比如基于图排序的摘要方法等。

  

时间: 2024-08-08 18:14:38

文本自动摘要的相关文章

文本自动摘要:基于TextRank的中文新闻摘要

TextRank算法源自于PageRank算法.PageRank算法最初是作为互联网网页排序的方法,经过轻微地改动,可以被应用于文本摘要领域. 本文分为两部分,第一部分介绍TextRank做文本自动摘要的原理,第二部分介绍用TextRank做中文新闻摘要的案例. 一.基于TextRank的自动摘要原理 1.PageRank算法 首先看PageRank的相关概念.PageRank对于每个网页页面都给出一个正实数,表示网页的重要程度,PageRank值越高,表示网页越重要,在互联网搜索的排序中越可能

DL4NLP —— seq2seq+attention机制的应用:文档自动摘要(Automatic Text Summarization)

两周以前读了些文档自动摘要的论文,精读了三篇并做了presentation.下面把相关内容简单整理一下. 文本自动摘要(Automatic Text Summarization)就是说在不改变文档原意的情况下,利用计算机程序自动地总结出文档的主要内容.自动摘要的应用场景非常多,例如新闻标题生成.科技文献摘要生成.搜索结果片段(snippets)生成.商品评论摘要等.在信息爆炸的互联网大数据时代,如果能用简短的文本来表达信息的主要内涵,无疑将有利于缓解信息过载问题. 一.概述 自动摘要可以从很多角

win7 Anaconda 使用 conda命令

Anaconda 4.2 ---conda使用(Windows) 2017年01月09日 11:46:22 阅读数:8038 Anaconda是一个用于科学计算的Python发行版,提供了包管理与环境管理的功能,可以很方便地解决多版本python并存.切换以及各种第三方包安装问题. 1.Anaconda与conda区别 conda可以理解为一个工具,也是一个可执行命令,其核心功能是包管理与环境管理.包管理与pip的使用类似,环境管理则允许用户方便地安装不同版本的python并可以快速切换. co

TensorFlow文本摘要生成 - 基于注意力的序列到序列模型

1 相关背景 维基百科对自动摘要生成的定义是, "使用计算机程序对一段文本进行处理, 生成一段长度被压缩的摘要, 并且这个摘要能保留原始文本的大部分重要信息". 摘要生成算法主要分为抽取型(Extraction-based)和概括型(Abstraction-based)两类. 传统的摘要生成系统大部分都是抽取型的, 这类方法从给定的文章中, 抽取关键的句子或者短语, 并重新拼接成一小段摘要, 而不对原本的内容做创造性的修改. 这类抽取型算法工程上已经有很多开源的解决办法了, 例如Git

(4)文本挖掘(一)——准备文本读写及对Map操作的工具类

文本挖掘是一个对具有丰富语义的文本进行分析,从而理解其所包含的内容和意义的过程.文本挖掘包含分词.文本表示.文本特征选择.文本分类.文本聚类.文档自动摘要等方面的内容.文本挖掘的具体流程图可下图所示: 我的项目是以复旦大学中文语料库和路透社英文语料库为数据集的,都是有类别的两层目录文本集. 不管你要做什么,你首先都要先读取文本,为了方便后面的操作,我写了几个工具类,这里先将文本读取Reader类.文本写入Writer类和对Map的各种操作MapUtil类. Reader import java.

文本特征提取方法研究

文本特征提取方法研究 一.课题背景概述 文本挖掘是一门交叉性学科,涉及数据挖掘.机器学习.模式识别.人工智能.统计学.计算机语言学.计算机网络技术.信息学等多个领域.文本挖掘就是从大量的文档中发现隐含知识和模式的一种方法和工具,它从数据挖掘发展而来,但与传统的数据挖掘又有许多不同.文本挖掘的对象是海量.异构.分布的文档(web);文档内容是人类所使用的自然语言,缺乏计算机可理解的语义.传统数据挖掘所处理的数据是结构化的,而文档(web)都是半结构或无结构的.所以,文本挖掘面临的首要问题是如何在计

TF-IDF与余弦相似性的应用(三):自动摘要

转:http://www.ruanyifeng.com/blog/2013/03/automatic_summarization.html 有时候,很简单的数学方法,就可以完成很复杂的任务. 这个系列的前两部分就是很好的例子.仅仅依靠统计词频,就能找出关键词和相似文章.虽然它们算不上效果最好的方法,但肯定是最简便易行的方法. 今天,依然继续这个主题.讨论如何通过词频,对文章进行自动摘要(Automatic summarization). 如果能从3000字的文章,提炼出150字的摘要,就可以为读

【转载】文本特征提取方法研究

文本特征提取方法研究 引言:转载大神的文章(http://blog.csdn.net/tvetve/article/details/2292111),存一下用于日后查找 一.课题背景概述 文本挖掘是一门交叉性学科,涉及数据挖掘.机器学习.模式识别.人工智能.统计学.计算机语言学.计算机网络技术.信息学等多个领域.文本挖掘就是从大量的文档中发现隐含知识和模式的一种方法和工具,它从数据挖掘发展而来,但与传统的数据挖掘又有许多不同.文本挖掘的对象是海量.异构.分布的文档(web);文档内容是人类所使用

中文文本分类1

文本挖掘(Text Mining)是从非结构化文本信息中获取用户感兴趣或者有用的模式的过程. 文本挖掘是指从大量文本数据中抽取事先未知的.可理解的.最终可用的知识的过程,同时运用这些知识更好地组织信息以便将来参考. 文本预处理 文本处理的核心任务是把非结构化和半结构化的文本转换为结构化的形式,即向量空间模型. 具体步骤: 1. 选择处理的文本范围 选择恰当的范围取决于文本挖掘任务的目标: 对于分类或聚类的任务,往往把整个文档作为处理单位: 对于情感分析.文档自动摘要或信息检索,段落或章节可能更合