自动文档摘要技术简介

  自动摘要生成技术,尤其是多文档摘要的研究目前来说一直深受关注。从定义上来说,多文档摘要就是将同一主题下的多个文本描述的主要信息按压缩比提炼出一个文本的自然语言处理技术。从应用上来说,一方面,在互联网上使用搜索引擎时候,搜索同一主题的文档往往会返回成千上万的网页,如果将这些网页形成一个统一的、精炼的、能够反映主要信息的摘要必然具有重要的意义。另一方面,对于互联网上某一新闻单位针对同一事件的报道会很多,如果能从这些相关性很强的报道中提炼出一个覆盖性强、形式简洁的摘要也同样具有重要意义。这两个就是自动摘要典型的应用。

  对于单文档而言,一般就基于信息抽取方法。而对于多文档,同一主题中的不同文档之间难免存在信息交叠和差异,因此,我们要避免信息冗余的同时,反映出不同文档之间的信息差异,这是多文档的首要目标。

  对于单文档,输出的句子一般都是按照文中出现的顺序排列即可,而对于多文档,大多采用时间顺序,即先出现的文档,其中抽取的句子便排在前面。但是不管是单文档还是多文档,都必须面对三个关键问题:(1)文档冗余信息的识别和处理;(2)重要信息的识别;(3)生成文摘如何保证连贯性。

  对于第一个问题,一种方法是,计算句子相似度做聚类识别公共信息;另一种做法是采用候选法,计算候选文段和已选文段之间的相似度。对于第二个问题,常用方法还是信息论的一些东西:抽取法和信息融合法。抽取法的基本思路就是选出每个聚类中有代表性的句子,默认代表整个类的主要信息;信息融合的目的是生成一个简介、通顺并能反映这些句子之间共同信息的句子之间的共同信息句子。为了保证抽取的句子的连贯性,需要排列句子的先后顺序。这主要是针对多文档的。目前有两种方法:一种是时间排序法,就是按照文档的生成时间排序;另一种是扩张排序算法是将有一定内容相关性的主题放在一起来降低不流畅性。

  吴晓峰认为,目前摘录型的摘要生成方法仍然是主流,理解型还存在诸多问题。摘录型的主要思路是从文章中提取特征,这个特征的基本单位是句子。

时间: 2024-10-03 22:42:23

自动文档摘要技术简介的相关文章

自动文档摘要评价方法

自动文档摘要评价方法大致分为两类: (1)内部评价方法(Intrinsic Methods):提供参考摘要,以参考摘要为基准评价系统摘要的质量.系统摘要与参考摘要越吻合, 质量越高. (2)外部评价方法(Extrinsic Methods):不提供参考摘要,利用文档摘要代替原文档执行某个文档相关的应用.例如:文档检索.文档聚类.文档分类等, 能够提高应用性能的摘要被认为是质量好的摘要. 一.Edmundson: Edmundson评价方法比较简单,可以客观评估,就是通过比较机械文摘(自动文摘系统

MongoDB,无模式文档型数据库简介

MongoDB的名字源自一个形容词humongous(巨大无比的),在向上扩展和快速处理大数据量方面,它会损失一些精度,在旧金山举行的MondoDB大会上,Merriman说:“你不适宜用它来处理复杂的金融事务,如证券交易,数据的一致性可能无法得到保证”.若想了解更多关于MongoDB的信息,请看51CTO数据库频道推荐<MongoDB,无模式文档型数据库简介>. NoSQL数据库都被贴上不同用途的标签,如MongoDB和CouchDB都是面向文档的数据库,但这并不意味着它们可以象JSON(J

文档摘要自动提取算法——抽取式

文档摘要自动提取算法--抽取式 自动提取文档摘要的算法,主流方法分为两类:Extractive 抽取式.Abstractive 概要式.这篇我们主要将抽取式. 抽取式: 从原始文档集中抽取一些具有代表性的文本片段构成摘要,这些片段可以是整个文档中的句子.子句.段落或者小节. 抽取式方法有两个问题,如何对文本单元排序打分:如何抽取文本单元的一个子集生成摘要.分别对应着排序单元和抽取单元. 通俗讲就是,先用排序单元把文档中的单元排序,选择排名靠前的单元,再用抽取单元去除选出来的单元之间的冗余信息,得

NetScaler/MAS/XAXD自动文档生成工具

当工程实施后,为用户提交文档一直是工程师比较繁重的工作.这组NetScaler和MAS脚本可以帮助我们自动生成文档减轻部分工作. 脚本基于powershell,利用NetScaler的Nitro RESTful API把所有的信息取出,直接生成word或者pdf版本的文档. 原脚本支持除中文外的多种欧美语言,经过我和作者CarlWebster多次的测试,NetScaler脚本终于支持了中文版的office,可以在中文的系统上直接导出文档了.可在本文下方下载附件. 同时我把NetScaler的脚本

通过Swashbukle给DotNet Core Web API 增加自动文档功能

DotNet Core Web API给开发者提供了一个很好的框架来开发Restful的API.那么这些API接口该如何管理起来呢?Swagger是一个很好的选择,Swagger不需要开发者额外去维护接口文档,只要开发者的接口遵循Restful的规范,Swagger就会根据API接口生成文档. 对于前后端分离的开发模式,前后端开发者一般会先定义好接口,然后各自独立开发,后端开发者可以使用Swagger很快的生成没有业务逻辑的接口文档,接口返回的是Mock Data,这样前端开发人员就可以更早的开

Linux_文档编辑器_简介

1. vi 2. vim 3. ubuntu 有一个 自己的图形化的 文档编辑器,用起来比较方便: gedit 4. 5.

一个非常适合IT团队的在线API文档、技术文档工具 (ShowDoc)

在逸橙呆了不到两年,开发时后端都有开发接口API,来到数库,好多后端开发和前端沟通是还是发doc文档,很不方便,我向cto反应,自己找到这个,老乡田雷(php,隔壁村的)也用过,可能某些原因选择其他的,若一个公司没有行程约束力,开发文档还是不会达到满意的. 我个人觉得有总比没有强,其中我做的一个h5插件使用发放,就是写在这个文档上面,可以随时阅览查看, http://www.showdoc.cc/sdk?page_id=32735 访问密码 :123456

安装doxygen(一个自动文档生成工具)

由于你电脑里可能还没有doxygen,我们先来安装一下: sudo apt-get install doxygen doxygen-gui [sudo] password for wj: Reading package lists... Done Building dependency tree Reading state information... Done The following package was automatically installed and is no longer

mysql文档摘要续

以下是阅读mysql官方文档6-10章的笔记: mysql的权限设置:存储于mysql数据库包含一下表 1.user 最主要的权限设置表,所有的账户,全局权限 2.db 数据库层面的权限设置 3.tables_priv 数据表层面的权限设置 4.colums_priv 行级层面的权限设置 5.proc_priv 存储过程.函数的权限设置 mysql的权限验证一般先检查user表如果通过则授权,没有则继续db表,如果通过则添加到user表,并授权,延续以上规则... mysql一般在启动时将所有的