文档摘要自动提取算法——抽取式

文档摘要自动提取算法——抽取式

自动提取文档摘要的算法,主流方法分为两类:Extractive 抽取式、Abstractive 概要式。这篇我们主要将抽取式。

抽取式:

从原始文档集中抽取一些具有代表性的文本片段构成摘要,这些片段可以是整个文档中的句子、子句、段落或者小节。

抽取式方法有两个问题,如何对文本单元排序打分;如何抽取文本单元的一个子集生成摘要。分别对应着排序单元和抽取单元。

通俗讲就是,先用排序单元把文档中的单元排序,选择排名靠前的单元,再用抽取单元去除选出来的单元之间的冗余信息,得到最后的自动摘要。

两种实现思路:1)排序单元给句子打分,抽取单元抽取(去除冗余)句子子集作为摘要;2)排序单元给文档集中的概念打分,抽取单元抽取一组能够最大限度覆盖重要概念的句子。

对于排序单元,有三种学习排序算法:

1) pointwise排序:孤立地处理每个样本(句子或者概念),把句子的特征和标记(排序等级)输入到机器学习算法中,学习出分类器;

2) pairwise排序:从一系列句子对或者概念对{(x_i, x_j)}中学习排序函数f(x_i)。考虑了两两样本之间的排序问题;

3) listwise排序:所有样本之间的排序都考虑在内。

一定程度上,学习排序算法(LTR)和多标记学习里的方法是类似的,一阶/二阶/高阶方法。

对于抽取单元,需要从排序后的文本单元中,抽取一部分代表性的句子,生成抽取式摘要,在抽取的过程中,要尽可能地去除冗余。常用的是一个基于整数规划的抽取方法。

求解上面的整数规划,我们就可以得到哪些句子是需要抽取出来,组成摘要的。

参考文献:

文档摘要算法的研究与应用    金锋

时间: 2024-10-31 19:29:43

文档摘要自动提取算法——抽取式的相关文章

自动文档摘要技术简介

自动摘要生成技术,尤其是多文档摘要的研究目前来说一直深受关注.从定义上来说,多文档摘要就是将同一主题下的多个文本描述的主要信息按压缩比提炼出一个文本的自然语言处理技术.从应用上来说,一方面,在互联网上使用搜索引擎时候,搜索同一主题的文档往往会返回成千上万的网页,如果将这些网页形成一个统一的.精炼的.能够反映主要信息的摘要必然具有重要的意义.另一方面,对于互联网上某一新闻单位针对同一事件的报道会很多,如果能从这些相关性很强的报道中提炼出一个覆盖性强.形式简洁的摘要也同样具有重要意义.这两个就是自动

自动文档摘要评价方法

自动文档摘要评价方法大致分为两类: (1)内部评价方法(Intrinsic Methods):提供参考摘要,以参考摘要为基准评价系统摘要的质量.系统摘要与参考摘要越吻合, 质量越高. (2)外部评价方法(Extrinsic Methods):不提供参考摘要,利用文档摘要代替原文档执行某个文档相关的应用.例如:文档检索.文档聚类.文档分类等, 能够提高应用性能的摘要被认为是质量好的摘要. 一.Edmundson: Edmundson评价方法比较简单,可以客观评估,就是通过比较机械文摘(自动文摘系统

图片文档倾斜矫正算法 附完整c代码

2年前在学习图像算法的时候看到一个文档倾斜矫正的算法. 也就是说能将一些文档图像进行旋转矫正, 当然这个算法一般用于一些文档扫描软件做后处理 或者用于ocr 文字识别做前处理. 相关的关键词: 抗倾斜 反倾斜  Deskew 等等. 最简单算法实现思路,采用 霍夫变换(Hough Transform)进行直线检测, 当然也可以用霍夫变换检测圆. 在倾斜矫正算法中,自然就是检测直线. 通过对检测出来的直线进行角度判断, 一般取 认可度最高的几条直线进行计算, 最后求取均衡后的角度值. 进行图像角度

mysql文档摘要续2

mysql优化续: 1:show index from table_name查看索引使用情况其中cardinality基数,即value group索引区分度,当cardinality越小时需要扫描的行数越多,越大是则越小. 2:mysql评价索引扫描数据量非常大时可能会放弃使用,当使用limit时,情况可以改变,mysql会采用索引 3:针对mysql的行格式row format.innodb最新版本采用COMPACT,老版本是REDUNDANT,使用新的格式或减少20%的磁盘空间,相应的会增

mysql文档摘要续

以下是阅读mysql官方文档6-10章的笔记: mysql的权限设置:存储于mysql数据库包含一下表 1.user 最主要的权限设置表,所有的账户,全局权限 2.db 数据库层面的权限设置 3.tables_priv 数据表层面的权限设置 4.colums_priv 行级层面的权限设置 5.proc_priv 存储过程.函数的权限设置 mysql的权限验证一般先检查user表如果通过则授权,没有则继续db表,如果通过则添加到user表,并授权,延续以上规则... mysql一般在启动时将所有的

mysql文档摘要

以下是阅读mysql官方文档前五章的笔记: mysql的batch mode:shell> mysql < batch-file 或者 mysql -e "sql" or "source batch-file". mysql的四种启动方式:1. mysqld also known as MySQL Server, is the main program that does most of the work in a MySQL installation

simhash-- 一种文档去重的算法

最早看数学之美的时候,书中就提到了这个算法,当时没有做过相关地工作,没什么具体的印象.一年前转岗时面试时别人提到了这个算法,知道了simhash可以用来解决网页等海量数据的去重问题,很高效. 然后自己大概实现了一下这个算法的python版本,试了一下,感觉还不错,mark下吧 # coding=utf-8 import os single_bits = {} for x in xrange(32): single_bits[x] = 1 << x print single_bits def s

mysql文档摘要续3

mysql 数据类型: 整数浮点类型 1.bool.boolean相当于tinyint(1).其中true等同于1,false等同于0. 2.tinyint(M).smallint(M)等默认是signed有符号的,可以定义unsigned无符号. 3.decimal(M,D)其中M表示总长度max 65,D表示小数点后面的位数max 30. 时间类型: 1.date 范围是'1000-01-01' to '9999-12-31',格式为'YYYY-MM-DD',datetime(fsp) 范围

如何操作滚动条时间,实现文档摘要

html: <div class="mg menu"> <div> <ul> <li><a href="#model" class="">vue的学习</a></li> <li><a href="#course">node的学习</a></li> <li><a href=&quo