灵玖NLPIRParser大数据挖掘系统智能摘要

  所谓自动文摘就是利用计算机自动地从原始文献中提取文摘,文摘是全面准确地反映某一文献中心内容地简单连贯的短文。常用方法是自动摘要将文本作为句子的线性序列,将句子视为词的线性序列。

  灵玖NLPIRParser智能摘要是通过网页文本特殊的标签将需要的数据提供给搜索引擎,并在搜索结果中按照既定的模版展现的实现形式,目的是为了提升搜索结果的体验。

  NLPIRParser智能摘要能够实现文本内容的精简提炼,从长篇文章中自动提取关键句和关键段落,构成摘要内容,方便用户快速浏览文本内容,提高工作效率。

  NLPIRParser智能摘要技术应用类型:

  1、基于统计的自动摘要

  基于统计的自动摘要也称为自动摘录,是将文本视为句子的线性序列,将句子视为词的线性序列。

  (1)原始文本处理:按照计算机能够识别的形式输入文本信息,比如:键盘输入、手写录入、文本扫描、图形识别、语音识别等。

  (2)词语权重计算:对原始文本信息中的"关键词"进行词频统计。

  (3)句子权重计算:根据句子中词频等信息计算句子权重。其标准为:句子权重与句中所含"关键词"的数量成正比;文本信息中包含提示词,则提高句子权重;文本信息中特殊位置上的句子权重增加;若句子中包含废弃指示词则句子权重减小;句子长度与句子权重成反比。

  (4)文摘句提取:对原文中所有句子按权值高低降序排列,权值最高的若干句子被确定为文摘句。

  (5)文摘句输出:将所有文摘句按照它们在原文中的出现顺序输出。其中,计算词语权重、句子权重、选择文摘句的依据是文本的6种形式特征:

  基于统计的方法领域不受限、速度快、摘要长度可调节,但它局限于文本表层信息,生成的摘要质量较差,存在内容不全面、语句冗余、不连贯等问题。

  2、基于理解的自动摘要

  基于理解的自动摘要以人工智能技术,特别是自然语言理解技术为核心。在对文本进行语法结构分析的同时,利用了领域知识对文本的语义进行分析,通过判断推理,得出文摘句的语义描述,根据语义描述自动生成摘要。

  其中,文本分析是最重要的环节,包括语法分析、语义分析、句法分析。

  (1)语法分析:借助于知识库中的词典和文法规则对输入的文本信息进行语法分析,确定词形和词义,切分句子并找出词间句法上的联系,以一种数据结构描述这些联系,如文法结构树。

  (2)语义分析:将句子孤立于所处的环境仅从字面上分析意义。最主要的方法是进行文本标注,通过标注表示词之间的前后依赖关系、句之间语义衔接关系、段之间语义聚合或转移关系,运用领域知识库所描述的知识,把语义标注转换为机器能"理解"的语义网络。

(3)句法分析:分析文献中的每个词,给出它对全文的贡献,包括修辞、句法和语义知识及文献的话语结构属性。这种方法采用了复杂的自然语言理解和生成技术,对文献意义把握更准确,因此摘要质量较好,具有简洁精练、全面准确、可读性强等优点。

  3、基于信息抽取的自动摘要

  基于理解的自动摘要方法需要对文章进行全面的分析,生成详尽的语义表达,这对于大规模真实文本而言是很难实现的。而信息抽取只对有用的文本片段进行有限深度的分析,效率和灵活性显著提高。

  基于信息抽取的自动摘要也称为模板填写式自动摘要。它以摘要框架为中枢,分为选择与生成两个阶段。

  4、基于结构的自动摘要

  将文本信息视为句子的关联网络,选择与很多句子都有联系的中心句构成摘要,这就是基于结构的自动摘要。

  篇章是一个有机的结构体,篇章中的不同部分承担着不同的功能,各部分之间存在着错综复杂的关系。篇章结构分析清楚了,文章的核心部分自然能够找到。但语言学对于篇章结构的研究不够,可用的形式规则极少了,这使得基于结构的自动摘要到目前为止还没有一套成熟的方法。

  NLPIRParser智能摘要不仅可以针对一篇文档生成连贯流程的摘要,还能够将具有相同主题的多篇文档去除冗余、并生成一篇简明扼要的摘要;用户可以自由设定摘要的长度、百分比等参数;处理速度达到每秒钟20篇。

时间: 2024-11-02 19:38:55

灵玖NLPIRParser大数据挖掘系统智能摘要的相关文章

灵玖软件Nlpir Parser语义智能内容过滤

Internet是全球信息共享的基础设施,是一种开放和面向 所有用户的技术.它一方面要保证信息方便.快捷的共享;另一方面要防止垃圾信息的传播.网络内容分析是一种管理信 息传播的重要手段.它是网络信息安全核心理论与关键技术 研究网络内容分析所涉及的新理论.新体系结构.新方法和新技术. 内容过滤技术一般包括名单过滤技术.关键词过滤技术.图像过滤技术.模板过滤技术和智能过滤技术等.目前,内容过滤技术还处于初级阶段,实用的技术相对比较单一,主要表现在名单过滤和关键词过滤技术,而图像过滤与模板过滤技术还处

灵玖LJParser系统大数据语义挖掘的平台

大数据挖掘中最重要的是决定挖掘什么样的知识,这是在数据的收集.处理.挖掘的整个过程中都需要认真考虑的问题. 大数据技术涉及存储.搜索.传输.计算.挖掘等多方面.大数据挖掘旨在从大数据中挖掘出未知且有用的知识.通过挖掘,大数据的价值才得以体现,所以挖掘对大数据有着举足轻重的意义. 大数据挖掘有两个基本问题,即"挖什么(what to mine)"与"怎么挖(how to mine)".前者决定从数据中抽取什么样的信息,统计什么样的规律,后者决定怎样具体进行抽取与统计.

文本挖掘:灵玖大数据汉语智能分词技术

汉语分词(Chinese Word Segmentation) 指的是将一个汉字序列切分成一个一个单独的词.分词就是将连续的字序列按照一定的规范重新组合成词序列的过程.中文分词是其他中文信息处理的基础,搜索引擎只是中文分词的一个应用.其他的比如机器翻译(MT).语音合成.自动分类.自动摘要.自动校对等等,都需要用到分词. 汉语自动分词是目前中文信息处理领域公认的一大难题,也是自然语言理解研究领域中最基本的一个环节.中文自动分词就是将用自然语言书写的文章.句段经计算机处理后,以词为单位逐词输出,为

灵玖软件:NLPIR技术助力行业大数据智能挖掘

大数据时代业已到来,当今世界正处在一个数据爆炸的时代.伴随着多媒体.云计算.物联网.社交网络等技术的发展,以及天文观测.空间地理.金融分析等各领域每天都在产生巨量的数据,这些数据如此庞大,其规模.其涌现速度和其处理难点超出目前常规技术能管理.处理和分析的能力.一般来说,大数据具有量大(Volume).流动性大(Velocity),种类多(Variety),分布式(distributed).非一致(nonuniformity)等特性,这些特点决定了在大数据时代,我们传统的数据处理技术必须有革命性的

大数据文本分析:灵玖自然语言中文语义分词系统

自然语言通常是指一种自然地随文化演化的语言.英语.汉语.日语为自然语言的例子,而世界语则为人造语言,即是一种为某些特定目的而创造的语言. 自然语言具备两个属性:语言属性与自然属性."语言"属性表现为公认的某些约定俗成的内在规律性;"自然"属性是说并不存在某个人为制造的.严格的语法规则体系来约定人们的语言表达方式,这是和程序设计语言大相径庭的.自然语言需要遵循一定的内在规律,但更大程度上是"存在即合理". 一个自然语言处理系统必须考虑许多语言自身与

语义挖掘:灵玖大数据汉语智能分词

自然语言处理(NLP,Natural Language Processing)是一个信息时代最重要的技术之一,简单来讲,就是让计算机能够理解人类语言的一种技术.在其中,分词技术是一种比较基础的模块,分词的意义非常大,在中文中,单字作为最基本的语义单位,虽然也有自己的意义,但表意能力较差,意义较分散,而词的表意能力更强,能更加准确的描述一个事物,因此在自然语言处理中,通常情况下词(包括单字成词)是最基本的处理单位. 汉语词技术对中文搜索引擎的查准率及查全率有重大影响.汉语词法分析中间件能对汉语语言

大数据挖掘:灵玖LJKeyScanner网络净化卫士

信息过滤是根据用户的信息需求,运用一定的标准和技术,从大量的动态信息流中将与用户无关的信息滤掉,把满足用户需求的信息提供给用户,从而减轻用户的认知负担,提高用户获取信息的效率. 随着科技的提高,互联网也得到了快速的发展,互联网发展到今天,已经得到很大的普及和应用.目前已经成为一个全球性.开放性.互动性的综合性平台.它容纳了各类型的原始信息,提供了各类型的服务,比如信息获取.网上购物.即时性信息交流等,给人们工作.生活带来很大的便利.可以说它深入人们的方方面面,是人类信息化技术的一次革命. 网络给

灵玖软件:大数据挖掘技术比数据更重要

数据与信息是重要的生产要素和战略资产,已在全球达成共识.然而,失去控制和无组织的数据和信息却不能很好地发挥战略资产的作用.信息挖掘是对文献.数据等信息资源对象进行分类.标引.描述.揭示,使之有序化.系统化的过程,其目的恰好是将无序的.分散的数据和信息整理成有序的信息资源,保证用户的有效获取和利用.因此,信息挖掘对于大数据资源的管理与利用具有重要作用. 同时,当前的大数据环境给信息挖掘带来了巨大的影响.正确地识别这些影响,对于凝练信息挖掘的研究方向.使其适应当前的发展环境.与国家的重大需求对接.为

大数据灵玖通用采集平台发布

12月20日,公司为了让全体员工熟悉公司新产品-"灵玖通用采集平台"的技术原理.主要特点和性能优势,方便大家在技术调用.用户运维和客户拓展中,对该采集平台有更深刻的理解和把握,特邀请到了采集平台的原始开发人员--高莘,为全体员工做了主题<第二代采集平台--"灵玖通用采集平台"介绍>的培训课程. 高莘表示,数据采集是大数据挖掘的最重要的基础,而"灵玖通用采集平台"是一款既可以对网站深度定制,也可以使用最简单的配置快速采集的系统平台,它采