Nutch & Lucene 之 搜索引擎文本分析

0搜索引擎文本分析 ——网络爬虫处理互联网信息,从数量上看比例较大的是静态网页和动态的HTML页面。但整个网络上散落的各种格式化文本文件也非常重要。这部门文件包括了各种文章、各种产品文档等,对用户有很大的帮助。

1——非结构化文本概述

互联网上和企业网内有很多专业的文档资料,尤其在检索一些专业资料时,往往会在出现网页文档的同时出现一些DOC PDF PPT等格式的文档。非结构化的文本通常具有一定得格式,格式化的文件一般结构复杂,通常有多家厂商的不同系统生成,这些格式使得普通程序读取内容无从下手(如htmlParser)

2 ——HTML文档分析:

HTML网页需要分析处理后才能用于索引和检索的,HTML网页的分析处理工具主要完成网页格式文档的解析,过滤网页中显示格式控制元素和无意义信息。 —— HTMLParser工具包

3——PDF 文档分析:

它是国内使用率非常高的一种文档格式,这种文件格式把文字图像等多种信息集合在一个文档中,必须根据他的文档格式,提取基本的文本信息,才能用于检索。—— PDFBox工具包是一款免费的开源软件 http://pdfbox.apache.org/download.cgi

4——Office 文档分析:

它是目前最流行的文档格式,几乎成为事实的文档标准,互联网上散落着大量的这样文档,几乎所有的搜索引擎都提供了这种格式文档的检索。但是,微软的文件格式不公开,并且不断的变化 —— POI工具包是Apache Jakarta 的一个项目。http://poi.apache.org/download.html

Microsoft 的Office格式非常复杂,往往包含了各种文档属性信息、文档内的格式信息,有时候甚至包含了复合文档。文档属性信息主要包括文档的标题、主题、摘要、类别、关键词等;文档内部的格式信息包括了文档的字体、字号、表格、图标,其他OLE2的正文元素等。POI 提供了访问Office的API(HSSF HWPF HSLF)分别处理excel word powerpoint

5——XML 文档分析:

是一种较为 通用的文档格式,XML是可扩展标记语言(eXtensible MarkU盘Language),是一种简单的数据存储语言,使用系列简单的标记描述数据,广泛用于数据交换领域 —— JDOM工具包,功能强大,使用灵活方便,可以非常方便的完成XML的解释和读取操作,能够帮助开发者快速实现XML应用程序。http://jdom.org/downloads/index.html

时间: 2024-11-01 20:09:06

Nutch & Lucene 之 搜索引擎文本分析的相关文章

Lucene/Solr搜索引擎开发系列 - 第1章 Solr安装与部署(Jetty篇)

一.为何开博客写<Lucene/Solr搜索引擎开发系列>     本人毕业于2011年,2011-2014的三年时间里,在深圳前50强企业工作,从事工业控制领域的机器视觉方向,主要使用语言为C/C++:现就职于一家大型国企所属电子商务公司,主要使用语言为Java,负责公司新一代搜索引擎的开发工作,故开此系列来总结自己在Lucene/Solr上的学习历程,同时,也希望能给予对搜索引擎开发有兴趣的朋友一些帮助和启发. 二.Lucene和Solr简要介绍     Lucene是apache软件基金

Lucene/Solr 搜索引擎开发 第1章

一.本章思维导图   二.Solr的安装和部署 1.介绍Lucene和Solr分别是什么的?     Lucene是apache软件基金会4 jakarta项目组的一个子项目,是一个开放源代码的全文检索引擎工具包,即它不是一个完整的全文检索引擎,而是一个全文检索引擎的架构,提供了完整的查询引擎和索引引擎,部分文本分析引擎(英文与德文两种西方语言).Lucene的目的是为软件开发人员提供一个简单易用的工具包,以方便的在目标系统中实现全文检索的功能,或者是以此为基础建立起完整的全文检索引擎.    

Solr:文本分析

文本分析时搜索引擎的核心工作之一,对文本包含许多处理步骤,比如:分词.大写转小写.词干化.同义词转化等.简单的说,文本分析就说将一个文本字段的值转为一个一个的token,然后被保存到Lucene的索引结构中被将来搜索用.当然,文本分析不仅在建立索引时有用,在查询时对对所输入的查询串也一样可以进行文本分析.在 Solr Schema设计 中我们介绍了许多Solr中的字段类型,其中最重要的是solr.TextField,这个类型可以进行分析器配置来进行文本分析. 接下来我们先来说说什么是分析器. 分

Solr文本分析剖析【文本分析、分词器详解、自定义文本分析字段及分词器】

一.概述 Solr文本分析消除了索引词项与用户搜索词项之间的语言差异,让用户在搜索buying a new house时能找到类似的内容,例如:purchasing a new home这样的文档.如果搭配恰当,文本分析就能允许用户使用自然语言进行搜索,而无需考虑搜索词项的所有可能形式.毕竟谁也不想看到为了相似搜索而构造这样的查询表达式:buying house OR purchase home OR buying a home OR purchasing a house .... 用户可以使用

《人民的名义》---简单的文本分析

我们都知道进行自然语言处理的第一步就是分词,下面使用jieba模块对最近比较热的电视剧<人民的名义>进行分词,并对它进行一些简单的文本分析. 一.jieba模块中常用的方法说明(github): 1.分词: jieba.cut 方法接受三个输入参数: 需要分词的字符串:cut_all 参数用来控制是否采用全模式:HMM 参数用来控制是否使用 HMM 模型 jieba.cut_for_search 方法接受两个参数:需要分词的字符串:是否使用 HMM 模型.该方法适合用于搜索引擎构建倒排索引的分

免费的Lucene 原理与代码分析完整版下载

Lucene是一个基于Java的高效的全文检索库.那么什么是全文检索,为什么需要全文检索?目前人们生活中出现的数据总的来说分为两类:结构化数据和非结构化数据.很容易理解,结构化数据是有固定格式和结构的或者有限长度的数据,比如数据库,元数据等.非结构化数据则是不定长或者没有固定格式的数据,如图片,邮件,文档等.还有一种较少的分类为半结构化数据,如XML,HTML等,在一定程度上我们可以将其按照结构化数据来处理,也可以抽取纯文本按照非结构化数据来处理.非结构化数据又称为全文数据.,对其搜索主要有两种

聊聊基于Lucene的搜索引擎核心技术实践

最近公司用到了ES搜索引擎,由于ES是基于Lucene的企业搜索引擎,无意间在"聊聊架构"微信公众号里发现了这篇文章,分享给大家. 请点击链接:聊聊基于Lucene的搜索引擎核心技术实践

Lucene/Solr搜索引擎开发系列 - 第2章 Solr安装与部署(Tomcat篇)

一.安装环境 图1-1 Tomcat和Solr的版本     我本机目前使用的Java版本为JDK 1.8,因为Solr 4.9要求Java版本为1.7+,请注意. 二.Solr部署到Tomcat流程 图1-2 Tomcat安装目录     1.如图1-2所示,为Tomcat的解压目录: 图1-3 Tomcat首页     2.在目录E:\apache-tomcat-8.0.9\bin中,找到startup.bat文件,双击该文件,启动Tomcat服务器,等待几秒钟后,在浏览器中输入http:/

PAI文本分析实验:常用文本分析组件及案例实战

上一篇介绍了PAI以及机器学习相关的一点知识,没有深入算法原理,只是从使用角度出发熟悉了操作流程,后面随着学习的深入,我也会对算法原理做一个详细的阐述.这次我们还是继续实战,认识机器学习在文本分析领域是如何工作的.先贴出官方的教程:机器学习PAI眼中的<人民的名义>. 准备开始 还是在阿里PAI环境下,我们从实验模板:人民的名义分析进入,然后点击去PAI平台创建,这样就在机器学习页面创建好了实验.接下里设置各个组件的参数,我们先看下模型图: 你会发现模板创建的结果和教程的模型图不一样.这里我们