Nutch & Lucene 之搜索引擎文本分析

0搜索引擎文本分析 ——网络爬虫处理互联网信息，从数量上看比例较大的是静态网页和动态的HTML页面。但整个网络上散落的各种格式化文本文件也非常重要。这部门文件包括了各种文章、各种产品文档等，对用户有很大的帮助。

1——非结构化文本概述

互联网上和企业网内有很多专业的文档资料，尤其在检索一些专业资料时，往往会在出现网页文档的同时出现一些DOC PDF PPT等格式的文档。非结构化的文本通常具有一定得格式，格式化的文件一般结构复杂，通常有多家厂商的不同系统生成，这些格式使得普通程序读取内容无从下手（如htmlParser）

2 ——HTML文档分析：

HTML网页需要分析处理后才能用于索引和检索的，HTML网页的分析处理工具主要完成网页格式文档的解析，过滤网页中显示格式控制元素和无意义信息。 —— HTMLParser工具包

3——PDF 文档分析：

它是国内使用率非常高的一种文档格式，这种文件格式把文字图像等多种信息集合在一个文档中，必须根据他的文档格式，提取基本的文本信息，才能用于检索。—— PDFBox工具包是一款免费的开源软件 http://pdfbox.apache.org/download.cgi

4——Office 文档分析：

它是目前最流行的文档格式，几乎成为事实的文档标准，互联网上散落着大量的这样文档，几乎所有的搜索引擎都提供了这种格式文档的检索。但是，微软的文件格式不公开，并且不断的变化 —— POI工具包是Apache Jakarta 的一个项目。http://poi.apache.org/download.html

Microsoft 的Office格式非常复杂，往往包含了各种文档属性信息、文档内的格式信息，有时候甚至包含了复合文档。文档属性信息主要包括文档的标题、主题、摘要、类别、关键词等；文档内部的格式信息包括了文档的字体、字号、表格、图标，其他OLE2的正文元素等。POI 提供了访问Office的API（HSSF HWPF HSLF）分别处理excel word powerpoint

5——XML 文档分析：

是一种较为通用的文档格式，XML是可扩展标记语言（eXtensible MarkU盘Language）,是一种简单的数据存储语言，使用系列简单的标记描述数据，广泛用于数据交换领域 —— JDOM工具包，功能强大，使用灵活方便，可以非常方便的完成XML的解释和读取操作，能够帮助开发者快速实现XML应用程序。http://jdom.org/downloads/index.html

时间： 2024-11-01 20:09:06

Nutch & Lucene 之搜索引擎文本分析

Nutch & Lucene 之搜索引擎文本分析的相关文章

Lucene/Solr搜索引擎开发系列 - 第1章 Solr安装与部署（Jetty篇）

Lucene/Solr 搜索引擎开发第1章

Solr：文本分析

Solr文本分析剖析【文本分析、分词器详解、自定义文本分析字段及分词器】

《人民的名义》---简单的文本分析

免费的Lucene 原理与代码分析完整版下载

聊聊基于Lucene的搜索引擎核心技术实践

Lucene/Solr搜索引擎开发系列 - 第2章 Solr安装与部署（Tomcat篇）

PAI文本分析实验：常用文本分析组件及案例实战

Nutch & Lucene 之 搜索引擎文本分析

Nutch & Lucene 之 搜索引擎文本分析的相关文章

Nutch & Lucene 之搜索引擎文本分析

Nutch & Lucene 之搜索引擎文本分析的相关文章