Lucene初识

1、概述

    1.1  Lucene是apache软件基金会4 jakarta项目组的一个子项目;

       是一个开放源代码的全文检索引擎工具包

       但它不是一个完整的全文检索引擎,而是一个全文检索引擎的架构,提供了完整的查询引擎和索引引擎部分文本分析引擎(英文与德文两种西方语言);

    1.2  Lucene的目的是为软件开发人员提供一个简单易用的工具包,以方便的在目标系统中实现全文检索的功能,或者是以此为基础建立起完整的全文检索引擎;

    1.3  Lucene是一个高性能、可伸缩的信息搜索(IR)库。它可以为你的应用程序添加索引搜索能力;

2、特点

    1.1  索引文件格式独立于应用平台。Lucene定义了一套以8位字节为基础的索引文件格式,使得兼容系统或者不同平台的应用能够共享建立的索引文件;

    1.2  在传统全文检索引擎的倒排索引的基础上,实现了分块索引,能够针对新的文件建立小文件索引,提升索引速度。然后通过与原有索引的合并,达到优化的目的;

    1.3  优秀的面向对象系统架构,使得对于Lucene扩展的学习难度降低,方便扩充新功能;

    1.4  设计了独立于语言和文件格式的文本分析接口,索引器通过接受Token流完成索引文件的创立,用户扩展新的语言和文件格式,只需要实现文本分析的接口;

    1.5  已经默认实现了一套强大的查询引擎,用户无需自己编写代码即可使系统可获得强大的查询能力,Lucene的查询实现中默认实现了布尔操作、模糊查询(Fuzzy Search[11])、

        分组  查询等等;

原文地址:https://www.cnblogs.com/anpeiyong/p/10726463.html

时间: 2024-10-02 23:46:22

Lucene初识的相关文章

Lucene初识之Analyzer

刚接触Lucene,虽然跑通了一个demo,但对很多东西还不了解.下面简单记录下对Analyzer的理解,以后再系统整理.后面来自Lucene官方文档,Lucene版本为4.10.0.欢迎感兴趣的同学一起学习交流,求大牛指导,我现在还有很多不明白的地方.  包org.apache.lucene.analysis 将文本转换为可索引和检索的标记标记(token). Lucene,建索引和检索的库,只接受纯文本. 文本解析(Parsing) 基于Lucene的搜索应用可能会支持很多格式的文档,如pd

Lucene 初识

因为业务需要,虽然自己不是专门写搜索的,但是需要自己拼一些搜索条件去调用搜索的接口,而之前看的JVM crash里也涉及到了Lucene,所以大概了解一下. 参考文档: http://www.iteye.com/topic/839504 http://www.cnblogs.com/xing901022/p/3933675.html 一.Lucene简介 Lucene 是一个基于 Java 的全文信息检索工具包,它不是一个完整的搜索应用程序,而是为你的应用程序提供索引和搜索功能.Lucene 目

初识Lucene 4.5.0 全文搜索--(二)

上一篇文章初识Lucene 4.5.0--(一)已经介绍了如何创建索引与检索索引.接下来就是删除与更新啦~ 一.删除索引. 原本3.x版本时 IndexWriter 与 IndexReader 都是有删除方法的,让我们先来看看lucene 3.6 api文档中的IndexReader的描述: 从4.0开始已经被删除了,所以现在只能用IndexWriter中的方法来进行删除.有哪些方法呢?继续看文档(lucene 4.5 api): 除了上面的六个外还有一个方法tryDeleteDocument(

初识Lucene 4.5全文搜索

近期想研究下lucene,但网络上的教程大多都是lucne 3.x版本的讲解.可是lucene版本的更新速度快的惊人,目前已经到了4.8版了,只好去查阅官方文档.虽然英文不大好,但稍微对比了下发现3.x版本至4.x版本的修改非常之大.接下来我就以4.5版来操作,分享下我对luence的初步认识. 先给大家看一张图(来至<Lucene  in  action>): 此图很形象的描述了lucene的基本流程,简而言之就是:1.创建索引:2.检索索引. 太深的道理与原理我目前也还是一知半解,所以就以

初识Lucene

最近准备开发搜索引擎,而在Java的领域开发搜索引擎,基本都要了解Lucene.Lucene是提供高性能的全文检索包,但不提供完整的搜索功能.本文在这里简单介绍Lucene的基本架构与优点.Luence主要的应用方向是嵌入到各种应用中实现针对应用的全文索引/检索功能. Luence的优点 为什么在Java语言中开发搜索引擎基本都会提到Lucene呢?说明它必定有很多优秀的地方,根据网上的资料了解到它有以下的优点: 索引文件格式独立于应用平台.Lucene定义了一套以8位字节为基础的索引文件格式,

实战 Lucene,第 1 部分: 初识 Lucene (zhuan)

http://www.ibm.com/developerworks/cn/Java/j-lo-lucene1/ *************************************************** Lucene 简介 Lucene 是一个基于 Java 的全文信息检索工具包,它不是一个完整的搜索应用程序,而是为你的应用程序提供索引和搜索功能.Lucene 目前是 Apache Jakarta 家族中的一个开源项目.也是目前最为流行的基于 Java 开源全文检索工具包. 目前已经

初识 Lucene .

Lucene是一个基于 Java 的全文信息检索工具包,它不是一个完整的搜索应用程序,而是为你的应用程序提供索引和搜索功能.Lucene 目前是 ApacheJakarta 家族中的一个开源项目.也是目前最为流行的基于 Java 开源全文检索工具包. 目前已经有很多应用程序的搜索功能是基于Lucene 的,比如 Eclipse 的帮助系统的搜索功能.Lucene能够为文本类型的数据建立索引,所以你只要能把你要索引的数据格式转化的文本的,Lucene 就能对你的文档进行索引和搜索.比如你要对一些

实战 Lucene,第 1 部分: 初识 Lucene

???Lucene 简介 Lucene 是一个基于 Java 的全文信息检索工具包,它不是一个完整的搜索应用程序,而是为你的应用程序提供索引和搜索功能.Lucene 目前是 Apache Jakarta 家族中的一个开源项目.也是目前最为流行的基于 Java 开源全文检索工具包. 目前已经有很多应用程序的搜索功能是基于 Lucene 的,比如 Eclipse 的帮助系统的搜索功能.Lucene 能够为文本类型的数据建立索引,所以你只要能把你要索引的数据格式转化的文本的,Lucene 就能对你的文

Lucene in action 第一章 初识Lucene

1.3 搜索程序组件 Lucene提供搜索程序的最核心模块:索引模块和搜索模块的类库. Solr基于Lucene,提供更丰富的UI和API可以直接部署和使用 下图为搜索程序的基本框架.中间黑体部分为Lucene完成的功能,也是搜索引擎的最核心部分. 搜索引擎评价: 满足基本功能:搜索结果正确显示 搜索回复时间 扩展功能:语法纠错,关键词高亮等 1.3.1索引组件 搜索引擎原理: 朴素思想:顺序搜索 问题:速度太慢 解决:对文本内容建立索引,通过索引返回结果 1.获取内容: 网页内容:爬虫工具 文