lucene开发序之luke神器

lucene是一款很优秀的全文检索的开源库,目前最新的版本是lucene4.4,关于lucene的历史背景以及发展状况,在这里笔者就不多介绍了,如果你真心想学习lucene,想必在这之前你已经对此作过一些了解。

  有很多人知道lucene或者solr,但是却有很少人知道luke,在这里笔者就对luke做一个简单的介绍,Luke是一个用于Lucene搜索引擎的,方便开发和诊断的第三方工具,它可以访问现有Lucene的索引,并允许您显示和修改和调试。luke是google公司最早提供的,对于lucene的直接索引查看很方便,在这之前,如果你想查看下你生成的lucene的索引的全部内容,你得需要写很多代码进行操作,更有甚,也许你只想简简单单的看下生成索引的总数据量,你也得写一段代码才能统计出来,而luke的出现,就为lucene的查看及调试,提供了一个很好的界面操作工具,对lucene及solr生成的索引,可以非常方便的进行查询及调试,不仅如此luke还提供了良好的插件机制,使用者可以自定义某些功能进行安装使用,非常灵活。

  使用luke工具,不仅可以对索引进行直接查看,还可以对索引进行增加,删除,修改,以及优化,还可以是使用不同的分词器,对特定的字段进行分词测试,等等,这一点非常类似solr的管理页面提供的功能,但是二者的侧重点不在一个地方。

  luke工具的使用也非常简单,下载完luke后直接放在某个盘符下然后可以在cmd窗口找到luke工具所在的盘符根路径下,使用java -jar luke.jar就可以启动了,有的luke工具直接双击运行就可以启动,使用时候两种方式都可以试一下,启动之后,点击Browser按钮,找到你的索引路径点OK,即可显示你索引的内容,不过使用luke得注意版本问题,一般来说luke是向后兼容的,但是如果你是4.x的lucene索引,那么你使用3.x的luke工具查看,这样是不行的,反之确实可以的。

Luke安装及使用

1、首先配置好JAVA环境。

2、下载luke:http://www.getopt.org/luke/luke-0.9.2/lukeall-0.9.2.jar

3、双击lukeall-0.9.2.jar。

4、选择索引文件查看。

另外,Luke的plugin中带了一个Analyzer的测试工具。

在Luke中选择plugins标签,再选择Analyzer Tool,就可以使用这个测试Analyzer的工具了。在下拉列表中选择要测试的Analyzer,然后输入要分析的文本,点Analyze,就可以看到分析出来的token了。这个工具可以测试很多analyzer,除了最基本的WhitespaceAnalyzer、StopAnalyzer、SimpleAnalyzer、StandardAnalyzer之外还可以实验KeywordAnalyzer、SnowballAnalyzer、CJKAnalyzer、ChineseAnalyzer等等,可以说是包罗万象了。

写索引和搜索程序之前,都可以用这个工具来比较一下各种Analyzer的运行结果。另外估计如果把自己写的Analyzer编译后加入Luke的jar包的相应位置中,应该也可以测试自己的Analyzer类了。

下载地址:http://download.csdn.net/detail/irfen/7700397#comment

下载完后直接双击即可

时间: 2024-08-29 05:54:38

lucene开发序之luke神器的相关文章

【iOS开发-13】大神器:如何利用cocoapods使用第三方类库,以针对UISwitch的第三方类库为例

上一篇笔记以及之前部分笔记里面有些属性设置了没效果,比如UISwitch开关控件的开关背景图片:或者直接没有那种我们想要的属性,比如直接用代码设置控件大小. 所以,我们需要用第三方类库,意思大概是我们不用UISwitch类来实例化一个对象了,而是用第三方的类来实例化一个对象,然后这个对象可以进行各种修改随心所欲. 当然,这里的逻辑就是,我们要导入第三方类库,可能需要把它头文件神马的引入进来,然后就可以实例化,但是如何用第三方类库?cocoapods神器. 安装和使用教程如下:点击这里(相当齐全)

lucene索引查看工具luke和文本提取工具Tika

luke可以方便的查看lucene的索引信息,当然也可以查看solr和es中的索引信息(基于lucene实现). 查看索引前,要注意lucene版本的问题,高版本的lucene用低版本的luke工具就可能无法打开. 记得以前用luke还可以实现索引修复的功能,会把有错误的段segment删掉,使用前备份. 关于luke的使用后面补上. Tika是一个文本提取工具,可以从word,pdf,excel等文件中提取内容,为es等提供数据源.图片信息可以只分析标题大小,没必要记录RGB颜色信息. Tik

openresty 前端开发序

还记得第一次尝试前后端分离的时候,是使用nginx + react 构建的spa应用,后端是java,主要处理业务逻辑逻辑部分,返回json数据,在nginx里面配置好html + js纯静态文件,再通过反向代理到java后端,解决跨域问题,然后使用ajax来进行交互,模型很简单,也很有效 主要解决了几个问题 一.独立,由于前后端分离,在开发的时候完全可以互相独立,所谓独立,其实就是说前后端是属于两个项目,保存在各自的git仓库,提交代码既不会冲突,也不需要合并 二.解耦合,后端开发完成之后只需

使用Lucene开发自己的搜索引擎

1.下载Lucene开发包,请到:http://lucene.apache.org/ 2.在myeclipse环境部署该开发包: 3.代码编写: package Lucene; import java.io.File; import java.io.FileFilter; import java.io.FileReader; import java.io.IOException; import org.apache.lucene.analysis.standard.StandardAnalyze

2.Lucene3.6.2包介绍,第一个Lucene案例介绍,查看索引信息的工具lukeall介绍,Luke查看的索引库内容,索引查找过程

 1  Lucen目录介绍 2  lucene-core-3.6.2.jar是lucene开发核心jar包 contrib  目录存放,包含一些扩展jar包 3  案例 建立第一个Lucene项目:lucene3_day1 (1)需要先将数据转换成为Document对象,每一个数据信息转换成为Field(String name, String value, Field.Store store, Field.Indexindex) (2)指定索引库位置Directorydirectory =

Luke 5—— 可视化 Lucene 索引查看工具,可以查看ES的索引

Luke 5 发布,可视化 Lucene 索引查看工具  oschina 发布于2015年08月31日 这是一个主要版本,该版本支持 Lucene 5.2.0. 它支持 elasticsearch 1.6.0(Lucene的4.10.4) 已解决的问题:#20增加支持重建索引并不会存储领域,不暴露位置的字段值. Pull Requests:#23 Elasticsearch 支持和阴影插件组装#26 添加 .gitignore 文件#27 支持 Lucene 5#28 luke.sh 新增LUK

scrapy+Lucene搭建小型搜索引擎

Reference: http://blog.csdn.net/napoay/article/details/51477586 一.选题 工程类搜索型: 定向采集 3-4 个新闻网站, 实现这些网站信息的抽取.索引和检索.网页数 目不少于 10 万条.能按相关度.时间.热度 (需要自己定义) 等属性进行排序, 能实现相似 新闻的自动聚类. 要求: 有相关搜索推荐.snippet 生成.结果预览 (鼠标移到相关结果, 能预览) 功能 二.项目线上访问地址 项目访问地址:http://120.27.

Lucene:基于Java的全文检索引擎简介 (zhuan)

http://www.chedong.com/tech/lucene.html ********************************************** Lucene是一个基于Java的全文索引工具包. 基于Java的全文索引引擎Lucene简介:关于作者和Lucene的历史 全文检索的实现:Luene全文索引和数据库索引的比较 中文切分词机制简介:基于词库和自动切分词算法的比较 具体的安装和使用简介:系统结构介绍和演示 Hacking Lucene:简化的查询分析器,删除的

Lucene:基于Java的全文检索引擎简介

Lucene是一个基于Java的全文索引工具包. 基于Java的全文索引引擎Lucene简介:关于作者和Lucene的历史 全文检索的实现:Luene全文索引和数据库索引的比较 中文切分词机制简介:基于词库和自动切分词算法的比较 具体的安装和使用简介:系统结构介绍和演示 Hacking Lucene:简化的查询分析器,删除的实现,定制的排序,应用接口的扩展 从Lucene我们还可以学到什么 另外,如果是在选择全文引擎,现在也许是试试 Sphinx的时候了:相比Lucene速度更快, 有中文分词的