[Nutch]使用LUKE查看Solr的索引文件内容

上一篇博文有介绍使用Solr的命令solrindex建立索引并提交到Solr服务器，那么我们怎么样查看solrindex命令产生的索引内容呢？这就要使用本篇博文要分享的工具LUKE，通过LUKE工具，我们可以很清楚的看到通过solrindex命令产生的索引内容。

1. 下载LUKE工具

点击lukeall-4.0.0-ALPHA.jar，进入下载页面进行下载。

2. 启动LUKE

下载之后在windows系统上面使用命令行启动LUKE：

java -jar lukeall-4.0.0-ALPHA.jar

运行过程：

启动界面：

3. 查看Solr索引

3.1 选择Solr索引的位置

通过点击Browse按钮，会弹出文件夹选择框：

选择打开按钮，选择索引路径：

3.2 查看具体内容

选择Solr的所有路径之后，在Path to Index directory对话框中，其他选择都默认，选择OK按钮，即可进入LUKE的主界面，在Overview栏位显示Solr索引的大致内容：

4. 内容详解

4.1 Overview

总共有11个索引字段：

各个字段名称为：

总共有811个网页：

总共有80468个分词item：

4.2 查看每个字段的内容

选择每个字段，然后选择Show top items按钮，即可在右侧看到详细的Items信息，里面包含了默认的分词信息：

各个字段的含义如下：

anchor
boost
不做索引，没有内容：
cache
也不做索引：
content
页面的内容：
digest
也不做索引：
host
从url里面提取的主机信息：
id
也是从url中提取出来的：
segment
指页面存在哪个segment里面：
title
页面的title：
tstamp
不做索引：
url
分词可以进行搜索的：

4.3 Documents

4.4 search

从Overview的title字段里面选择一个分词进行search，选择：图

在Search栏位，输入：“title:图”，然后选择Search按钮，得到结果：

时间： 2024-10-07 22:39:20

[Nutch]使用LUKE查看Solr的索引文件内容的相关文章

od 查看特殊格式的文件内容

用户通常使用od命令查看特殊格式的文件内容.通过指定该命令的不同选项可以以十进制.八进制.十六进制和ASCII码来显示文件. 语法: od ［选项］文件- 命令中各选项的含义: - A 指定地址基数,包括: d 十进制 o 八进制(系统默认值) x 十六进制 n 不打印位移值 - t 指定数据的显示格式,主要的参数有: c ASCII字符或反斜杠序列 d 有符号十进制数 f 浮点数 o 八进制(系统默认值为02) u 无符号十进制数 x 十六进制数除了选项c以外的其他选项后面都可以跟一个十进

linux下用tail命令查看动态变化的文件内容（文件尾部）

背景: 今天在静默安装oracle, 在命令行里面下达了命令 ./runInstaller -silent -responseFile /oracle/database/response/db_install.rsp 结果没有什么安装进度,只是提示可以从/u01/app/oraInventory/logs/installActions.....log里面可以查到结果--->看到这里我就想到了在linux里面是不是有一个命令可以查看一个动态变化的文件?(这个日志文件肯定在变化啊) 没错,有,就是

Luke 5—— 可视化 Lucene 索引查看工具，可以查看ES的索引

Luke 5 发布,可视化 Lucene 索引查看工具 oschina 发布于2015年08月31日这是一个主要版本,该版本支持 Lucene 5.2.0. 它支持 elasticsearch 1.6.0(Lucene的4.10.4) 已解决的问题:#20增加支持重建索引并不会存储领域,不暴露位置的字段值. Pull Requests:#23 Elasticsearch 支持和阴影插件组装#26 添加 .gitignore 文件#27 支持 Lucene 5#28 luke.sh 新增LUK

Solr4.8.0源码分析(9)之Lucene的索引文件(2)

Solr4.8.0源码分析(9)之Lucene的索引文件(2) 一. Segments_N文件一个索引对应一个目录,索引文件都存放在目录里面.Solr的索引文件存放在Solr/Home下的core/data/index目录中,一个core对应一个索引. Segments_N例举了索引所有有效的segments信息以及删除的具体信息,一个索引可以有多个Segments_N,但是有效的往往总是N最大的那个,为什么会出现多个segments_N,主要是由于暂时无法删除它们或者有indexwriter

kafka-Message、日志和索引文件、消费组、rebalance

记录下和kafka相关的Message.日志文件.索引文件.consumer记录消费的offset相关内容,文中很多理解参考文末博文.书籍还有前辈. kafka中的消息 kafka中的消息Message,在V1版本中是如下部分组成,主要关系key和value. (1)key:当需要将消息写入到某个topic下的指定partition分区时,需要给定key的值. (2)value:实际消息内容保存在这里. (3)其他均是消息的元数据,一般不用关心,对用户来说是透明的. 为了保存这些消息数据,kaf

使用Tika、Luke工具解析多种类型(word、pdf、txt 等)索引文件

Tika 是2008年才产生的apache的一个项目,主要用于打开各种不同类型的文档,获取其文本信息.可以解析多种类型(word.pdf.txt .html等)文件! 甚至可以通过解析url,获取其网页信息.最后把其文本信息提起出来.这方面Tika有点像Jsoup..一般情况下,直接对word.pdf等文件直接创建索引是不对的,用luke工具查看之后,出现一大推乱七八糟的term.这个时候就可以用Tika 去在对其创建索引之前,转化处理其文本信息. package hhc; import jav

2.Lucene3.6.2包介绍，第一个Lucene案例介绍，查看索引信息的工具lukeall介绍，Luke查看的索引库内容，索引查找过程

1 Lucen目录介绍 2 lucene-core-3.6.2.jar是lucene开发核心jar包 contrib 目录存放,包含一些扩展jar包 3 案例建立第一个Lucene项目:lucene3_day1 (1)需要先将数据转换成为Document对象,每一个数据信息转换成为Field(String name, String value, Field.Store store, Field.Indexindex) (2)指定索引库位置Directorydirectory =

通过Nutch扩展点开发插件(添加自定义索引字段到solr)

爬虫系统:通过Nutch扩展点开发插件(添加自定义索引字段到solr) 准备工作爬虫环境 -- nutch2.3.1 + solr4.10.3 + hbase0.98 开发环境 -- Eclipse Mars.2 Release(4.5.2) 所需jar包 -- apache-nutch-2.3.jar.hadoop-common-2.6.0.jar.slf4j-api-1.7.9.jar 什么是Nutch扩展点 ??????好的爬虫系统应该同时具备高扩展性(scalability)和高伸缩性

lucene: 索引建立完后无法查看索引文件中的数据

索引建立时 1.对原有索引文件进行建立,是可以访问索引文件中的数据的 2.建立新索引文件,必须等建立完毕后,才可以访问,新建立的文件如果没有建立完是不可以被访问的如果想建立200w的数据的索引又想立即查看的话,先建立1w,建好之后再去建立199w,这样做! 新索引文件建立时: [[email protected] index]$ ls -l dataIndex/main/ 总计 149612 -rw-r--r-- 1 webuser users 79441902 07-26 19:33 _0.