[Nutch]使用LUKE查看Solr的索引文件内容

上一篇博文有介绍使用Solr的命令solrindex建立索引并提交到Solr服务器,那么我们怎么样查看solrindex命令产生的索引内容呢?这就要使用本篇博文要分享的工具LUKE,通过LUKE工具,我们可以很清楚的看到通过solrindex命令产生的索引内容。

1. 下载LUKE工具

点击lukeall-4.0.0-ALPHA.jar,进入下载页面进行下载。

2. 启动LUKE

下载之后在windows系统上面使用命令行启动LUKE:

java -jar lukeall-4.0.0-ALPHA.jar

运行过程:

启动界面:

3. 查看Solr索引

3.1 选择Solr索引的位置

通过点击Browse按钮,会弹出文件夹选择框:

选择打开按钮,选择索引路径:

3.2 查看具体内容

选择Solr的所有路径之后,在Path to Index directory对话框中,其他选择都默认,选择OK按钮,即可进入LUKE的主界面,在Overview栏位显示Solr索引的大致内容:

4. 内容详解

4.1 Overview

总共有11个索引字段:

各个字段名称为:

总共有811个网页:

总共有80468个分词item:

4.2 查看每个字段的内容

选择每个字段,然后选择Show top items按钮,即可在右侧看到详细的Items信息,里面包含了默认的分词信息:

各个字段的含义如下:

  • anchor

  • boost

    不做索引,没有内容:

  • cache

    也不做索引:

  • content

    页面的内容:

  • digest

    也不做索引:

  • host

    从url里面提取的主机信息:

  • id

    也是从url中提取出来的:

  • segment

    指页面存在哪个segment里面:

  • title

    页面的title:

  • tstamp

    不做索引:

  • url

    分词可以进行搜索的:

4.3 Documents

4.4 search

从Overview的title字段里面选择一个分词进行search,选择:图

在Search栏位,输入:“title:图”,然后选择Search按钮,得到结果:

时间: 2024-10-07 22:39:20

[Nutch]使用LUKE查看Solr的索引文件内容的相关文章

od 查看特殊格式的文件内容

用户通常使用od命令查看特殊格式的文件内容.通过指定该命令的不同选项可以以十进制.八进制.十六进制和ASCII码来显示文件. 语法: od [选项] 文件- 命令中各选项的含义: - A 指定地址基数,包括: d 十进制 o 八进制(系统默认值) x 十六进制 n 不打印位移值 - t 指定数据的显示格式,主要的参数有: c ASCII字符或反斜杠序列 d 有符号十进制数 f 浮点数 o 八进制(系统默认值为02) u 无符号十进制数 x 十六进制数 除了选项c以外的其他选项后面都可以跟一个十进

linux下用tail命令查看动态变化的文件内容(文件尾部)

背景: 今天在静默安装oracle, 在命令行里面下达了命令 ./runInstaller -silent -responseFile /oracle/database/response/db_install.rsp 结果没有什么安装进度,只是提示可以从/u01/app/oraInventory/logs/installActions.....log里面可以查到结果--->看到这里我就想到了在linux里面是不是有一个命令可以查看一个动态变化的文件?(这个日志文件肯定在变化啊) 没错,有,就是

Luke 5—— 可视化 Lucene 索引查看工具,可以查看ES的索引

Luke 5 发布,可视化 Lucene 索引查看工具  oschina 发布于2015年08月31日 这是一个主要版本,该版本支持 Lucene 5.2.0. 它支持 elasticsearch 1.6.0(Lucene的4.10.4) 已解决的问题:#20增加支持重建索引并不会存储领域,不暴露位置的字段值. Pull Requests:#23 Elasticsearch 支持和阴影插件组装#26 添加 .gitignore 文件#27 支持 Lucene 5#28 luke.sh 新增LUK

Solr4.8.0源码分析(9)之Lucene的索引文件(2)

Solr4.8.0源码分析(9)之Lucene的索引文件(2) 一. Segments_N文件 一个索引对应一个目录,索引文件都存放在目录里面.Solr的索引文件存放在Solr/Home下的core/data/index目录中,一个core对应一个索引. Segments_N例举了索引所有有效的segments信息以及删除的具体信息,一个索引可以有多个Segments_N,但是有效的往往总是N最大的那个,为什么会出现多个segments_N,主要是由于暂时无法删除它们或者有indexwriter

kafka-Message、日志和索引文件、消费组、rebalance

记录下和kafka相关的Message.日志文件.索引文件.consumer记录消费的offset相关内容,文中很多理解参考文末博文.书籍还有前辈. kafka中的消息 kafka中的消息Message,在V1版本中是如下部分组成,主要关系key和value. (1)key:当需要将消息写入到某个topic下的指定partition分区时,需要给定key的值. (2)value:实际消息内容保存在这里. (3)其他均是消息的元数据,一般不用关心,对用户来说是透明的. 为了保存这些消息数据,kaf

使用Tika、Luke工具解析多种类型(word、pdf、txt 等)索引文件

Tika 是2008年才产生的apache的一个项目,主要用于打开各种不同类型的文档,获取其文本信息.可以解析多种类型(word.pdf.txt .html等)文件! 甚至可以通过解析url,获取其网页信息.最后把其文本信息提起出来.这方面Tika有点像Jsoup..一般情况下,直接对word.pdf等文件直接创建索引是不对的,用luke工具查看之后,出现一大推乱七八糟的term.这个时候就可以用Tika 去在对其创建索引之前,转化处理其文本信息. package hhc; import jav

2.Lucene3.6.2包介绍,第一个Lucene案例介绍,查看索引信息的工具lukeall介绍,Luke查看的索引库内容,索引查找过程

 1  Lucen目录介绍 2  lucene-core-3.6.2.jar是lucene开发核心jar包 contrib  目录存放,包含一些扩展jar包 3  案例 建立第一个Lucene项目:lucene3_day1 (1)需要先将数据转换成为Document对象,每一个数据信息转换成为Field(String name, String value, Field.Store store, Field.Indexindex) (2)指定索引库位置Directorydirectory =

通过Nutch扩展点开发插件(添加自定义索引字段到solr)

爬虫系统:通过Nutch扩展点开发插件(添加自定义索引字段到solr) 准备工作 爬虫环境 -- nutch2.3.1 + solr4.10.3 + hbase0.98 开发环境 -- Eclipse Mars.2 Release(4.5.2) 所需jar包 -- apache-nutch-2.3.jar.hadoop-common-2.6.0.jar.slf4j-api-1.7.9.jar 什么是Nutch扩展点 ??????好的爬虫系统应该同时具备高扩展性(scalability)和高伸缩性

lucene: 索引建立完后无法查看索引文件中的数据

索引建立时 1.对原有索引文件进行建立,是可以访问索引文件中的数据的 2.建立新索引文件,必须等建立完毕后,才可以访问,新建立的文件如果没有建立完是不可以被访问的 如果想建立200w的数据的索引又想立即查看的话,先建立1w,建好之后再去建立199w,这样做! 新索引文件建立时: [[email protected] index]$ ls -l dataIndex/main/ 总计 149612 -rw-r--r-- 1 webuser users 79441902 07-26 19:33 _0.