lucene索引查看工具luke和文本提取工具Tika

　　luke可以方便的查看lucene的索引信息，当然也可以查看solr和es中的索引信息(基于lucene实现)。

查看索引前，要注意lucene版本的问题，高版本的lucene用低版本的luke工具就可能无法打开。

记得以前用luke还可以实现索引修复的功能，会把有错误的段segment删掉，使用前备份。

关于luke的使用后面补上。

Tika是一个文本提取工具，可以从word，pdf，excel等文件中提取内容，为es等提供数据源。图片信息可以只分析标题大小，没必要记录RGB颜色信息。

Tika基于文件的“魔数”来识别文档类型和编码类型，类似于java的class文件都是以CF BB开头的。标准的文档，基于前面的字节就可以识别出来。

Tika在识别中文时，可能会出现乱码的情况，记得文档中提到，可能是GB2312字符集的识别有概率出错的问题。有机会具体再看下。

原文地址：https://www.cnblogs.com/lnlvinso/p/8836096.html

时间： 2024-10-07 11:56:07

lucene索引查看工具luke和文本提取工具Tika的相关文章

Luke 5—— 可视化 Lucene 索引查看工具，可以查看ES的索引

Luke 5 发布,可视化 Lucene 索引查看工具 oschina 发布于2015年08月31日这是一个主要版本,该版本支持 Lucene 5.2.0. 它支持 elasticsearch 1.6.0(Lucene的4.10.4) 已解决的问题:#20增加支持重建索引并不会存储领域,不暴露位置的字段值. Pull Requests:#23 Elasticsearch 支持和阴影插件组装#26 添加 .gitignore 文件#27 支持 Lucene 5#28 luke.sh 新增LUK

文本处理工具及grep

常见的文本处理工具在日常的linux运维工作当中,我们经常要在一些文本当中抽取过滤出我们所需要的信息,从而达到我们的需求,需要特定的文本处理工具来帮我们完成此类操作本章节主要讲解的内容有: 文件查看:cat 分页查看文本:less.more 抽取文件特定行数:head.tail 抽取文本特定列:cut 合并文本:paste 文本统计:wc 文本排序并统计:sort.uniq 比较文件:diff.patch cat:连结查看文本和输出至标准输出 -n:为每行添加行号 -A:显示所有控制符 -E

linux中常用的文本处理工具

在linux文件系统中经常会使用到文本处理工具,这里简单介绍几种文本处理工具: 抽取文本的工具文件内容:less和cat 文件截取:head和tail 按列抽取:cut 按关键字抽取:grep , egrep 文件查看命令:cat, tac,rev,more,less cat命令是用户经常使用的用来查看文本文件的命令,cat命令是需要接收到标准输入然后再标准输出设备上.并且和cat命令相对应的还有tac,tev两个命令. 语法:cat [OPTION]... [FILE]... 常用选项: -

基本文本处理工具

文本处理工具用于处理文本的工具有很多,今天我们就来一个个说一说文本查看工具 cat tac rev 命令:cat 格式:cat [OPTION]... [FILE]... 选项: -v 显示非打印字符 -E 显示每一行末尾$符 -T 显示TAB(以^I形式显示) -n 显示行号 -s 将连续的空行压缩成一行 -A 相当于-vET -b 显示所有的非空行编号 cat是将文本按正常的格式显示出来,我们还有另外两个文本查看语句,是tac和rev,tac是将文本从最后一行开始,显示至第一行:而r

Linux篇 | 文本处理工具和正则表达式（一）

文本处理工具和正则表达式如果用一句话形容Linux系统,我想就是"一切皆文件"在适合不过了.系统的服务.软件.日志.命令的输出结果都是基于文本的,所以我们很有必要知道Linux的常用的文本处理工具有哪些?而且,我们用的这些处理文本工具都离不开一个技术:"正则表达式",它不止适用于Linux,对于一些语言,如Java.Python都能用,甚至Windows系统里也能用正则表达式.那么,如何灵活的运用正则表达式就是这篇博客的意义. 一.文本处理工具 1.抽取文本的工具

Lucene学习：Lucene测试工具Luke

1. 测试工具Luke Luke是一个用于Lucene/Solr/Elasticsearch 搜索引擎的,方便开发和诊断的 GUI(可视化)工具. github地址:https://github.com/DmitryKey/luke 下载地址:https://github.com/DmitryKey/luke/releases 1.1. Luke下载安装下载完成后,解压:双击luke.bat Luke使用介绍选择有索引的目录打开: 接下来便可以查看索引库的信息: 1.2. 版本问题使用lu

使用 Linux 文本工具简化数据的提取

Linux 操作系统中有很多文件:配置文件.文本文件.文档文件.日志文件.用户文件,这个清单还在不断增长.通常,这些文件都包含了要查找重要数据所需要访问的一些信息.尽管我们可以简单地使用诸如 cat.more 之类的标准工具将大部分文件的内容输出到屏幕上,但是系统中有更加合适的工具可以对文本进行过滤和处理,这样就可以只关心我们想要的内容. 在阅读本文的过程中,您可以打开 shell 并体验一下每个工具的例子. 正则表达式在开始之前,我们需要首先理解什么是正则表达式,以及如何使用正则表达式. 在

lucene开发序之luke神器

lucene是一款很优秀的全文检索的开源库,目前最新的版本是lucene4.4,关于lucene的历史背景以及发展状况,在这里笔者就不多介绍了,如果你真心想学习lucene,想必在这之前你已经对此作过一些了解. 有很多人知道lucene或者solr,但是却有很少人知道luke,在这里笔者就对luke做一个简单的介绍,Luke是一个用于Lucene搜索引擎的,方便开发和诊断的第三方工具,它可以访问现有Lucene的索引,并允许您显示和修改和调试.luke是google公司最早提供的,对于lucen

Apache Tika-内容解析提取工具集合(a content analysis toolkit)

简介 Apache Tika toolkit可以自动检测各种文档(如word,ppt,xml,csv,ppt等)的类型并抽取文档的元数据和文本内容.Tika集成了现有的文档解析库,并提供统一的接口,使针对不同类型的文档进行解析变得更简单.Tika针对搜索引擎索引.内容分析.转化等非常有用. 支持的文档格式详见参见http://tika.apache.org/1.5/formats.html HyperText Markup Language XML and derived formats Mi