lucene索引查看工具luke和文本提取工具Tika

  luke可以方便的查看lucene的索引信息,当然也可以查看solr和es中的索引信息(基于lucene实现)。

查看索引前,要注意lucene版本的问题,高版本的lucene用低版本的luke工具就可能无法打开。

记得以前用luke还可以实现索引修复的功能,会把有错误的段segment删掉,使用前备份。

关于luke的使用后面补上。

Tika是一个文本提取工具,可以从word,pdf,excel等文件中提取内容,为es等提供数据源。图片信息可以只分析标题大小,没必要记录RGB颜色信息。

Tika基于文件的“魔数”来识别文档类型和编码类型,类似于java的class文件都是以CF BB开头的。标准的文档,基于前面的字节就可以识别出来。

Tika在识别中文时,可能会出现乱码的情况,记得文档中提到,可能是GB2312字符集的识别有概率出错的问题。有机会具体再看下。

原文地址:https://www.cnblogs.com/lnlvinso/p/8836096.html

时间: 2024-10-07 11:56:07

lucene索引查看工具luke和文本提取工具Tika的相关文章

Luke 5—— 可视化 Lucene 索引查看工具,可以查看ES的索引

Luke 5 发布,可视化 Lucene 索引查看工具  oschina 发布于2015年08月31日 这是一个主要版本,该版本支持 Lucene 5.2.0. 它支持 elasticsearch 1.6.0(Lucene的4.10.4) 已解决的问题:#20增加支持重建索引并不会存储领域,不暴露位置的字段值. Pull Requests:#23 Elasticsearch 支持和阴影插件组装#26 添加 .gitignore 文件#27 支持 Lucene 5#28 luke.sh 新增LUK

文本处理工具及grep

常见的文本处理工具 在日常的linux运维工作当中,我们经常要在一些文本当中抽取过滤出我们所需要的信息,从而达到我们的需求,需要特定的文本处理工具来帮我们完成此类操作 本章节主要讲解的内容有: 文件查看:cat 分页查看文本:less.more 抽取文件特定行数:head.tail 抽取文本特定列:cut 合并文本:paste 文本统计:wc 文本排序并统计:sort.uniq 比较文件:diff.patch cat:连结查看文本和输出至标准输出 -n:为每行添加行号 -A:显示所有控制符 -E

linux中常用的文本处理工具

在linux文件系统中经常会使用到文本处理工具,这里简单介绍几种文本处理工具: 抽取文本的工具 文件内容:less和cat 文件截取:head和tail 按列抽取:cut 按关键字抽取:grep , egrep 文件查看命令:cat, tac,rev,more,less cat命令是用户经常使用的用来查看文本文件的命令,cat命令是需要接收到标准输入然后再标准输出设备上.并且和cat命令相对应的还有tac,tev两个命令. 语法:cat [OPTION]... [FILE]... 常用选项: -

基本文本处理工具

文本处理工具 用于处理文本的工具有很多,今天我们就来一个个说一说 文本查看工具 cat tac rev 命令:cat 格式:cat [OPTION]... [FILE]... 选项:   -v 显示非打印字符 -E 显示每一行末尾$符 -T 显示TAB(以^I形式显示) -n 显示行号 -s 将连续的空行压缩成一行 -A 相当于-vET -b 显示所有的非空行编号 cat是将文本按正常的格式显示出来,我们还有另外两个文本查看语句,是tac和rev,tac是将文本从最后一行开始,显示至第一行:而r

Linux篇 | 文本处理工具和正则表达式 (一)

文本处理工具和正则表达式 如果用一句话形容Linux系统,我想就是"一切皆文件"在适合不过了.系统的服务.软件.日志.命令的输出结果都是基于文本的,所以我们很有必要知道Linux的常用的文本处理工具有哪些?而且,我们用的这些处理文本工具都离不开一个技术:"正则表达式",它不止适用于Linux,对于一些语言,如Java.Python都能用,甚至Windows系统里也能用正则表达式.那么,如何灵活的运用正则表达式就是这篇博客的意义. 一.文本处理工具 1.抽取文本的工具

Lucene学习:Lucene测试工具Luke

1. 测试工具Luke Luke是一个用于Lucene/Solr/Elasticsearch 搜索引擎的,方便开发和诊断的 GUI(可视化)工具. github地址:https://github.com/DmitryKey/luke 下载地址:https://github.com/DmitryKey/luke/releases 1.1. Luke下载安装 下载完成后,解压:双击luke.bat Luke使用介绍 选择有索引的目录打开: 接下来便可以查看索引库的信息: 1.2. 版本问题 使用lu

使用 Linux 文本工具简化数据的提取

Linux 操作系统中有很多文件:配置文件.文本文件.文档文件.日志文件.用户文件,这个清单还在不断增长.通常,这些文件都包含了要查找重要数据所需要访问的一些信息.尽管我们可以简单地使用诸如 cat.more 之类的标准工具将大部分文件的内容输出到屏幕上,但是系统中有更加合适的工具可以对文本进行过滤和处理,这样就可以只关心我们想要的内容. 在阅读本文的过程中,您可以打开 shell 并体验一下每个工具的例子. 正则表达式 在开始之前,我们需要首先理解什么是正则表达式,以及如何使用正则表达式. 在

lucene开发序之luke神器

lucene是一款很优秀的全文检索的开源库,目前最新的版本是lucene4.4,关于lucene的历史背景以及发展状况,在这里笔者就不多介绍了,如果你真心想学习lucene,想必在这之前你已经对此作过一些了解. 有很多人知道lucene或者solr,但是却有很少人知道luke,在这里笔者就对luke做一个简单的介绍,Luke是一个用于Lucene搜索引擎的,方便开发和诊断的第三方工具,它可以访问现有Lucene的索引,并允许您显示和修改和调试.luke是google公司最早提供的,对于lucen

Apache Tika-内容解析提取工具集合(a content analysis toolkit)

简介 Apache Tika toolkit可以自动检测各种文档(如word,ppt,xml,csv,ppt等)的类型并抽取文档的元数据和文本内容.Tika集成了现有的文档解析库,并提供统一的接口,使针对不同类型的文档进行解析变得更简单.Tika针对搜索引擎索引.内容分析.转化等非常有用. 支持的文档格式 详见参见http://tika.apache.org/1.5/formats.html HyperText Markup Language XML and derived formats Mi