solr从pdf、office文档中建立索引

使用solr从pdf、office文档中建立索引和从数据库中建立相似,只不过这里需要tika来解析这些文档。8.1 配置一个handler

这个handler首先要在solrConfig.xml中配置,如下所示:

 
      

<requestHandler
name="/dataimport"   
class="org.apache.solr.handler.dataimport.DataImportHandler">

<lst   
name="defaults">

<str   
name="config">tika-data-config.xml</str>

</lst>

</requestHandler>

这里和7.1几乎一样,只不过修改了配置文件名(当然也可以不修改)。

8.2 文档配置tika-data-config.xml

<dataConfig>

<dataSource type="BinFileDataSource" />

<document>

<entity    name="files" dataSource="binary"   
rootEntity="false"

processor="FileListEntityProcessor"

baseDir="D:/temp"   
fileName=".*.(doc)|(pdf)|(xls)|(ppt)|(docx)"

recursive="true">

<field    column="fileAbsolutePath" name="id" />

<field    column="fileSize" name="size" />

<field    column="fileLastModified" name="lastModified"
/>

<entity

name="documentImport"

processor="TikaEntityProcessor"

url="${files.fileAbsolutePath}"

format="text">

<field    column="file" name="fileName"/>

<field    column="Author" name="author"
meta="true"/>

<field    column="title" name="title"
meta="true"/>

<field    column="text" name="text"/>

</entity>

</entity>

</document>

</dataConfig>

这里只说上面(7.2)没有说过的属性。

·        fileName :(必选)使用正则表达式匹配文件

·        baseDir : (必选) 文件目录

·        recursive : 是否递归的获取文件,默认false

·    
   rootEntity :在这里必须是false(除非你只想索引文件名)。在默认情况下,document元素下就是根实体了,如果没有根实体的话,直接在实体下面的实体将会被看做跟实体。对于根实体对应的数据库中返回的数据的每一行,solr都将生成一个document

·    
   dataSource :如果你是用solr1.3,那就必须设为“null”,因为它没使用任何dataSourde。不需要在solr1.4中指定它,它只是意味着我们不创建一个dataSource实例。在大多数情况下,只有一个DataSource(JdbcDataSource),当使用FileListEntityProcessor
的时候DataSource不是必须的

·        processor:只有当datasource不是RDBMS时才是必须的

·    
   onError :默认是“abort”,“skip”表示跳过当前文档,“continue”表示对错误视而不见

更多精彩内容请关注:http://bbs.superwu.cn

关注超人学院微信二维码:

关注超人学院java免费学习交流群:

时间: 2025-01-01 12:18:05

solr从pdf、office文档中建立索引的相关文章

VSTO 向office文档中插入内容

原文:VSTO 向office文档中插入内容 Word: Word.Selection sec = ThisAddIn.appWord.Selection;            sec.InsertAfter(value); Excel: Excel.Workbook wbook = Globals.ThisAddIn.Application.ActiveWorkbook;  //当前活动workbook            Excel.Worksheet wsheet = (Excel.W

如何在PDF格式文档中添加文字超链接!

有时候我们在整理PDF格式文件的时候喜欢在PDF文件的内容中给文字添加超链接,但是因为PDF文件比较特殊,所以很多朋友都不知道怎么添加超链接,接下来小编就为大家介绍一下如何在PDF文件中添加文字超链接! 1.百度搜索"迅捷PDF编辑器",下载安装好迅捷PDF软件. 2.运行软件,选择菜单栏的"文件-打开",然后浏览您需要编辑的PDF文档打开. 3.将鼠标移至需要修改的位置之后点击"编辑内容",然会会出现一个蓝色框框,我们就可以在蓝框中开始将原来的

多文档中建立一个对话框类,通过这个方法来在其他类中得到对话框对象指针,访问对话框成员

{ // 添加内容 m_pDrawTool = new CDrawToolDlg; m_pDrawTool->Create(IDD_DRAWTOOLS, this); m_pDrawTool->ShowWindow(SW_SHOW); // 让窗口出现在屏幕右下方 CRect dlgRect; CRect mainRect; m_pDrawTool->GetClientRect(&dlgRect); GetWindowRect(mainRect); // 计算显示的坐标 int

mongodb中在嵌套子文档的文档上面建立索引

在mongodb的test库: > db.data.insert({name:"1616",info:{url:"http://www.1616.net/",city:"beijing"}}); > db.data.insert({name:"hao123",info:{url:"http://www.hao123.com/",city:"beijing"}}); >

Java中几种office文档转pdf的方式

最近公司要做office的文档,搜集了几种office文档转pdf的方式,简单的做下总结 我主要尝试了三种方式:openoffice,aspose,jacob 对他们进行了大文件,小文件,在linux,在windows,转换txt,excel,word,ppt的测试. 一.aspose:这种方式在目前来看应该是最好的,无论是转换的速度还是成功的概率,还支持的文件类型. (1)使用: 这种方式使用很简单,引入jar包就可以直接使用 代码: 源码,jar包在最后提供 package aspose;

Java实现web在线预览office文档与pdf文档实例

https://yq.aliyun.com/ziliao/1768?spm=5176.8246799.blogcont.24.1PxYoX 摘要: 本文讲的是Java实现web在线预览office文档与pdf文档实例, 1.首先我们需要找到可以把office转换成pdf的方法,查找资料发现有openoffice这一软件可以把office转换成pdf,这一软件先下载下来,然后记住自己安装的在那个位置.然后在cmd环境下进入安装目录的program目 云计算 云服务器ECS 大数据 建站 备案 文档

java读取pdf和MS Office文档

有时候PDF中的文字无法复制,这可能是因为PDF文件加密了,不过使用PDFBox开源软件就可以把它读出来. 还有一个用于创建PDF文件的项目----iText. PDFBox下面有两个子项目:FontBox是一个处理PDF字体的java类库:JempBox是一个处理XMP元数据的java类库. 一个简单示例: 要引入pdfbox-app-1.6.0.jar这个包. package pdf; import java.io.File;import java.net.MalformedURLExcep

java将office文档pdf文档转换成swf文件在线预览

java将office文档pdf文档转换成swf文件在线预览 第一步,安装openoffice.org   openoffice.org是一套sun的开源office办公套件,能在widows,linux,solaris等操作系统上执行. 主要模块有writer(文本文档),impress(演示文稿),Calc(电子表格),Draw(绘图),Math(公式),base(数据库) 笔者下载的是openoffice.org 3.3.0.下载完直接安装即可.      但是,我们还需要启动openof

Java实现office文档与pdf文档的在线预览功能

最近项目有个需求要java实现office文档与pdf文档的在线预览功能,刚刚接到的时候就觉得有点难,以自己的水平难以在三四天做完.压力略大.后面查找百度资料.以及在同事与网友的帮助下,四天多把它做完.查找资料发现我们要实现的过程就是把office转换成pdf,当然pdf就不用转换了.然后在pdf转换为swf文件,在浏览器实现预览swf文件.整个过程就是这样,看起来很简单,实际操作起来会出现各种问题.下面我就把自己写的这一小功能记录下来. 1.首先我们需要找到可以把office转换成pdf的方法