1.6.3 Uploading Data with Solr Cell using Apache Tika

1. Uploading Data with Solr Cell using Apache Tika

　　solr使用Apache Tika工程的代码提供了一个框架,用于合并所有不同格式的文件解析器为solr自己的解析器,如Apache PDFBox,Apache POI.通过这个框架,solr使用ExtractingRequestHandler来上传二进制文件.

　　如果想要solr使用你自己的ContentHandler,你需要继承ExtractingRequestHandler,重写createFactory()方法.这个方法主要用于构建SolrContentHandler和Tika互动.并允许字面值来覆盖Tika解析的值.设置参数literalsOverride,默认为true.为false的话,在Tika解析值的后面添加字面值.

　　关于Solr 抽取请求的更多信息,参考 https://wiki.apache.org/solr/ExtractingRequestHandler

1.1 key的概念

　　在使用Solr Cell时,了解一下信息对你是很有帮助的:

solr将会自动尝试确定文档类型(word,pdf,html),抽取恰当的内容.如果你想,你可以使用steam.type为tika指定一个明确的MIME类型.
Tika工作生成一个XHTML流提供给SAX ContentHandler.SAX是一个许多不同XML解析器实现的通用接口.更多信息参考 . http://www.saxproject.org/quickstart.html
solr然后响应Tika的SAX事件,创建字段到索引中.
solr生成元数据如title,subject,Author.参考 http://tika.apache.org/1.4/formats.html的文件类型支持部分.
solr抽取所有的文本到content字段.这个字段在schema.xml中定义为stored.
可以映射solr的元数据到solr的字段中,也可以对这些字段加权.
你可以为字段值传入字面量值.字面量值将会覆盖Tika解析的值,包含Tika元数据对象中的字段,Tika的内容字段,任何可以获取的Tika 内容字段.
可以使用XPath表达式到Tika的XHTML中,限制产生的内容.

　　提示:尽管Apache Tika是很强大的,但是PDF文件是特别有问题的，这主要是由于在PDF格式本身.在处理任何文件时如果发生失败,ExtractingRequestHandler不具有二手准备机制来抽取文件的文本,它将会抛出一个异常.

1.2 Trying out Tika with the Solr Example Directory

cd example -jar start.jar

　　在新的命令行窗口,打开docs/目录,通过 HTTP POST发送文件到solr中.

curl ‘http://localhost:8983/solr/update/extract?literal.id=doc1&commit=true‘ -F
"[email protected]"

　　上面的URL调用了Extraction Request Handler,上传了tutorial.html文件,定义了唯一主键id为doc1,-F标记说明使用Content-Type:multipart/form-data,并支持上传二进制文件[email protected]符号说明了上传的文件附件. [email protected]指定了一个有效的路径.可以是绝对的也可以时相对的.(如[email protected]/../site/tutorial.html,如果仍旧在exampledocs目录下的话.)

　　也许已经注意到,在检索的时候,虽然可以检索文本的内容,但是看不到text的内容,这是因为Tika产生的 "content"字段映射到solr的"text"字段,solr的这个字段没有存储.这个操作可以通过 /update/extract 句柄的默认映射规则来改变.例如,存储,并看到所有元数据和内容:

curl
‘http://localhost:8983/solr/update/extract?literal.id=doc1&uprefix=attr_&fmap.content=
attr_content&commit=true‘ -F "[email protected]"

　　这个参数 uprefix=attr_使solr的schema.xml中所有没有定义的字段前面都加上attr_字样.attr_在schema.xml中作为一个动态存储字段.fmap.content=attr_content参数覆盖了默认的fmap.content=text.使content添加到了attr_content字段.

1.3 Input Parameters

　　 Extraction Request Handler能够接受的参数:

参数	描述
boost.<fieldname>	为指定字段加权
capture	捕获指定的XHTML元素,支持添加到solr文档中.这个参数在复制XHTML中的某一块儿内容到指定字段时,非常有用.例如,它可以搜索<p>,索引它们到一个特别的字段.注意:content仍旧被抓取到整个"content"字段.
captureAttr	索引Tika XHTML的属性到单独的字段.如果设置为true,例如,从HTML中抽取内容时,Tika可以返回<a>标签元素中的href属性作为"a"字段.参考下面例子.
commitWithin	在指定毫秒时间内提交索引到磁盘
date.formats	定义文档识别的日期格式
defaultField	如果uprefix参数没有指定,字段不能被识别的时候,使用这个默认字段.
extractOnly	默认时false,如果为true,返回这个Tika抽取的内容,不索引这个文档.这在响应中逐字的包含抽取的XHTML字符串.在手动查看时,相对于xml来说它可能是更有用.以避免查看更多的嵌入的XHTML标签.参考http://wiki.apache.org/solr/TikaExtractOnlyExampleOutput.
extractFormat	默认时"xml".另外一个格式是"text".-x 表示xml -t 表示text格式.只有在extractOnly为true的时候,这个参数才会有效.
fmap.<source_field>	source_field必须是输入文档的字段,它的值是需要映射到的solr的字段.例如 fmap.content=text使Tika生成的content字段内容移动到solr的text字段
literal.<fieldname>	使用指定的值占据solr的字段.这个数据可以是多值的如果这个字段是多值类型的话.

时间： 2024-10-13 06:49:36

1.6.3 Uploading Data with Solr Cell using Apache Tika

1. Uploading Data with Solr Cell using Apache Tika

1.1 key的概念

1.2 Trying out Tika with the Solr Example Directory

1.3 Input Parameters

1.6.3 Uploading Data with Solr Cell using Apache Tika的相关文章

1.6.2 Uploading Data with Index Handlers

1.6 Indexing and Basic Data Operations--目录

Hadoop集群选择合适的硬件配置

Importing/Indexing database (MySQL or SQL Server) in Solr using Data Import Handler--转载

弄清楚Solr Nodes, Cores, Clusters and Leaders , Shards and Indexing Data

Solr官方文档翻译-About & Getting Started

zookeeper和solr搭建集群分片查询

Solr多核的配置

solr总结