1.使用DIH上传结构化数据
许多搜索应用索引结构化数据,如关系型数据库.DIH提供了一个这样的存储并索引结构化数据的机制.除了关系型数据库,solr可以索引来自HTTP的内容,基于数据源如RSS和ATOM feeds,e-mail库和结构化XML(可以使用XPath来生成字段)
更多信息参考 https://wiki.apache.org/solr/DataImportHandler.
1.1 Concepts and Terminology
概念和术语
Data Import Handler的描述使用了几个相似的术语,如Entity和processor.
术语 | 定义 |
Datasource | 对于一个数据库,它时一个DNS,对于一个HTTP数据源,它就是一个基础的URL. |
Entity | 从概念上来讲,一个实体生成一组documents.对于RDBMS数据源来说,一个实体就是一个视图或者一张表. |
Processor | 一个实体处理器用于从数据源中抽取内容,转换处理,添加到索引中.自定义的实体处理器可以继承或者替换它所支持的实体处理器. |
Transformer | 实体获取的每一组字段都可以选择被转换处理.这种转换处理可以是修改字段,创建新的字段,或者是由一行生成多行/文档.DIH中有几个内置的转换器,可以修改日期,过滤HTML标签.也可以使用公共可用的接口自定义转换器. |
1.2 Configuration
1.2.1 Configuring solrconfig.xml
时间: 2024-11-05 06:05:41