Solr数据库导入Data Import Handler

Data Import Handler

可以从数据库,网页地址等剑姬文档。

可以全量添加,也支持增量添加(只增加修改的内容)

使用DIH,需要3步重要的配置。

首先,向solrconfig中增加使用的jar包。

<lib dir="../../../contrib/dataimporthandler/lib" regex=".*\.jar" />
<lib dir="../../../dist/" regex="solr-dataimporthandler-.*\.jar" />

其次,再solrconfig中配置dataimport请求处理器

<requestHandler name="/dataimport"
  class="org.apache.solr.handler.dataimport.DataImportHandler">
  <lst name="defaults">
    <str name="config">data-config.xml</str>
  </lst>
</requestHandler>

最后,为DIH提供一个data import的配置文件。上面定义为data-config.xml,目录为conf/的相对目录。

该文件包含所有数据源的引用,以及将数据转换成文档的步骤。支持多种数据源,复杂的转换逻辑(包括支持操作导入数据的脚本语言)

具体内容见Solr wiki

http://wiki.apache.org/solr/DataImportHandler

************************************************************************************************

*启动dih的例子

bin/solr -e dih

相关术语:

Datasource:数据源。例如数据库要提供数据库连接,用户名和密码

Entity:实体用来产生文档,数据库的实体就是表

Processor:实体处理器用于抽取数据,转成文档,加入索引。支持用户自定义Processor。

Transformer:转换器。用于改变字段,创建新字段,从一行生成多个文档等操作,支持自定义。

例子:example-DIH中db的例子。

配置文件是<dataConfig>标签的数据库转换配置,这个文件可以作为DIH处理器的参数。

DIH请求通过HTTP请求发送给solr

全量提交的参数

 Property Writer

DIH配置文件的可选配置,用于定义日期格式和位置信息。详见文档。

*Entity Processors实体处理器,具体参数表见文档

时间: 2025-01-17 09:08:47

Solr数据库导入Data Import Handler的相关文章

1.6.4 Uploading Structured Data Store Data with the Data Import Handler

1.使用DIH上传结构化数据 许多搜索应用索引结构化数据,如关系型数据库.DIH提供了一个这样的存储并索引结构化数据的机制.除了关系型数据库,solr可以索引来自HTTP的内容,基于数据源如RSS和ATOM feeds,e-mail库和结构化XML(可以使用XPath来生成字段) 更多信息参考 https://wiki.apache.org/solr/DataImportHandler. 1.1 Concepts and Terminology 概念和术语 Data Import Handler

Solr数据库导入

Solr数据库导入 1.在MySQL中创建一张表t_solr,并插入测试数据. 2.把E:\Solr\solr-4.10.4\example\example-DIH\solr\db\conf下的admin-extra.html, admin-extra.menu-bottom.html,admin-extra.menu-top.html三个文件也复制到conf中去. 打开E:\Solr\solrHome\mycore\conf路径下的 solrconfig.xml文件,添加如下节点: <requ

[solr] - 数据库导入

这里使用的是mysql测试. 1.先在mysql中建一个表:solr_test 2.插入几条测试数据: 3.用记事本打solrconfig.xml文件,在solrhome文件夹中.E:\solrhome\mycore\conf\solrconfig.xml (solrhome文件夹是什么,参见:http://www.cnblogs.com/HD/p/3977799.html) 加入这个节点: <requestHandler name="/dataimport" class=&qu

Importing/Indexing database (MySQL or SQL Server) in Solr using Data Import Handler--转载

原文地址:https://gist.github.com/maxivak/3e3ee1fca32f3949f052 Install Solr download and install Solr from http://lucene.apache.org/solr/. you can access Solr admin from your browser: http://localhost:8983/solr/ use the port number used in installation. M

mysqldump、into outfile和load data进行数据库导入导出备份差别

遇到了大批量导入导出数据的时候真的比较麻烦,动则几G的数据,操作起来也是比较慢的,而且如果稍有不慎,还要重写处理,最简单的方法也是效率最低的方法就是使用PHP写导入导出数据程序,用Shell来跑PHP,可是大家一直忽略了mysqldump 和mysql的into outfile 与load data ,如果这几个命令使用灵活了,对于数据库导入导出以及备份是很方便的. 使用mysqldump 和 source导入导出备份数据 如果要导出整个数据库或者某一个数据库的一个表,并且保持数据库中表的名字不

solr连接数据库导入数据

本文简单讲诉 solr建立全文索引,从数据库导入数据,生成索引文件,本文建立在已经搭建好solr应用的情况下,如要了解如何部署solr服务可先看上一文:solr 安装 环境:jdk 7,solr4.10.1 ,tomcat 7 附:参考文档地址:http://wiki.apache.org/solr/DataImportHandler 1,首先在solrconfig.xml中引入dataimport 路径 : E:\solr\example\solr\collection1\conf <requ

Solr定时导入功能实现

需要实现Solr定时导入功能的话,我们可以通过使用Solr自身所集成的dataimportscheduler调度器实现 下载对应的jar包,下载地址https://code.google.com/archive/p/solr-dataimport-scheduler/downloads 通过WinRAR打开jar包我们发现里面有一个名叫dataimport.properties的配置文件 ################################################# # #

expdp impdp 数据库导入导出命令详解

一.创建逻辑目录,该命令不会在操作系统创建真正的目录,最好以system等管理员创建. create directory dpdata1 as 'd:\test\dump'; 二.查看管理理员目录(同时查看操作系统是否存在,因为Oracle并不关心该目录是否存在,如果不存在,则出错) select * from dba_directories; 三.给scott用户赋予在指定目录的操作权限,最好以system等管理员赋予. grant read,write on directory dpdata

功能齐全、效率一流的免费开源数据库导入导出工具(c#开发,支持SQL server、SQLite、ACCESS三种数据库),每月借此处理数据5G以上

软件名:DataPie 功能:支持SQL server.SQLite.ACCESS数据库的导入.导出.存储过程调用,支持EXCEL2007.EXCEL2003.ACCESS2007. CSV文件导入数据库,支持EXCEL.CSV.ZIP.ACCESS文件方式导出,支持数据拆分导出及自定义SQL查询与导出. 开发背景:作者从事财务管理工作,主要是出具集团的内部财务报表,随着公司精细化管理的需求,管理报表的数据量急速增长, 依赖EXCEL加工处理数据已经变得极为困难,因此团队全面转向关系数据库进行数