solr 文档二

SOLR 5.5.5文档

参考博文:

http://blog.csdn.net/matthewei6/article/details/50620600

作者:毛平

时间:2018年1月15日 17:36:22

环境搭建

solr版本5.5.5,可以独立部署,使用默认的Jetty启动。

1. 准备条件

环境:JDK需要1.7以上,最好是1.8

下载软件包:

使用清华大学的镜像包:

https://mirrors.tuna.tsinghua.edu.cn/apache/lucene/solr/5.5.5/solr-5.5.5.tgz

命令:curl https://mirrors.tuna.tsinghua.edu.cn/apache/lucene/solr/5.5.5/solr-5.5.5.tgz

或者wget https://mirrors.tuna.tsinghua.edu.cn/apache/lucene/solr/5.5.5/solr-5.5.5.tgz

2. 解压

tar -zxvf solr-5.5.5.tgz

3. 启动服务器

bin/solr start

SOLR初级

1. 创建core

说明:本文是基于容器jetty,创建core相当于创建容器中的新项目。一个独立的搜索引擎项目。

bin/solr create -c maopcore

bin/solr delete -c maopcore -------删除已创建的core

2. 添加中文分次器

说明:基于刚才新建的core,添加ik分词器。使core具备中文分词的功能。

1. 修改配置文件

managed-schema(相对路径为:${PATH}\server\solr\mycore\conf\managed-schema) 添加下面的内容:

<!-- 中文分词 -->

<fieldType name="text_ik" class="solr.TextField">

<analyzer type="index" useSmart="false" class="org.wltea.analyzer.lucene.IKAnalyzer"/>

<analyzer type="query" useSmart="true" class="org.wltea.analyzer.lucene.IKAnalyzer"/>

</fieldType>

2. 添加ik分词器的jar

需要确保jar和solr的版本一致

安装路径为${PATH}\server\solr-webapp\webapp\WEB-INF\lib。

3. 验证ik安装正确

4. 查看分词效果

(可以看到,新建的core已经具备分词功能)。

3. 添加数据库连接

说明:参考http://blog.csdn.net/u011518678/article/details/51871925

1. 创建连接配置data-config

配置当前core的数据连接的配置文件。在路径{当前core}/conf 下创建data-config.xml文件。内容为

<dataConfig>

<dataSource name="testSource1" driver="oracle.jdbc.driver.OracleDriver"

url="jdbc:oracle:thin:@192.168.4.229:1521:orcl" password="hermes" user="hermes_rc" />

<document>

<entity name="goods1" pk="BID" transformer="DateFormatTransformer" dataSource="testSource1"

query="select id,name,url,price,to_date(to_char(addtime,‘yyyy-MM-dd HH24:mi:ss‘),‘yyyy-MM-dd HH24:mi:ss‘) addtime from lksolrtest"

deltaQuery="select id BID from lksolrtest where to_char(addtime,‘yyyy-MM-dd HH24:mi:ss‘)>‘${dataimporter.last_index_time}‘"

deltaImportQuery="select id,name,url,price,to_date(to_char(addtime,‘yyyy-MM-dd HH24:mi:ss‘),‘yyyy-MM-dd HH24:mi:ss‘) addtime from lksolrtest where id = ‘${dataimporter.delta.BID}‘">

<field column="BID" name="id"/>

<field column="price" name="price" />

<field column="name" name="name" />

<field column="url" name="url" />

<field column="addtime" name="addtime" dateTimeFormat="yyyy-MM-dd HH24:mi:ss" />

</entity>

</document>

</dataConfig>

文本如下图:

2. 添加数据库连接jar

本例子使用的oracle数据库,路径{solr绝对路径}\server\solr-webapp\webapp\WEB-INF\lib

3. 关联data-config

在{solr绝对路径}\server\solr\{#core}\conf\solrconfig.xml对应位置添加

<lib dir="./lib" regex=".*\.jar" />

<requestHandler name="/dataimport" class="solr.DataImportHandler">

<lst name="defaults">

<str name="config">data-config.xml</str>

</lst>

</requestHandler>

接着注释掉下面的内容,防止id默认为String类型

<!--

<searchComponent name="elevator" class="solr.QueryElevationComponent" >

<str name="queryFieldType">string</str>

<str name="config-file">elevate.xml</str>

</searchComponent>

-->

4. 域和数据库字段对应关系

配置文件的路径{core绝对路径}\conf\managed-schema

<field name="id" type="int" indexed="true" stored="true" required="true" multiValued="false" />

<field name="name" type = "text_ik" indexed="true" stored="true" />

<field name="price" type = "float" indexed="true" stored="true" />

<field name="url" type = "text_ik" indexed="true" stored="true" />

<field name="addtime" type = "date" indexed="true" stored="true" />

<uniqueKey>id</uniqueKey>

5. 索引数据导入jar

添加依赖jar(solr-dataimporthandler-5.5.5.jar、solr-dataimporthandler-extras-5.5.5.jar、mydataimportscheduler.jar,其中前两个jar在solr的\dist,my….jar在需要单独找) {相对路径}\solr-5.5.5\server\solr-webapp\webapp\WEB-INF\lib下

6. 手动验证导入索引

1. 如下选中core(项目),dataImport(索引导入),索引更新方式(此处为全量更新),选择实体,点击执行。

2. 界面查询

选择core,query菜单,点击查询,得到刚才导入的索引数据

7. 配置entry详解
4. 动态索引导入

说明:solr是一个web项目,在webapp下的web.xml文件中添加监控器,启动定时周期任务。调用增量的索引生成函数。索引动态的添加入库。

1. 调整时区为北京

说明:Solr默认时区为世界时区UTC,需要修改为GMT+08:00(北京时区)

在{solr}/bin/solr.in.cmd文件中,找到SOLR_TIMEZONE的设置行,修改为

set SOLR_TIMEZONE=GMT+08:00

2. 添加监控器配置

说明:添加监听器,ApplicationListener为mydataimportscheduler.jar中的类。他会自动调用配置文件{solr}\server\solr\ conf\ dataimport.properties。会启动两个定时任务。Timer-0和timer-1.其中timer-0负责增量定时任务的调用。Timer-1负责定时全量数据的调用。

在{solr绝对路径}\server\solr-webapp\webapp\WEB-INF\web.xml文件中添加监听器

<listener>

<listener-class>

org.apache.solr.handler.dataimport.scheduler.ApplicationListener

</listener-class>

</listener>

3. 创建定时任务配置文件

说明:文件中有定时的全量更新配置,也有定时增量配置。真正使用选取其中一种即可。监控器调用当前配置文件。

在\server\solr\下创建文件夹conf,并创建dataimport.properties,内容如下:

#################################################

# #

# dataimport scheduler properties #

# #

#################################################

# to sync or not to sync

# 1 - active; anything else - inactive

syncEnabled=1

# which cores to schedule

# in a multi-core environment you can decide which cores you want syncronized

# leave empty or comment it out if using single-core deployment

#syncCores=liukuncore,liukuncore1

syncCores=maopcore001

# solr server name or IP address

# [defaults to localhost if empty]

server=localhost

# solr server port

# [defaults to 80 if empty]

port=8983

# application name/context

# [defaults to current ServletContextListener‘s context (app) name]

webapp=solr

# URL params [mandatory]

# remainder of URL

#params=/deltaimport?command=delta-import&clean=false&commit=true

params=/dataimport?command=delta-import&clean=false&commit=true

# schedule interval

# number of minutes between two runs

# [defaults to 30 if empty]

interval=1

# 重做索引的时间间隔,单位分钟,默认1440,即1天;

# 为空,为0,或者注释掉:表示永不重做索引

reBuildIndexInterval=1440

# 重做索引的参数

#reBuildIndexParams=/deltaimport?command=full-import&clean=true&commit=true

reBuildIndexParams=/dataimport?command=full-import&clean=true&commit=true

# 重做索引时间间隔的计时开始时间,第一次真正执行的时间#=reBuildIndexBeginTime+reBuildIndexInterval*60*1000;

# 两种格式:2012-04-11 03:10:00 或者 03:10:00,后一种会自动补全日期部分为服务启动时的日期

reBuildIndexBeginTime=2018-01-14 15:14:00

4. 配置文件参数详解

syncCores:调用的currentCore,如果是多个core,使用逗号隔开

server: 服务ip或者名称,例如:localhost

port: 服务端口

增量配置参数:

Params: 增量url

Interval: 增量时间间隔(单位:分钟)

全量配置参数:

reBuildIndexParams: 全量url

reBuildIndexInterval:全量时间间隔(单位:分钟)

reBuildIndexBeginTime:全量第一次执行开始时间

5. 数据节点详解

说明:数据索引导入需要配置数据节点。

比如:

配置节点包含dataSource和document节点。

dataSource是数据库的配置。关注的主要有url,user,password。

1. query是获取全部数据的SQL(全量更新的sql)

2. deltaImportQuery是获取增量数据时使用的SQL

3. deltaQuery是获取增量pk的SQL

4. parentDeltaQuery是获取父Entity的pk的SQL

SOLR 中级

多表关联

Full Import工作原理
执行本Entity的Query,获取所有数据;
针对每个行数据Row,获取pk,组装子Entity的Query;
执行子Entity的Query,获取子Entity的数据。
Delta Import工作原理
查找子Entity,直到没有为止;
执行Entity的deltaQuery,获取变化数据的pk;
合并子Entity parentDeltaQuery得到的pk;
针对每一个pk Row,组装父Entity的parentDeltaQuery;
执行parentDeltaQuery,获取父Entity的pk;
执行deltaImportQuery,获取自身的数据;
如果没有deltaImportQuery,就组装Query
限制
子Entity的query必须引用父Entity的pk
子Entity的parentDeltaQuery必须引用自己的pk
子Entity的parentDeltaQuery必须返回父Entity的pk
deltaImportQuery引用的必须是自己的pk

文件索引

原文地址:https://www.cnblogs.com/maopneo/p/8478130.html

时间: 2024-08-01 11:14:48

solr 文档二的相关文章

centos7的基础文档二

centos7基础文档二 一.centos7的服务控制 1. 服务脚本文件 systemctl对于Linux来说,就是一个init程序,可以作为sysVinit和Upstat的替代. centos7的服务脚本存放在:/usr/lib/systemd/,有系统(system)命令和用户(users)命令之分,像需要开机不登录的就能运行的服务存在系统的服务里,即:/usr/lib/systemd/system目录下,每一个服务以.server结尾.一般会分为三个部分:[unit][service][

Nginx 安装文档 (二)PHP

下载.编译安装 wget http://cn2.php.net/distributions/php-5.4.7.tar.gz tar zvxf php-5.4.7.tar.gz cd php-5.4.7 ./configure --prefix=/usr/local/php  --enable-fpm --with-mcrypt --enable-mbstring --disable-pdo --with-curl --disable-debug  --disable-rpath --enabl

web开发规范文档二

头部        header\hd 内容块      content\con\bd text txt title 尾部        footer 导航        nav\menu sub-nav\sub-menu 侧栏        side-con 栏目        item 外容器      wrapper\sprite 左右中      left\right\center 上下        top\bot 登录        login-bar 标志        logo

脚本化文档(二)

获取和设置非标准HTML属性:Element类型还定义了getAttribute()个setAttribute()方法来查询和设置非标准的HTML属性.也可以用来查询和设置XML文档中元素上的属性.这些方法和前面的基于API之间的区别有:1)属性都被看做是字符串.getAttribute()不返回数值.布尔值或对象:2)方法使用标准属性名,甚至当这些名称为JavaScript保留字时也不例外.对HTML元素来说,属性名不区分大小写. hasAttribute()和removeAttribute(

Docx 生成word文档二

1 /// <summary> 2 /// 生产word 文档 3 /// </summary> 4 public class GenerateWord 5 { 6 /// <summary> 7 ///模板地址 8 /// </summary> 9 public string TempPath { get; set; } 10 11 /// <summary> 12 /// 保存地址 13 /// </summary> 14 pub

c#中操作word文档-二、比较全的一份示例

最近两天研究了一下如何使用VS2008(C#语言)输出Word文档.以下是几点总结: 1.非常简单. 2.开发及运行环境要求.操作系统为:WindowsXP(安装.net framework2.0)/Vista/Win7:在操作系统必须安装Word2003完全安装版.这里必须要强调是Word2003完全安装版,因为软件开发及运行都需要一个com组件:Microsoft word 11.0 Object Library.如果不是Word2003完全安装版,可以下载这个com组件,并手动的安装这个c

翻译qmake文档(二) Getting Started

上一篇文章:  翻译qmake文档(一) qmqke指南和概述 原英文文档: http://qt-project.org/doc/qt-5/qmake-tutorial.html 本教程教讲授qmake基础知识.这个手册里的其它专题包含更详细的使用qmke信息. 从简单开始 假设你已经完成了应用程序的基本实现,并且你创建了下边的文件: hello.cpp hello.h main.cpp qt分布的目录 examples/qmake/tutorial 中,你可以找到这些文件.你只需要知道的另一件

【swupdate文档 二】许可证

许可证 SWUpdate是免费软件.它的版权属于Stefano Babic和其他许多贡献代码的人(详情请参阅实际源代码和git提交信息). 您可以根据自由软件基金会发布的GNU通用公共许可证第2版的条款重新分发SWUpdate和/或修改它. 它的大部分还可以根据您的选择,在GNU通用公共许可证的任何后续版本下发布--有关例外情况,请参阅个别文件. 为了更容易地表示许可证,源文件中的许可证头将被替换为对由Linux基金会的SPDX项目[1]定义的唯一许可证标识符的一行引用. 例如,在源文件中,完整

KVM总结文档二(CentOS-6.5)

五:kvm虚拟机磁盘扩展 两种方式: 1.添加一块新的虚拟磁盘 2.扩充原有磁盘的容量大小 注意: 只有磁盘格式为qcow2的磁盘才支持磁盘快照和磁盘动态扩展. 测试的虚拟机磁盘大小和格式. 方法一:添加新磁盘 1.查看已存在盘的大小 [[email protected] vm]# qemu-img   info  api1-qcow2.img  image: api1-qcow2.img file format: qcow2 virtual size: 8.0G (8589934592 byt