solr4.8的安装,配置,使用,搜索,推荐及看法

solr4.9发布了,用一个网友的意思,现在solr绝壁是Firefox之外最大的版本帝。公司的solr版本是4.0,这几天决定给升级到4.8(4.9在maven上资源还不够),抽时间在整理下分布式solr.
      今天先把solr4.8安装过程写下来,其实和4.0区别不大。

1,环境必须是tomcat7.0以上,jdk7.0以上,jre7.0以上,且配置好环境变量;

2,example\webapps 下的solr.war;

3,solr home,并配置web.xml;

4,拷贝example\lib\ext下的所有jar 到tomcat_home\webapps\solr\WEB-INF\lib下;

5,tomcat_home\webapps\solr\WEB-INF下新建一个classes文件夹,将example\resources下的log4j.properties拷贝过去;

6,启动,bingo!

------------------------程序员的分割线-------------------------

上面的过程,可以实现solr单核,简单的索引,当然这个肯定不是我们想要的。我们想要的远远比这个要多。首先是Multicore,从
example\multicore拷贝所有文件到solr_home下,根据solr.xml来配置,实现多核。密切注意schema.xml和
solrconfig.xml的配置,建议把schema.xml精简,然后solrconfig对照,避免出现不存在的字段。

多核实现后,是数据库关联,方便对数据库进行导入,目前4.8版本是有bug的,dataimport后页面会一直indexing,实际上已经
完成,看不到索引数据库的过程,但是不影响功能。实现数据库导入,需要将contrib和dist放入solr_home下,删掉dist下的war和文
件夹,修改solrconfig.xml以及新建指定的dataimport.xml文件,这些与之前版本没有区别。不要忘了导入数据库驱动到solr下
的WEB-INFO/lib里。

4.8之后solr又发布新的分词接口,之前solr4.0的接口不能使用,需要中文分词只好重新实现solr的接口,所以小伙伴们选择一个稳定
的solr版本,短时间内就不要随意变动了,工作量不小。不过solr4.8还是很值得升级的。目测solr5.0也很快要发布了,观望一个季度吧。有关
中文分词,我采用的是ansj分词器,开源,持续更新。方法我会另开篇章来描述。

2014年7月9日更新

加入ansj中文分词器。

我的ansj是最新版的,个人是比较喜欢这个分词器的,github地址在https://github.com/ansjsun
/ansj_seg/,有兴趣的朋友可以关注下。我是用最新版的,2.0以上的版本。作者提供了良好的多种方案分词方法以及庞大的算法工具库,看着让人眼
花缭乱。如果想和solr结合,需要自己重写solr或者lucene开放的分词接口,我是重写了Analyzer和Tokenizer接口,用类似IK
最新版的方法实现中文分词搜索和索引。网上有很多方案,实现方法和我不尽相同,不过solr更新迭代太快,所以还是自己读得懂分词器源码,自己改写来得实
在。ansj的三种中文分词,如果索引数据量不大并且用户量不大,建议用NlpAnalysis,具备发现新词等功能;否则保守起见,还是用
ToAnalysis比较靠谱(速度很快,亲测超过IK)。

多聊几句有关分词的话吧。之前公司用的是IK,我一直使用,也做过升级。IK算是小巧精悍并且性能良好的分词器了,不过最近两年没有更新,据我观
察是国内使用量最高的分词器,资料很多,所以没有太高要求的建议还是用IK,遇到问题都可以解决,减少开发量。因为开源(源码挂在google上,很蛋
疼)而且代码很容易读懂,所以二次开发也较为容易,我之前做敏感词过滤曾经改写过,效果良好。目前暂时还是ansj+IK。ansj我是较为推荐的,就目
前来看,分词速度以及功能扩展性很强悍,缺点是作者自己不写lucene和solr的接口实现(当然人家是做自然语言不是做搜索的,没必要),其他大神来
写的接口很少持续更新,需要自己修改。ansj功能太多,只做搜索的话,会觉得内容很冗余。不过既然是程序员,就不要把自己想象成码农,而是努力往极客的
方向靠一靠。一旦理清楚ansj,绝壁会有种豁然开朗的感觉。

2014年7月10日更新

升级到solr4.8.1,修复10个bug。

FastVectorHighlighter 快速高效的高亮,占有IO会更多

solrconfig.xml配置:

<bool name="f.title.hl.useFastVectorHighlighter">true</bool>

schema.xml配置:

<field name="title" type="text_ansj" indexed="true" stored="true"
multiValued="true" termVectors="true" termPositions="true" 
termOffsets="true" />

修bug时间到!

warn no appenders could be found for logger ,步奏5检查是否有问题,我之前是把classes写成classses,折腾很久!

<schema name="example core zero" version="1.1">要写成<schema
name="example core zero"
version="1.1">不然中文搜索效果极差,solr提供的example绝壁是坑货!发现自己搜索效果不理想的请仔细检查
schema.xml

提示区!

用中文分词,schema.xml配置很关键,除了从网上粘贴,自己最好还是要看得懂配置文件的真正含义!

solrconfig.xml和schema.xml两个配置文件,建议逐行读懂,读懂的意思就是要理解。

这块我会持续更新。有做搜索兴趣的朋友可以互相关注。本人在ITeye上的地址是http://lies-joker.iteye.com/

solr4.8的安装,配置,使用,搜索,推荐及看法,布布扣,bubuko.com

时间: 2024-10-13 20:49:42

solr4.8的安装,配置,使用,搜索,推荐及看法的相关文章

【转载】Solr4+IKAnalyzer的安装配置

转载:http://www.cnblogs.com/madyina/p/4131751.html 一.下载Solr4.10.2 我们以Windows版本为例,solr-4.10.2.zip是目前最新版本,下载地址: http://www.apache.org/dyn/closer.cgi/lucene/solr/4.10.2 二.   Solr安装: 1.解压solr-4.10.2.zip 2.将 solr-4.10.2/example/webapps/solr.war 拷贝到Tomcat的we

Solr4+IKAnalyzer的安装配置

solr本身对中文分词的处理不是太好,所以中文应用很多时候都需要额外加一个中文分词器对中文进行分词处理,ik-analyzer就是其中一个不错的中文分词器. 1.版本信息 solr版本:4.7.0 需要ik-analyzer版本:IK Analyzer 2012FF_hf1 2.配置步骤 下载压缩解压后得到如下目录结构的文件夹: 我们把IKAnalyzer2012FF_u1.jar拷贝到solr服务的solr\WEB-INF\lib下面. 我们把IKAnalyzer.cfg.xml.stopwo

Python学习(一)安装、环境配置以及IDE推荐

Python的安装.环境配置以及IDE推荐 官网:https://www.python.org/ 版本:2.x 和 3.x 差别较大:python3是不向下兼容,建议未学过2.x版本的就直接学习3.x版本:版本区别可参考网官网介绍 WINDOWS下安装 Python 可在多系统下安装运行,先介绍 WINDOWS 下 Python 的安装及环境配置,(图示参考:百度经验 )安装步骤如下: 官网下载安装程序:https://www.python.org/downloads/ 下载好后双击打开,选择使

Ubuntu 14.04 安装配置备忘录

完全在 Linux 下工作,大概有3年时间了. 之前都是用 Windows, 而把 Linux 装在虚拟机里,现在反过来,把 Windows 装在了虚拟机里,只是因为偶尔还要用网银的缘故. 以我这几年的使用经验, 一句话: Linux 用过之后就回不去了. 以下记录我的 Ubuntu 14.04 Linux 安装配置, 算是备忘录. 需要说明的一点是: 我从来不觉得使用 Debian, CentOS, 或者 Arch, Gentoo 的人很牛, 只能说明你们不珍惜时间,就爱瞎折腾, 当然如果你是

xampp安装配置详细步骤

一个优秀的士兵要有自己称心的武器,一个合格的前端开发要有自己开发编写代码的电脑环境.接下来为大家推荐一款强大的集成软件,不用再分步安装配置数据库服务器等.xampp软件集成了Apache服务器和Mysql数据库等,一键安装,稍加配置就能给你一个称心如意的开发环境. 第一步:下载xampp软件 可以去百度搜索xampp,可以找到很多安装包 我比较喜欢这个版本的xampp v3.1.0,现在提供给大家 链接:http://pan.baidu.com/s/1i41ud8p 密码:y8jc 接下来就是普

第【一】部分Netzob项目工具的安装配置by tsy

声明: 1)本报告由博客园bitpeach撰写,版权所有,免费转载,请注明出处,并请勿作商业用途. 2)若本文档内有侵权文字或图片等内容,请联系作者bitpeach删除相应部分. 3)本文档内容涉及Netzob工具的安装配置,请勿认为本文是讲述使用,Netzob的使用是不在本文讲述的,下一篇博文应该会写Netzob的使用手册. 4)仅仅作为参考用途,抛砖引玉,不作为证据证明用途,请自行取舍,核实引用.文中图片大多为本人原创,如有引用他人图片会注明的. 0目录 目录 0目录    1 [1]引言 

Windows下Apache,MySql,PHP安装配置

0.操作系统 Windows8.1 x64 1. 安装Apache 打开http://httpd.apache.org 左侧Download!点From a Mirror,看到当前最新稳定版本未2.4.12, 看到现在Windows的版本已经不像以前一样提供.msi和.zip等下载包了.而是提示: Apache httpd for Microsoft Windows is available from a number of third party vendors. 看来需要从第三方获取.点这个

转载maven安装,配置,入门

转载:http://www.cnblogs.com/dcba1112/archive/2011/05/01/2033805.html 本书代码下载 大家可以从我的网站下载本书的代码:http://www.juvenxu.com/mvn-in-action/,也可以通过我的网站与我取得联系,欢迎大家与我交流任何关于本书的问题和关于Maven的问题. 咖啡与工具 本书相当一部分的内容是在苏州十全街边的Solo咖啡馆完成的,老板Yin亲手烘焙咖啡豆.并能做出据说是苏州最好的咖啡,这小桥流水畔的温馨小

安装配置apache-solr(使用apache-tomcat容器)

1.安装配置tomcat: 略 2.访问一下,看tomcat有没安装配置成功如果成功的话开始配置solr服务器(企业应用搜索服务器): tar fvxz solr-4.8.1.tgz 拷贝solr.war到tomcat目录: cp -fr  solr-4.8.1/example/webapps/solr.war /app01/tomcat-8.0.8/webapps/ 创建solr主目录并拷贝文件 mkdir /app01/tomcat-8.0.8/solrhome cp -a solr-4.8