Linux系列之solr集群版环境搭建(六)

SolrCloud简介

SolrCloud是solr提供的分布式搜索方案,当需要大规模容错、分布式索引和检索能力时使用。当一个系统的索引数量少时,不需要使用SolrCloud;当索引量很大,搜索请求并发很高时,需要使用SolrCloud。

SolrCloud是基于Solr和Zookeeper的分布式搜索方案,它的主要思想是使用Zookeeper作为集群的配置信息中心。

它有几个特色功能:

1) 集中式的配置信息

2) 自动容错

3) 近实时搜索

4) 查询时自动负载均衡

Zookeeper简介

顾名思义zookeeper就是动物园管理员,他是用来管理hadoop(大象)、Hive(蜜蜂)、pig(小猪)的管理员,Apache Hbase和Apache Solr的分布式集群都用到了zookeeper。Zookeeper是一个分布式的、开源的程序协调服务,是hadoop项目下的一个子项目。

zookeeper:集群管理工具,集群入口。

  1. 集群管理

主从的管理、负载均衡、高可用的管理。集群的入口。Zookeeper必须是集群才能保证高可用。Zookeeper有选举和投票的机制。集群中至少应该有三个节点。

  1. 配置文件的集中管理

搭建solr集群时,需要把Solr的配置文件上传zookeeper,让zookeeper统一管理。每个节点都到zookeeper上取配置文件。

  1. 分布式锁

SolrCloud结构

SolrCloud为了降低单击的处理压力,需要由多态服务器共同来完成索引的搜索任务。实现的思路是将索引数据进行Shard(分片)拆分,每个分片由多态服务器共同完成,当一个索引或搜索请求过来时,会分别从不同的shard的服务器中操作索引。

SolrCloud需要Solr基于Zookeeper部署,Zookeeper是一个集群管理软件,由于SolrCloud需要由多台服务器组成,由zookeeper来进行协调管理。

搭建步骤

Zookeeper集群搭建

第一步:需要把zookeeper-3.4.6.tar.gz的安装包上传到服务器。

第二步:把zookeeper解压:tar –zxvfzookeeper-3.4.6.tar.gz

第三步:把zookeeper向/usr/local/solr-cloud目录下复制三份。

第三步:配置zookeeper。

1.在zookeeper01目录下创建一个data文件夹。

2.在data目录下创建一个myid的文件

3.myid的内容为1(02对应“2”,03对应“3”)

在data文件夹下建立一个myid文件,并在myid文件中,写入内容1

4.zookeeper02、03以此类推。

5.进入conf文件,把zoo_sample.cfg文件改名为zoo.cfg;或者复制zoo_sample.cfg一份,并命名为zoo.cfg

6.修改zoo.cfg,把dataDir=属性指定为刚创建的data文件夹。

(本demo路径:/usr/local/solr-cloud/zookeeper01/data/)

7.修改zoo.cfg,把clientPort指定为不冲突的端口号(01:2181、02:2182、03:2183)

(2181:这个端口是客户端连接端口

8.在zoo.cfg中添加如下内容:

server.1=192.168.33.10:2881:3881

server.2=192.168.33.10:2882:3882

server.3=192.168.33.10:2883:3883

(这个端口是服务器连接端口,不能重复)

第四步:启动zookeeper。

Zookeeper的目录下有一个bin目录。使用zkServer.sh启动zookeeper服务。

启动命令:./zkServer.sh start

另一种启动zookeeper的方式:./zkServer.sh start-foreground    //这种启动方式,能够查看zookeeper的日志

关闭命令:./zkServer.sh stop

查看服务状态:./zkServer.sh status

Solr集群搭建

第一步:安装四个tomcat,修改其端口号不能冲突。8080~8083

端口号分别修改为:8005-8006-8007-8008

8080-8081-8082-8083

8009-8010-8011-8012

第二步:向tomcat下部署solr。把单机版的solr工程复制到tomcat下即可。

(将单机版的solr/tomcat/webapps下的solr复制到solr-cloud/tomcat01/webapps/下面)

第三步:为每个solr实例创建一solrhome。

将单机版的solr/下的solrhome复制到solr-cloud/目录下,分别命名为solrhome01-solrhome04

第四步:为每个solr实例关联对应的solrhome。修改web.xml(为tomcat关联solrhome)

修改solr-cloud/tomcat01/webapps/solr/WEB-INF/web.xml文件

第五步:修改每个solrhome下的solr.xml文件。修改host、hostPort两个属性。分别是对应的ip及端口号。

host:当前实例运行的ip地址

port:当前实例运行的端口号,是当前tomcat的端口号

第六步:把配置文件上传到zookeeper。需要使用

/root/solr-4.10.3/example/scripts/cloud-scripts/zkcli.sh命令上传配置文件。

把/usr/local/solr-cloud/solrhome01/collection1/conf目录上传到zookeeper。

需要zookeeper集群已经启动。

(上传任意一个)


./zkcli.sh -zkhost 192.168.33.10:2181,192.168.33.10:2182,192.168.33.10:2183 -cmd upconfig -confdir /usr/local/solr-cloud/solrhome01/collection1/conf
-confname myconf

第七步:查看是否上传成功。

使用zookeeper的zkcli.sh命令。

zkcli.sh存在位置:/usr/local/solr-cloud/zookeeper01/bin

(注:zookeeper只要连接上任意节点,就行了)

第八步:告诉solr实例zookeeper的位置。需要修改tomcat的catalina.sh添加    (tomcat/bin/catalina.sh)

JAVA_OPTS="-DzkHost=192.168.33.10:2181,192.168.33.10:2182,192.168.33.10:2183"

在使用JAVA_OPTS之前添加这句话:

每个节点都需要添加。

第九步:启动每个solr实例。

使用脚本,启动所有solr实例

vi start-all.sh

查看启动日志 :tail -f tomcat01/logs/catalina.out

查看solrCloud搭建是否成功,使用浏览器查看solr,点击Cloud可以看到solr集群

第十步:集群分片。

将集群分为两片,每片两个副本。(numShards:分成两片;replicationFactor:两个副本)

在浏览器中运行下面的链接:

http://192.168.33.10:8080/solr/admin/collections?action=CREATE&name=collection2&numShards=2&replicationFactor=2

看到success,就说明成功了。

拆分结果:

第十一步:删除不用collection1

在浏览器中打开下面的链接:

http://192.168.33.10:8080/solr/admin/collections?action=DELETE&name=collection1

看到success,就说明成功了。

删除之后的效果:

问题解决

问题一:查看zookeeper服务状态时,报错:Error contacting service. It is probably not running.

启动没有问题,但是查看solr集群状态时,总是报错。solr明明显示已经起来了,但是查看solr状态时,却提示没有启动:

解决办法:可能是真的没有启动,虽然显示成功,但是成功之后,就马上关闭了。可以关闭之后,再重新启动。

在网上搜索到的解决办法:

打开zkServer.sh找到status,即找到下面的这句话:

STAT=‘echo stat | nc localhost$(grep clientPort "$ZOOCFG" | sed -e ‘s/.*=//‘) 2> /dev/null| grep Mode‘

在nc与localhost之间加上 -q 1(是数字1而不是字母l),如果已存在,则去掉。如果没有这句话,则加上。

问题二:用日志方式启动zookeeper时,报错:

Unexpected exception, exiting abnormally

java.net.BindException: Address already in use

原因:端口被占用

解决方法:1、如果使用ps aux|grep 2181,查看不到端口被占用。

2、使用lsof -i:2181命令查看端口占用情况

3、若执行lsof -i:2181命令提示:-bash: lsof: command not found

4、执行yum
install lsof命令

5、再查看端口占用情况,停调被占用的端口,即可。

问题三:启动solr集群后,浏览器打开solr链接,报错:

原因:正如问题一一样,显示zookeeper已经启动成功了,但实际,没有真正启动成功。

解决办法:重新启动

时间: 2025-01-11 16:12:25

Linux系列之solr集群版环境搭建(六)的相关文章

solrcloud(solr集群版)安装与配置

1 Solr集群 1.1 什么是SolrCloud SolrCloud(solr 云)是Solr提供的分布式搜索方案,当你需要大规模,容错,分布式索引和检索能力时使用 SolrCloud.当一个系统的索引数据量少的时候是不需要使用SolrCloud的,当索引量很大,搜索请求并发很高,这时需要使用SolrCloud来满足这些需求. SolrCloud是基于Solr和Zookeeper的分布式搜索方案,它的主要思想是使用Zookeeper作为集群的配置信息中心. 它有几个特色功能: 1)集中式的配置

solrj 操作 solr 集群版

一.添加 @Test public void testAddDocument() throws Exception{ //创建一个集群的连接,应该使用 CloudSolrServer,//zkHost:zookeeper 的地址表 String zkHost = "192.168.25.129:2181,192.168.25.129:2182,192.168.25.129:2183"; CloudSolrServer solrServer = new CloudSolrServer(z

Hadoop入门(五) Hadoop2.7.5集群分布式环境搭建

本文接上文内容继续: server01 192.168.8.118 jdk.www.fengshen157.com/ hadoop NameNode.DFSZKFailoverController(zkfc) server02 192.168.8.119 jdk.www.baohuayule.net  hadoop NameNode.DFSZKFailoverController(zkfc) server03 192.168.8.120 jdk.www.thd178.com hadoop Res

(转)淘淘商城系列——Solr集群搭建

http://blog.csdn.net/yerenyuan_pku/article/details/72957201 我们之前做的搜索使用的是Solr的单机版来实现的,正是由于我们现在商品数据量不多,才几千条而已.如果商品数据量变得非常庞大,比如说淘宝,淘宝上面的商品数量特别多,我们用一个单机版的Solr能实现吗?这里面就可能有问题了,一个是数据量特别庞大,每一个服务器存储容量是有上限的,一旦磁盘存不下了怎么办呢?这是不是有问题啊?还有就是由于淘宝的用户访问量很多,搜索的人也有很多,并发量很高

solr集群的搭建

solrCloud 昨天随手写了个solr单机版的搭建,今天准备写一个solr集群的搭建!1.solr集群只要环境配置正确还是比较简单的环境:CentOS-6.4-i386-bin-DVD1.isojdk-7u72-linux-i586.tar.gzapache-tomcat-7.0.47.tar.gzzookeeper-3.4.6.tar.gzsolr-4.10.3.tgz 2.首先解释下solrcloud是什么? solrcloud是solr提供的分布式搜索方案,当你需要大规模,容错,分布式

linux集群下 solr集群搭建

首先介绍一下系统架构: * 这个图中代表的是三个solr实例,每个实例包括两个core,组成一个solrcloud * 索引集合包括两个 shard(shard1和shard2),shard1和shard2分别由三个core组成,其中一个L eader两个Replication,Leader是由zookeeper选举产生,zookeeper控制每个shard上三个core的索引数据一致,解决高可用和高并发问题. * Collection在solrcloud集群中是一个索引结构,被划分为一个或多个

在Linux上使用Nginx为Solr集群做负载均衡

在Linux上使用Nginx为Solr集群做负载均衡 在Linux上搭建solr集群时需要用到负载均衡,但测试环境下没有F5 Big-IP负载均衡交换机可以用,于是先后试了weblogic的proxyserver,和Apache,效果均很差,两台服务器做了负载均衡之后并发响应速度还没单台不做负载均衡的速度快.最后使用nginx,效果很不错,下面将在Linux上安装步骤记述一下. 1        安装准备 nginx软件版本:nginx 1.2.5 安装包:rhel_nginx-1.2.5-1.

linux集群spark环境配置

第一章 linux集群spark环境配置一 Spark下载地址; http://spark.apache.org/downloads.html 图1 下载spark 图2 选择下载地址 Spark本身用scala写的,运行在JVM之上.JAVA版本:java 6 /higher edition.Jdk已经安装(版本) Hadoop提供存储数据的持久化层版本:hadoop-1.2.1Spark和scala需要安装在master和slave上面,配置步骤相同本次搭建的master为cluster,s

solr集群环境搭建

Solr集群环境搭建 一.     准备 1.     下载: solr-4.4.0.zip   solr安装包 apache-tomcat-7.0.47.tar.gz  tomcat安装包 2.     说明: 其中集群环境采用nginx做分发(也可以使用apache),nginx的安装这里不再介绍.我们共有四台机器,分别如下 10.10.42.164 10.10.42.165 10.10.42.166 10.10.42.167 其中10.10.42.164作为主节点安装nginx,solr