Solr术语介绍:SolrCloud,单机Solr,Collection,Shard,Replica,Core之间的关系

Solr有一堆让人发晕的术语如:collections,shards,replicas,cores,config sets.

在了解这些术语之前需要先做做如下功课：

Solr术语介绍：

Collections:SolrCloud集群中的一个完整的逻辑上的倒排索引(什么是倒排索引?)，和一个独立的config set相关联，由一个或者多个shard组成，shard可以在不同的服务器上，shard对搜索接口的调用者来说是隐形的，搜索者不用考虑在搜索时如何指定shard，只需要传入Collection名即可。

Config Set:包含两个最根本的配置文件:solrconfig.xml和schema.xml，视这两个文件的内容而定是否需要包含其他文件。SolrCloud的config set目录会上传到zookeeper中，而传统单机Solr的config set是保存在本地文件夹中。

Core:一个Solr Core是一个包含索引和配置文件的运行实例，以前Solr Core是单例模式的，后来重构成了多实例的，(什么是SolrCores?)。一个Replica对应一个Core实例，同一个Shard对应的Replica的Core的配置和索引数据是一样的，但是是不同实例。

Replica:Shard的一个副本。一个Shard会在不同的服务器上保留Repicas(副本)，通过选举机制(和zookeeper的leader选举机制类似)在Replicas(副本)中选出一个leader来对外提供服务。leader连不上了就重新选其他副本作为leader，这样能保证至多(副本数-1)台服务器挂掉后仍然能正常工作。

Shard:Collection的一个逻辑分片。每个Shard对应一个Core，并且包含一个索引(Collection)的文档(Documents)的不相交子集，一个Shard由至少一个Replica组成，当有多个Replicas时，选举机制选出作为leader的Replica。单机Solr中，Shard指的是Solr cores.

Zookeeper:分布式集群的基本组件，MapReduce、HDFS、Hive等分布式系统都基于它，Leader选举也要靠它。Solr有自己的内嵌Zookeeper，但是一般不会用内嵌的。部署Zookeeper至少需要3台主机(出于节约成本，可以和Solr实例部署在相同的服务器上，目前很多Solr users都是这么用的)。

附

各个术语之间对应关系图

时间： 2025-01-19 21:13:07

Solr术语介绍:SolrCloud,单机Solr,Collection,Shard,Replica,Core之间的关系

Solr术语介绍:SolrCloud,单机Solr,Collection,Shard,Replica,Core之间的关系的相关文章

solr的collection,shard,replica,core概念

solr集群SolrCloud（solr+zookeeper）windows搭建

PHP中空字符串介绍0、null、empty和false之间的关系

SolrCloud:根据Solr Wiki的译文

solr安装-tomcat+solrCloud构建稳健solr集群

【Solr技巧】SolrCloud 选举时间缩短的方法

Linux安装单机solr

solrCloud 单机多节点部署（zookeeper3.4.6+solr4.10.4+tomcat7.0.61）

Solr初始化源码分析-Solr初始化与启动