[转]分布式搜索elasticsearch几个概念解析

Document

在Elasticsearch世界(或者Lucene世界中),Document是主要的实体,文档这个单词有特殊的含义。它指的是在Elasticsearch中被存储到唯一ID下的由最高级或者根对象 (root object )序列化而来的JSON。Elasticsearch的documents最终被存储为Lucene documents。

文档元数据

一个文档不只包含了数据。它还包含了元数据(metadata) —— 关于文档的信息。有三个元数据元素是必须存在的,它们是:


名字


说明


_index


文档存储的地方


_type


文档代表的对象种类


_id


文档的唯一编号

Mapping

ElasticSearch can automatically discover field type by looking at its value, sometimes (in fact usually always) we will want to configure the mappings ourselves to avoid unpleasant surprises.

Type

Each document in ElasticSearch has its type defined. This allows us to store various document types in one index and have different mappings for different document types.

在程序中,我们使用对象代表“物品”,比如一个用户、一篇博文、一条留言或者一个邮件。每一个对象都属于一种类型,类型定义了对象的属性或者与数据的关联。用户类的对象可能就会包含名字、性别、年龄以及邮箱地址等。

在传统的数据库中,我们总是将同类的数据存储在同一个表中,因为它们的数据格式是相同的。同理,在Elasticsearch中,我们使用同样类型的文档来代表同类“事物”,也是因为它们的数据结构是相同的。

每一个类型都拥有自己的映射(mapping)或者结构定义,它们定义了当前类型下的数据结构,类似于数据库表中的列。所有类型下的文档会被存储在同一个索引下,但是映射会告诉Elasticsearch不同的数据应该如何被索引。

cluster
     代表一个集群,集群中有多个节点,其中有一个为主节点,这个主节点是可以通过选举产生的,主从节点是对于集群内部来说的。es的一个概念就是去中心化,字面上理解就是无中心节点,这是对于集群外部来说的,因为从外部来看es集群,在逻辑上是个整体,你与任何一个节点的通信和与整个es集群通信是等价的。

node
    node是elasticsearch的运行实例。为了测试,多个node可以在同一台服务器上启动,但是通常一个服务器只放一个node。系统启动时,node会使用广播(或指定的多播)来发现一个现有的cluster,并且试图加入该cluster。

shard
     代表索引分片,es可以把一个完整的索引分成多个分片,这样的好处是可以把一个大的索引拆分成多个,分布到不同的节点上,构成分布式搜索。分片的数量只能在索引创建前指定,并且索引创建后不能更改。一个shard是一个单独的lucene实例,是被elasticsearch自动管理的底层工作单元。一个索引是包含primary或replia切片的逻辑命名空间。除了需要定义primary shards和replia shards的数量以外,你不需要直接指定使用的shards,你的代码中只关心index就好。Elasticsearch在集群中分布所有的shards,并且在添加删除节点时,自动重新分配。

primary shard
    每个document都存储在一个单独的primary shard中。当为一个document建索引时,首先在primary shard上建立,然后在该primary shard的所有replica shards上面建。
默认的,每个索引有5个primary shards。你可以通过减少或增加primary shards的数量来伸缩你的索引能够接受的文档数量。
当索引创建以后,你不能够改变索引中primary shards的数量。

replicas
     代表索引副本,es可以设置多个索引的副本,副本的作用一是提高系统的容错性,当个某个节点某个分片损坏或丢失时可以从副本中恢复。二是提高es的查询效率,es会自动对搜索请求进行负载均衡。

routing

当为某个document建立索引的时候,索引存储在某个primary
shard上。该shard是通过哈希routing value选出来的。默认的,routing value通过document ID得到,或者当该文档有特定的父文档,从父文档的ID得到(这是为了保证子文档和父文档存储在相同的shard)。该value可以在建索引时指定,或者在mapping中通过routing field给定。

recovery
    
代表数据恢复或叫数据重新分布,es在有节点加入或退出时会根据机器的负载对索引分片进行重新分配,挂掉的节点重新启动时也会进行数据恢复。

river
     代表es的一个数据源,也是其它存储方式(如:数据库)同步数据到es的一个方法。它是以插件方式存在的一个es服务,通过读取river中的数据并把它索引到es中,官方的river有couchDB的,RabbitMQ的,Twitter的,Wikipedia的,river这个功能将会在后面的文件中重点说到。

gateway
     代表es索引的持久化存储方式,es默认是先把索引存放到内存中,当内存满了时再持久化到硬盘。当这个es集群关闭再重新启动时就会从gateway中读取索引数据。es支持多种类型的gateway,有本地文件系统(默认),分布式文件系统,Hadoop的HDFS和amazon的s3云存储服务。

discovery.zen
     代表es的自动发现节点机制,es是一个基于p2p的系统,它先通过广播寻找存在的节点,再通过多播协议来进行节点之间的通信,同时也支持点对点的交互。

Transport
     代表es内部节点或集群与客户端的交互方式,默认内部是使用tcp协议进行交互,同时它支持http协议(json格式)、thrift、servlet、memcached、zeroMQ等的传输协议(通过插件方式集成)。

时间: 2024-10-17 22:36:43

[转]分布式搜索elasticsearch几个概念解析的相关文章

分布式搜索elasticsearch几个概念解析

介绍下es的几个概念: cluster代表一个集群,集群中有多个节点,其中有一个为主节点,这个主节点是可以通过选举产生的,主从节点是对于集群内部来说的.es的一个概念就是去中心化,字面上理解就是无中心节点,这是对于集群外部来说的,因为从外部来看es集群,在逻辑上是个整体,你与任何一个节点的通信和与整个es集群通信是等价的. shards代表索引分片,es可以把一个完整的索引分成多个分片,这样的好处是可以把一个大的索引拆分成多个,分布到不同的节点上.构成分布式搜索.分片的数量只能在索引创建前指定,

分布式搜索elasticsearch 基本概念

ElasticSearch官网:http://www.elasticsearch.org/ 先上一张elasticsearch的整体框架图: ElasticSearch是基于Lucene开发的分布式搜索框架,包括例如以下特性: 分布式索引.搜索 索引自己主动分片.负载均衡 自己主动发现机器.组建集群 支持Restful 风格接口 配置简单等. 下图是ElasticSearch的第三方插件管理工具.通过它能够非常清晰的看到它索引分布的情况:哪块分布在那里,占用空间多少都能够看到.而且能够管理索引.

elasticsearch几个概念解析

介绍下es的几个概念: cluster      代表一个集群,集群中有多个节点,其中有一个为主节点,这个主节点是可以通过选举产生的,主从节点是对于集群内部来说的.es的一个概念就是去中心化,字面上理解就是无中心节点,这是对于集群外部来说的,因为从外部来看es集群,在逻辑上是个整体,你与任何一个节点的通信和与整个es集群通信是等价的. shards      代表索引分片,es可以把一个完整的索引分成多个分片,这样的好处是可以把一个大的索引拆分成多个,分布到不同的节点上.构成分布式搜索.分片的数

分布式搜索elasticsearch配置文件详解

elasticsearch的config文件夹里面有两个配置文件:elasticsearch.yml和logging.yml,第一个是es的基本配置文件,第二个是日志配置文件,es也是使用log4j来记录日志的,所以logging.yml里的设置按普通log4j配置文件来设置就行了.下面主要讲解下elasticsearch.yml这个文件中可配置的东西. cluster.name: elasticsearch 配置es的集群名称,默认是elasticsearch,es会自动发现在同一网段下的es

分布式搜索elasticsearch 文献检索索引 入门

1.首先,例如,下面的数据被提交给ES该指数 {"number":32768,"singer":"杨坤","size":"5109132","song":"今夜二十岁","tag":"中国好声音","timelen":319} {"number":32769,"singer&qu

分布式搜索Elasticsearch集群配置

  配置文件位于%ES_HOME%/config/elasticsearch.yml文件中,用Editplus打开它,你便可以进行配置.   所有的配置都可以使用环境变量,例如:node.rack: ${RACK_ENV_VAR}  表示环境变量中有一个RACK_ENV_VAR变量. 下面列举一下elasticsearch的可配置项: 1. 集群名称,默认为elasticsearch:cluster.name: elasticsearch 2. 节点名称,es启动时会自动创建节点名称,但你也可进

分布式搜索elasticsearch 索引文档的检索 入门

1.首先将如下数据提交到ES中建立索引 {"number":32768,"singer":"杨坤","size":"5109132","song":"今夜二十岁","tag":"中国好声音","timelen":319} {"number":32769,"singer"

分布式搜索elasticsearch 搜索结果排序不一致性问题

想象这一种情况,如果搜索结果中得分出现相同的情况下:由于搜索会在分片的副本之间均衡的轮询请求,可能会出现请求在不同的副本之间返回的循序不同,从而影响排序结果的稳定性. 搜索接口有提供preference参数:curl localhost:9200/_search?preference=xyzabc123. 可以使用的参数: _primary,_primary_first,_local,_only_node:xyz,_prefer_node:xyz以及_shards:2,3这样的值. 参数的意义分

(转)分布式搜索Elasticsearch——配置

配置文件位于%ES_HOME%/config/elasticsearch.yml文件中,用Editplus打开它,你便可以进行配置.         所有的配置都可以使用环境变量,例如: node.rack: ${RACK_ENV_VAR}         表示环境变量中有一个RACK_ENV_VAR变量.         下面列举一下elasticsearch的可配置项:         1. 集群名称,默认为elasticsearch: cluster.name: elasticsearch