Elasticsearch核心技术(2)--- 基本概念(Index、Type、Document、集群、节点、分片及副本、倒排索引)

Elasticsearch核心技术(2)--- 基本概念

这篇博客讲到基本概念包括: Index、Type、Document。集群，节点，分片及副本，倒排索引。

一、Index、Type、Document

1、Index

index：索引是文档(Document)的容器，是一类文档的集合。

索引这个词在 ElasticSearch 会有三种意思:

1)、索引(名词)

类比传统的关系型数据库领域来说，索引相当于SQL中的一个数据库(Database)。索引由其名称(必须为全小写字符)进行标识。

2)、索引(动词)

保存一个文档到索引(名词)的过程。这非常类似于SQL语句中的 INSERT关键词。如果该文档已存在时那就相当于数据库的UPDATE。

3)、倒排索引

关系型数据库通过增加一个B+树索引到指定的列上，以便提升数据检索速度。索引ElasticSearch 使用了一个叫做 倒排索引 的结构来达到相同的目的。

2、Type

Type 可以理解成关系数据库中Table。

之前的版本中，索引和文档中间还有个类型的概念，每个索引下可以建立多个类型，文档存储时需要指定index和type。从6.0.0开始单个索引中只能有一个类型，

7.0.0以后将将不建议使用，8.0.0 以后完全不支持。

弃用该概念的原因：

我们虽然可以通俗的去理解Index比作 SQL 的 Database，Type比作SQL的Table。但这并不准确，因为如果在SQL中,Table 之前相互独立，同名的字段在两个表中毫无关系。

但是在ES中，同一个Index 下不同的 Type 如果有同名的字段，他们会被 Luecence 当作同一个字段，并且他们的定义必须相同。所以我觉得Index现在更像一个表，

而Type字段并没有多少意义。目前Type已经被Deprecated，在7.0开始，一个索引只能建一个Type为_doc

3、Document

Document Index 里面单条的记录称为Document（文档）。等同于关系型数据库表中的行。

我们来看下一个文档的源数据

_index 文档所属索引名称。

_type 文档所属类型名。

_id Doc的主键。在写入的时候，可以指定该Doc的ID值，如果不指定，则系统自动生成一个唯一的UUID值。

_version 文档的版本信息。Elasticsearch通过使用version来保证对文档的变更能以正确的顺序执行，避免乱序造成的数据丢失。

_seq_no 严格递增的顺序号，每个文档一个，Shard级别严格递增，保证后写入的Doc的_seq_no大于先写入的Doc的_seq_no。

primary_term primary_term也和_seq_no一样是一个整数，每当Primary Shard发生重新分配时，比如重启，Primary选举等，_primary_term会递增1

found 查询的ID正确那么ture, 如果 Id 不正确，就查不到数据，found字段就是false。

_source 文档的原始JSON数据。

二、集群，节点，分片及副本

1、集群

ElasticSearch集群实际上是一个分布式系统，它需要具备两个特性：

　　1）高可用性

　　　　a）服务可用性：允许有节点停止服务；

　　　　b）数据可用性：部分节点丢失，不会丢失数据；

　　2）可扩展性

　　　　随着请求量的不断提升，数据量的不断增长，系统可以将数据分布到其他节点，实现水平扩展；

一个集群中可以有一个或者多个节点；

集群健康值

green：所有主要分片和复制分片都可用
yellow：所有主要分片可用，但不是所有复制分片都可用
red：不是所有的主要分片都可用

当集群状态为 red，它仍然正常提供服务，它会在现有存活分片中执行请求，我们需要尽快修复故障分片，防止查询数据的丢失；

2、节点(Node)

　1）节点是什么？

　　　　a）节点是一个ElasticSearch的实例，其本质就是一个Java进程；

　　　　b）一台机器上可以运行多个ElasticSearch实例，但是建议在生产环境中一台机器上只运行一个ElasticSearch实例；

Node 是组成集群的一个单独的服务器，用于存储数据并提供集群的搜索和索引功能。与集群一样，节点也有一个唯一名字，默认在节点启动时会生成一个uuid作为节点名，

该名字也可以手动指定。单个集群可以由任意数量的节点组成。如果只启动了一个节点，则会形成一个单节点的集群。

3、分片

Primary Shard(主分片）

ES中的shard用来解决节点的容量上限问题,，通过主分片，可以将数据分布到集群内的所有节点之上。

它们之间关系

一个节点对应一个ES实例；
一个节点可以有多个index（索引）;
一个index可以有多个shard（分片）；
　一个分片是一个lucene index（此处的index是lucene自己的概念，与ES的index不是一回事）；

主分片数是在索引创建时指定，后续不允许修改，除非Reindex

一个索引中的数据保存在多个分片中(默认为一个)，相当于水平分表。一个分片便是一个Lucene 的实例，它本身就是一个完整的搜索引擎。我们的文档被存储和索引到分片内，

但是应用程序是直接与索引而不是与分片进行交互。

Replica Shard（副本）

副本有两个重要作用：

1、服务高可用：由于数据只有一份,如果一个node挂了,那存在上面的数据就都丢了,有了replicas,只要不是存储这条数据的node全挂了,数据就不会丢。因此分片副本不会与

主分片分配到同一个节点；

2、扩展性能：通过在所有replicas上并行搜索提高搜索性能.由于replicas上的数据是近实时的(near realtime),因此所有replicas都能提供搜索功能,通过设置合理的replicas

数量可以极高的提高搜索吞吐量

分片的设定

　　对于生产环境中分片的设定，需要提前做好容量规划，因为主分片数是在索引创建时预先设定的，后续无法修改。

分片数设置过小

　　　　　　导致后续无法增加节点进行水平扩展。

　　　　　　导致分片的数据量太大，数据在重新分配时耗时；

分片数设置过大

　　　　　　影响搜索结果的相关性打分，影响统计结果的准确性；

　　　　　　单个节点上过多的分片，会导致资源浪费，同时也会影响性能；

三、倒排索引

ES的搜索功能是基于lucene,而lucene搜索的基本原理就是倒叙索引,倒序排序的结果跟分词的类型有关。

举例

1、假设文档集合包含五个文档，毎个文档内容如图所示，在图中最左端一栏是每个文档对应的文挡编号。

如图(盗图）

2、首先要用分词系统将文挡自动切分成单词序列，记录下哪些文挡包含这个单词，在如此处理结束后，我们可以得到最简单的倒排索引。

3、索引系统还可以记录除此之外的更多信息，下图还记载了单词频率信息。文档中的句子被划分为一个个term(term 用来表示一个单词或词语,取决于使用的分词方式),

倒叙索引中存储着term,term的出现频率(tf,term frequency)和出现位置(倒叙索引中的单词是按顺序排列的,这张图没有体现出来),请注意这里的文档内容是document

中的一个字段,也就是说每个被索引了的字段都有自己的倒叙索引

一次简单的搜索流程

假设我们搜索谷歌地图之父,搜索流程会是这样

分词,分词插件将句子分为3个term 谷歌,地图,之父
将这3个term拿到倒叙索引中去查找(会很高效,比如二分查找),如果匹配到了就拿对应的文档id,获得文档内容

但是,如何确定结果顺序?

这里要引入_score的概念,对于term的匹配,lucene会对其打分,得分越高,排名越靠前.这里要介绍几个相关的概念

- TF(term frequency),词频,term在当前document中出现的频率,一个term在当前document中出现5次要比出现1次更相关,打分也会更高
- IDF(inverse doucment frequency),逆向文档频率,term在所有document中出现的频率,这个频率越高,该term对应的分值越低
- 字段长度归一值,简单来说就是字段越短,字段的权重越高, 比如 term `我`在匹配 `我123`和`我123456`时,`我123`的得分会更高.

参考

1、Elasticsearch核心技术与实战---阮一鸣(eBay Pronto平台技术负责人

2、ElasticSearch 基本概念

3、Elasticsearch之基础概念

4、ElasticSearch第5节倒排索引、分词器

 我相信，无论今后的道路多么坎坷，只要抓住今天，迟早会在奋斗中尝到人生的甘甜。抓住人生中的一分一秒，胜过虚度中的一月一年！(8）

原文地址：https://www.cnblogs.com/qdhxhz/p/11448451.html

时间： 2024-10-06 23:44:00

Elasticsearch核心技术(2)--- 基本概念(Index、Type、Document、集群、节点、分片及副本、倒排索引)的相关文章

Elasticsearch 7.x 之节点、集群、分片及副本

从物理空间概念,Elasticsearch 分布式系统会有 3 个关键点需要学习.本次总结了下面相关内容: 分布式节点 & 集群主分片及副本一.Elasticsearch 分布式 Elasticsearch 分布式特性包括如下几个点: 1.1 高可用什么是高可用?CAP 定理是分布式系统的基础,也是分布式系统的 3 个指标: Consistency(一致性) Availability(可用性) Partition tolerance(分区容错性) 那高可用(High Availabili

elasticsearch 集群indices 分片状态INITIALIZING

elasticsearch 集群indices 分片状态INITIALIZING,集群状态为: yellow 故障现象 GET /_cat/shards/7a_cool 7a_cool 5 r STARTED 4583018 759.4mb 10.2.4.21 pt01-pte-10-2-4-21 7a_cool 17 r INITIALIZING 10.2.4.22 pt01-pte-10-2-4-22 <==异常分片解决办法 1:关闭异常分片主机es 服务: 登陆pt01-pte-10-2

ELK介绍及搭建 Elasticsearch 分布式集群

笔记内容:ELK介绍及搭建 Elasticsearch 分布式集群笔记日期:2018-03-02 27.1 ELK介绍 27.2 ELK安装准备工作 27.3 安装es 27.4 配置es 27.5 curl查看es集群情况 ELK介绍需求背景: 业务发展越来越庞大,服务器越来越多各种访问日志.应用日志.错误日志量越来越多,导致运维人员无法很好的去管理日志开发人员排查问题,需要到服务器上查日志,不方便运营人员需要一些数据,需要我们运维到服务器上分析日志为什么要用到ELK: 一般我们需要

Elasticsearch介绍，一些概念的笔记

Elasticsearch,分布式,高性能,高可用,可伸缩的搜索和分析系统什么是搜索? 如果用数据库做搜索会怎么样? 什么是全文检索和Lucene? 什么是Elasticsearch? Elasticsearch的功能什么是搜索提供一种数据提取的服务垂直搜索(站内搜索) 互联网的搜索:电商网站,招聘网站,新闻网站,各种app IP系统的搜索:OA软件,会议管理,日程管理,项目管理,员工管理,搜索"张三", 如果用数据库做搜索会怎么样? 当如果你用电商系统搜索的时候 select

ElasticSearch笔记整理（二）：CURL操作、ES插件、集群安装与核心概念

[TOC] CURL操作 CURL简介 curl是利用URL语法在命令行方式下工作的开源文件传输工具,使用curl可以简单实现常见的get/post请求.简单的认为是可以在命令行下面访问url的一个工具.在centos的默认库里面是有curl工具的,如果没有请yum安装即可. curl -X 指定http的请求方法有HEAD GET POST PUT DELETE -d 指定要传输的数据 -H 指定http请求头信息 curl创建索引库 curl -XPUT http://<ip>:9200

Elasticsearch集群中处理大型日志流的几个常用概念

之前对于CDN的日志处理模型是从logstash agent==>>redis==>>logstash index==>>elasticsearch==>>kibana3,对于elasticsearch集群搭建,可以把索引进行分片存储,一个索引可以分成若干个片,分别存储到集群里面,而对于集群里面的负载均衡,副本分配,索引动态均衡(根据节点的增加或者减少)都是elasticsearch自己内部完成的,一有情况就会重新进行分配.下面先是介绍几个关于elastic

elasticsearch + kibana + x-pack + logstash_集群部署安装

elasticsearch 部分总体描述: 1.elasticsearch 的概念及特点.概念:elasticsearch 是一个基于 lucene 的搜索服务器.lucene 是全文搜索的一个框架.特点: - 分布式,可扩展,高可用 - 能够实时搜索分析数据. - 复杂的 RESTful API.总结:是一个采用RESTful API 标准,实现分布式,可扩展以及高可用的实时数据存储分析的全文搜索工具. 2.elasticsearch 涉及的相关概念.(关系菲关系对比)相关概念: -Node:

ElasticSearch的基本用法与集群搭建

ElasticSearch的基本用法与集群搭建一.简介 ElasticSearch和Solr都是基于Lucene的搜索引擎,不过ElasticSearch天生支持分布式,而Solr是4.0版本后的SolrCloud才是分布式版本,Solr的分布式支持需要ZooKeeper的支持. 这里有一个详细的ElasticSearch和Solr的对比:http://solr-vs-elasticsearch.com/ 二.基本用法 Elasticsearch集群可以包含多个索引(indices),每一个索

分布式搜索Elasticsearch集群配置

配置文件位于%ES_HOME%/config/elasticsearch.yml文件中,用Editplus打开它,你便可以进行配置. 所有的配置都可以使用环境变量,例如:node.rack: ${RACK_ENV_VAR} 表示环境变量中有一个RACK_ENV_VAR变量. 下面列举一下elasticsearch的可配置项: 1. 集群名称,默认为elasticsearch:cluster.name: elasticsearch 2. 节点名称,es启动时会自动创建节点名称,但你也可进