elasticsearch6.7 05. Document APIs(2)Index API

目录

  • 1、Index API

    • 1.1 自动创建索引(Automatic Index Creation)
    • 1.2 操作类型(Operation Type)
    • 1.3 自动生成id(Automatic ID Generation)
    • 1.4 并发控制(Optimistic concurrency control)
    • 1.5 路由(Routing)
    • 1.6 分布式(Distributed)
    • 1.7 等待活跃分片(Wait For Active Shards)
    • 1.8 刷新(refresh)
    • 1.9 空操作(Noop Updates)
    • 1.10 超时(Timeout)
    • 1.11 版本(Versioning)
    • 1.12 版本号类型(Version types)

Single document APIs

  • Index API
  • Get API
  • Delete API
  • Update API

Multi-document APIs

  • Multi Get API
  • Bulk API
  • Delete By Query API
  • Update By Query API
  • Reindex API

所有CRUD api都是单索引api。索引参数接受单个索引名,或指向单个索引的别名。

1、Index API

index API可以添加或者更新特定索引的文档,并使其可搜索。下面的例子插入一个json格式的文档到“twitter”索引的“_doc”类型中,并指定id为1:

PUT twitter/tweet/1
{
    "user" : "kimchy",
    "post_date" : "2009-11-15T14:12:12",
    "message" : "trying out Elasticsearch"
}

返回结果:

{
    "_shards" : {
        "total" : 2,
        "failed" : 0,
        "successful" : 2
    },
    "_index" : "twitter",
    "_type" : "_doc",
    "_id" : "1",
    "_version" : 1,
    "_seq_no" : 0,
    "_primary_term" : 1,
    "result" : "created"
}

_shards字段提供索引操作复制过程的处理信息:

  • total:表示索引操作应该在多少个分片上(包括副本分片和主分片)执行
  • successful :表示成功执行索引操作的分片数量
  • failed :表示执行索引操作失败的分片的数组。

successful大于等于1就认为索引操作成功,因为最少有一个分片可以查到数据了。

当索引操作返回时,复制分片有可能还没有完全启用(默认,主分片是必须启用的,但这个行为可以修改)。total字段等于复制分片数(number_of_replicas+1),successful等于成功执行索引操作的分片数(包括主分片和副本分片,因为副本分片所在的节点还不一定可用,所以有可能和total不等)。如果没有任何错误发生,failed的值是0

1.1 自动创建索引(Automatic Index Creation)

如果索引不存在,则 index 操作会自动创建该索引(查阅create index API了解手动创建索引)并应用已配置的任何索引模板
索引操作还会为指定的类型创建动态类型映射(如果尚不存在)。默认情况下,如果需要,新字段和对象将自动添加到指定类型的映射定义中。有关映射定义的更多信息,请查看 mapping 部分;有关手动更新类型映射的信息,请查看put mapping API。

自动索引创建由action.auto_create_index设置控制。此设置默认为true,表示始终自动创建索引。将它设置为false可以禁用自动创建索引。
自动创建索引可以使用白/黑列表。例如:设置 action.auto_create_index = +aaa*,-bbb*,+ccc*,-*+代表允许,-代表禁止)

#只允许自动创建名为twitter,index10的索引,没有其他索引匹配index1 *,以及任何其他匹配ind *的索引。模式按照给定的顺序进行匹配。
PUT _cluster/settings
{
    "persistent": {
        "action.auto_create_index": "twitter,index10,-index1*,+ind*"
    }
}

#完全禁用索引的自动创建。
PUT _cluster/settings
{
    "persistent": {
        "action.auto_create_index": "false"
    }
}

#允许使用任何名称自动创建索引。这是默认值。
PUT _cluster/settings
{
    "persistent": {
        "action.auto_create_index": "true"
    }
}

1.2 操作类型(Operation Type)

index操作可以接受一个op_type 参数,它可以用来强制指定创建操作。允许put-if-absent操作。当指定op_type=create时,如果索引中已存在该id的文档,则索引操作将失败。下面举一个使用 op_type参数的例子:

PUT twitter/tweet/1?op_type=create
{
    "user" : "kimchy",
    "post_date" : "2009-11-15T14:12:12",
    "message" : "trying out Elasticsearch"
}

另一种方式:

PUT twitter/tweet/1/_create
{
    "user" : "kimchy",
    "post_date" : "2009-11-15T14:12:12",
    "message" : "trying out Elasticsearch"
}

1.3 自动生成id(Automatic ID Generation)

没有指定id的索引操作会自动生成id,除此之外,op_type会被默认赋值create 。举个例子(注意使用的是POST而不是PUT

POST twitter/tweet/
{
    "user" : "kimchy",
    "post_date" : "2009-11-15T14:12:12",
    "message" : "trying out Elasticsearch"
}

返回结果:

{
    "_shards" : {
        "total" : 2,
        "failed" : 0,
        "successful" : 2
    },
    "_index" : "twitter",
    "_type" : "_doc",
    "_id" : "W0tpsmIBdwcYyG50zbta",
    "_version" : 1,
    "_seq_no" : 0,
    "_primary_term" : 1,
    "result": "created"
}

1.4 并发控制(Optimistic concurrency control)

索引操作可以是有条件的,只有在为文档的最后一次修改分配了if_seq_noif_primary_term参数指定的序列号和主要术语时才能执行索引操作。如果检测到不匹配,则操作将导致VersionConflictException和状态代码409.有关详细信息,请参阅乐观并发控制

1.5 路由(Routing)

默认情况下,通过使用文档ID值的哈希值来控制分片的位置。如果想要更显式的控制,你可以显式指定routing参数,使用自定义的被hash的值:

POST twitter/_doc?routing=kimchy
{
    "user" : "kimchy",
    "post_date" : "2009-11-15T14:12:12",
    "message" : "trying out Elasticsearch"
}

对于上述例子,上面的文档被路由到与hash(kimchy)对应的分片中

当显式指定映射时,_routing参数可以使用自身的字段值作为路由值来指导索引操作。这确实需要额外的文档解析过程(非常小的)开销。如果在映射中指定了_routing并将其设置为required,当没有给定routing参数或者映射_routing字段对应的文档字段值不可用时,该索引操作将会失败。

1.6 分布式(Distributed)

索引操作基于路由值(查看上述的routing章节)定向到对应的主分片,并在包含该分片的实际节点上执行操作。当主分片完成索引操作后,如果需要,更新将分发到适用的副本。

1.7 等待活跃分片(Wait For Active Shards)

为了改善写操作的健壮性,索引操作可以设置成等待具有指定数量的活跃分片数时才执行。如果所需数量的活动分片副本不可用,则写入操作必须等待并重试,直到所需活跃分片副本足够或者发生超时。默认情况下,写入操作仅在继续之前等待主分片处于活动状态(即wait_for_active_shards=1,1代表主分片的意思)。这个默认值可以用过设置index.write.wait_for_active_shards在索引设置中被动态覆盖。可以在请求参数中指定wait_for_active_shards改变每个请求的此行为的操作。

有效值是all和正整数,最多为索引中每个分片配置的副本总数(即number_of_replicas + 1)。指定负数或者大于最大值的数都会报错。

例如,假如我们有一个3个节点的集群,ABC,每个节点都有3个副本分片(即每个文档都会被索引到4个分片,此时分片数量比节点数还多一个,即有一个副本分片处于不可用的状态)。如果我们尝试执行索引操作,在执行之前,该操作默认会确保主分片在继续操作之前是否可用。这意味着,即使B,C都宕机了,A主机拥有主分片,索引操作依然可以执行,但只有一份数据(主分片,副本分片不可用)。如果把wait_for_active_shards设置为3,并且三个节点都可以用,就那么索引操作将需要3个活动的shard副本才能继续,这一要求应该满足,因为群集中有3个活动的节点,每个节点都保存一个shard副本。 然而如果我们将wait_for_active_shards 指定为all 或者4,则索引操作将不会被执行,因为我们没有4个活跃的节点。这个操作将会超时,除非集群中出现一个新节点来承载第四个shard副本。

需要注意的是,此配置可以极大的降低了写操作只写到主分片但没有写到副本分片的可能性。但它并不能完全消除这种可能性,因为副本分片有可能在执行前是可用的,但在索引执行过程中不可用。_shards字段说明了索引在各个分片执行的情况。

{
    "_shards" : {
        "total" : 2,
        "failed" : 0,
        "successful" : 2
    }
}

1.8 刷新(refresh)

如果当前操作是修改操作,可以通过refresh强制要求修改后马上可以被搜索结果(因为接近实时有一定的延迟)。查阅 refresh。即该参数控制当有更改时在请求结果中是否立即可见。

1.9 空操作(Noop Updates)

当使用index API更新文档时,即使文档没有改变也会创建一个新的文档。如果不想创建新的文档,可以使用_update API 并且指定参数detect_noop=true.这个选项不能用于index API,因为index API无法获取旧的文档,并且无法将其与新文档进行比较。

并不是硬性规定你不接受空操作。这要结合多个因素。例如,数据源发送实际为空操作的频率(频率高的话应使用空操作避免不必要的索引)以及在elasticsearch在接收更新时每秒在shard上运行的查询数。(空操作,每次都要读旧数据,影响查询性能)。

1.10 超时(Timeout)

主分片执行索引操作时有可能会失败,可能的原因是主分片当前正在从网关恢复或者主分片正在进行迁移。默认情况下,索引操作会等待1分钟,如果主分片还是不可用就会报错。你可以在index API 中指定 timeout参数。下面例子把timeout设置为5分钟:

PUT twitter/_doc/1?timeout=5m
{
    "user" : "kimchy",
    "post_date" : "2009-11-15T14:12:12",
    "message" : "trying out Elasticsearch"
}

1.11 版本(Versioning)

每个被索引的文档都有一个版本号,index API 会在响应结果中返回这个版本号。默认情况下,内部的版本号是以1开始,并且每次更新和删除操作都会递增1。版本号也可以由外部提供(例如,在数据库中维护版本号),要启用此功能,需要将version_type设置为external。这个值必须是大于或者等于0,且少于约9.2e+18的数字。当使用外部的版本号比现有的版本号小时,该索引操作会失败。

如果在索引文档的时候指定版本号,该操作将会使用乐观锁(只要指定version参数就会使用乐观锁,使用内部版本号时会检查version参数和文档的version值是否一致,如果不一致则拒绝执行,一致则直接加1;使用外部版本号时会检查version参数是否比文档version值大,如果小于文档的version值就执行失败,否则该文档将使用指定的version参数作为版本号)。

PUT twitter/_doc/1?version=2&version_type=external
{
    "message" : "elasticsearch now has versioning support, double cool!"
}

注意:版本控制是完全实时的,不受搜索操作的接近实时影响。如果未提供任何版本,则执行该操作而不进行任何版本检查。

由于提供的版本2高于当前文档版本1,因此上例操作将成功。如果文档已更新且其版本号为2或更高,则上例操作将失败并导致冲突(409 http状态代码)。

elasticsearch索引使用默认的版本时,用户不需要维护由于数据更改而执行的异步索引操作造成的索引更改。如果使用外部版本控制,即使使用数据库中的数据更新elasticsearch索引的情况也很简单,如果由于某些索引操作不正常,只会使用最新版本。

1.12 版本号类型(Version types)

接下来解释一下上面的内部和外部版本类型。elasticsearch也支持其他的用户自定义类型版本,这里介绍一下不同版本类型:

internal

? 只有指定的version同已经存在的文件version一样时才进行索引。

在6.7.0中弃用。请改用if_seq_no和if_primary_term。有关更多详细信息,请参阅乐观并发控制

externalexternal_gt

? 只有指定的version参数高于已经存在的文档的version是,或不存在指定的version的文档时才进行索引。version参数将会用作新version使用,并将与新文档保持一致。且version参数必须是非负数。

external_gte

? 只有指定的version参数大于高于已经存在的文档的version时,或不存在指定的version的文档时才进行索引。version参数将会用作新version使用,并将与新文档保持一致。且version参数必须是非负数。

注意:external_gte 版本类型是用于特殊场景的,需要小心使用。如果使用不当会丢失数据。还有另一个选项force,它被弃用,因为它可能导致主分片和副本分片发散。

原文地址:https://www.cnblogs.com/wtc1994/p/10703834.html

时间: 2024-10-11 00:01:12

elasticsearch6.7 05. Document APIs(2)Index API的相关文章

elasticsearch6.7 05. Document APIs(1)

目录 data replication model 读写文档(Reading and Writing documents) 介绍(Introduction) 基本的写模型(Basic write model) 错误处理(Failure handling) 基本的读模型(Basic read model) 错误处理(Failure handling) 一些简单的暗示(A few simple implications) 错误(Failures) 冰山一角(The Tip of the Iceber

Java基础05 实施接口(转载)

经过封装,产品隐藏了内部细节,只提供给用户接口(interface). 接口是非常有用的概念,可以辅助我们的抽象思考.在现实生活中,当我们想起某个用具的时候,往往想到的是该用具的功能性接口.比如杯子,我们想到加水和喝水的可能性,高于想到杯子的材质和价格.也就是说,一定程度上,用具的接口等同于用具本身.内部细节则在思考过程中被摒弃. 在public和private的封装机制,我们实际上同时定义了类和接口,类和接口混合在一起.Java还提供了interface这一语法.这一语法将接口从类的具体定义中

05 | 深入浅出索引(下) 学习记录

<MySQL实战45讲>05 | 深入浅出索引(下) 学习记录http://naotu.baidu.com/file/728c93bc6bbf5f51526451994de9306c?token=ef3290c5cdc90436 原文地址:https://www.cnblogs.com/jtfr/p/11257713.html

Docker入门教程(七)Docker API

Docker入门教程(七)Docker API [编者的话]DockerOne组织翻译了Flux7的Docker入门教程,本文是系列入门教程的第七篇,重点介绍了Docker Registry API和Docker Hub API. 纵观我们的Docker系列教程,我们已经讨论了很多重要的Docker组件与命令.在本文中,我们将继续深入学习Docker:剖析Docker APIs. Docker提供了很多的API以便用户使用.这些API包含四个方面: Docker Registry API Doc

漫谈可视化Prefuse(三)---Prefuse API数据结构阅读有感

前篇回顾:上篇<漫谈可视化Prefuse(二)---一分钟学会Prefuse>主要通过一个Prefuse的具体实例了解了构建一个Prefuse application的具体步骤.一个Prefuse Application需要经过数据导入(文本数据.数据库)->Prefuse数据结构接收数据->注册各种效果的Actions->渲染Renderer->交互展现Display的流程. 摸清了Prefuse那些看似眼花缭乱的框架结构,剩下的就是抽丝剥茧,顺藤摸瓜,结合Manua

HBase概念学习(三)Java API之扫描和过滤器

HBase基本的CRUD操作就不多介绍了,无非就是Put,Get,Delete三个类的运用. 本文相当于是阅读HBase权威指南的总结. 一.扫描(Scan) 现在看一下扫描技术,这种技术类似于关系型数据库的游标(cursor),并利用到了HBase底层顺序存储的特性. 使用扫描的一般步骤是: 1.创建Scan实例 2.为Scan实例增加扫描的限制条件 3.调用HTable的getScanner()方法获取ResultScanner对象 4.迭代ResultScanner对象中的Result对象

(转载)pThreads线程(一) 基本API

pThreads线程(一) 基本API 1.创建线程  int pthread_create(pthread_t *restrict_ptid,              const pthread_attr_t *restrict_attr,              void *(*start_routine)(void*), void *restrict_arg);      ptid是一个pthread_t *类型的指针,pthread_t是类似pid_t的数据结构,表示线程ID:att

2016.01.05 DOM笔记(一)

DOM节点的种类 元素和标签是一个意思,例如<body>标签或者称为<body>元素 节点DOM的节点分为三类  元素节点,文本节点,属性节点 例如 <div id=‘box’>例子</div>  其中元素节点就是指这个div,文本节点就是指‘例子’这个文本,属性节点是指id 查找和定位节点 查找元素JS提供的几种方法: getElementById() document.getElementById()DOM操作必须要等到HTML文档加载完毕才能进行怎样获

Window.document对象(2)

四.操作样式 首先利用元素的ID找到该元素,存于一个变量中: var a = document.getElementById("id"): 然后可以对该元素的属性进行操作: a.style="" : 操作此ID样式的属性. 样式为CSS中的样式,所有的样式都可以用代码进行操作. document.body.style.backgroundColor="颜色": 整个窗口的背景色. 操作样式的class:a.className="样式表中