Elasticsearch系列---初识mapping

概要

本篇简单介绍一下field数据类型mapping的相关知识。

mapping是什么?

前面几篇的实战案例,我们向Elasticsearch索引数据时,只是简单地把JSON文本放在请求体里,至于JSON里的field类型,存储到ES里是什么类型,中间是怎么做的映射,这个映射过程,就是mapping要解决的问题。

mapping简单来说,就是解决JSON文本内容到field类型映射关系的定义。将时间域视为时间类型,数字视为数字类型,字符串识别为全文或精确值字符串,这个识别的过程,叫做mapping。

Elasticsearch支持的简单域类型,类似于Java的基础数据类型,有如下几种:

  • 字符串:text,keyword
  • 整数 : byte, short, integer, long
  • 浮点数: float, double
  • 布尔型: boolean
  • 日期: date

当Elasticsearch收到JSON基本数据类型内容时,使用如下规则进行类型映射:
| JSON type | domain type
| :---- | :--: | -----: |
| 布尔型: true 或者 false | boolean
| 整数: 123 | long
| 浮点数: 123.45 | double
| 日期格式的字符串: 2014-09-15 | date
| 字符串: love you | text

查看映射

每个索引都可以通过/_mapping查询各个field的映射结果,ES本身有自动mapping的过程,但mapping后的结果一定要仔细检查一下。

查询请求:

GET /music/_mapping/children

响应结果:

{
  "music": {
    "mappings": {
      "children": {
        "properties": {
          "content": {
            "type": "text",
            "fields": {
              "keyword": {
                "type": "keyword",
                "ignore_above": 256
              }
            }
          },
          "language": {
            "type": "text",
            "fields": {
              "keyword": {
                "type": "keyword",
                "ignore_above": 256
              }
            },
            "fielddata": true
          },
          "length": {
            "type": "long"
          },
          "likes": {
            "type": "long"
          },
          "name": {
            "type": "text",
            "fields": {
              "keyword": {
                "type": "keyword",
                "ignore_above": 256
              }
            }
          }
        }
      }
    }
  }
}

mapping中就自动定义了每个field的数据类型,properties下面的是各个field字段的名称、类型等信息,text类型的还带一个keyword子field。

数据类型的分词规则

index在建立时或索引数据时,如果没有手动指定mapping信息,Elasticsearch会用它的规则自动为我们创建type信息,以及type对应的mapping,mapping中包含了每个field对应的数据类型,以及如何分词等设置。

不同类型的field,有的是精确搜索(exact value),有的是全文搜索(full text)。

  • exact value,在建立倒排索引的时候,是将整个值一起作为一个关键词建立到倒排索引中的,并且大小写敏感;
  • full text,会经历各种各样的处理,分词,normaliztion(时态转换,同义词转换,大小写转换),才会建立到倒排索引中。

在一个搜索请求过来的时候,对exact value field和full text field进行搜索的会与当初建立倒排索引的行为保持一致;比如说exact value搜索的时候,就是直接按照整个值进行匹配,full text query string,也会进行分词和normalization再去倒排索引中去搜索,这样才能达到预期的搜索效果。

ES基本的几种field类型,除了text是使用full text,其他的都是exact value,总结来说mapping,决定了数据类型,建立倒排索引的行为,还有进行搜索的行为。

自定义映射

基本数据类型基本够用,但是有些数据可能需要自定义映射,尤其是字符串,string类型默认是full text,但是我们可以自己定义分词器,不同的分词器,会带来不一样的搜索效果,string类型最重要的属性是index和analyzer。

index

这个属性控制字符串的索引规则,有三个值可供选择:

  • true:支持索引,并且依据当前类型决定是全文搜索还是精确匹配
  • false:不索引

例如:

{
    "author": {
        "type":     "text",
        "index":    true
    }
}

analyzer

这个属性控制字符串使用的分词器,在支持中文的系统里,这个属性经常被用到,各路分词器大显身手,都需要用这个属性来指定,如:

{
    "content": {
        "type":     "text",
        "analyzer":    "aliws"
    }
}

测试映射

我们在建立索引之后,可以通过测试命令来查看不同的field的映射结果,即full text类型的是否有分词, exact value的是否原样保留,text的内容可以随意输入,当把这个作用工具调试时,可以诊断的内容的分词情况,举例如下:

  1. full text类型
GET /music/_analyze
{
  "field": "content",
  "text": "let me sleep"
}

结果:

{
  "tokens": [
    {
      "token": "let",
      "start_offset": 0,
      "end_offset": 3,
      "type": "<ALPHANUM>",
      "position": 0
    },
    {
      "token": "me",
      "start_offset": 4,
      "end_offset": 6,
      "type": "<ALPHANUM>",
      "position": 1
    },
    {
      "token": "sleep",
      "start_offset": 7,
      "end_offset": 12,
      "type": "<ALPHANUM>",
      "position": 2
    }
  ]
}
  1. exact value类型
GET /music/_analyze
{
  "field": "content.keyword",
  "text": "let me sleep"
}

结果:

{
  "tokens": [
    {
      "token": "let me sleep",
      "start_offset": 0,
      "end_offset": 12,
      "type": "word",
      "position": 0
    }
  ]
}

注意一个小细节:Elasticsearch在自动创建text类型时,为full text,但会自动建立一个keywork子field,这个子field是exact value类型的。

小结

本篇主要介绍了一个mapping的概念,基础数据类型,以及查看映射信息和测试field映射效果的方法,测试映射效果算是一个比较有用的工具,后期实际开发中,遇到需要诊断的内容,可以用这个工具协助排查问题。

专注Java高并发、分布式架构,更多技术干货分享与心得,请关注公众号:Java架构社区

原文地址:https://www.cnblogs.com/huangying2124/p/12105378.html

时间: 2024-07-30 18:05:55

Elasticsearch系列---初识mapping的相关文章

Elasticsearch系列---定制mapping

概要 本篇接着前一篇内容,继续介绍mapping信息,重点倾向于自定义mapping.自定义对象以及数组集合类的底层结构. 自定义mapping 上一篇文章介绍的都是Elasticsearch的自动mapping,我们在创建索引时,可以先指定好mapping的信息,还是以music索引为例: PUT /music { "mappings": { "children": { "properties": { "content":

Elasticsearch系列---初识Elasticsearch

Elasticsearch是什么? Elasticsearch简称ES,是一个基于Lucene构建的开源.分布式.Restful接口的全文搜索引擎,还是一个分布式文档数据库.天生就是分布式.高可用.可扩展的,可以在很短的时间内存储.搜索和分析大量的数据. 什么是全文搜索? 全文搜索也叫全文检索,是指扫描文章中的每一个词,对每一个词进建立一个索引,指明该词在文章中出现的次数和位置,当前端用户输入的关键词发起查询请求后,搜索引擎就会根据事先建立的索引进行查找,并将查询的结果响应给用户. 这里有两个关

第三百六十四节,Python分布式爬虫打造搜索引擎Scrapy精讲—elasticsearch(搜索引擎)的mapping映射管理

第三百六十四节,Python分布式爬虫打造搜索引擎Scrapy精讲-elasticsearch(搜索引擎)的mapping映射管理 1.映射(mapping)介绍 映射:创建索引的时候,可以预先定义字段的类型以及相关属性elasticsearch会根据json源数据的基础类型猜测你想要的字段映射,将输入的数据转换成可搜索的索引项,mapping就是我们自己定义的字段数据类型,同时告诉elasticsearch如何索引数据以及是否可以被搜索 作用:会让索引建立的更加细致和完善 类型:静态映射和动态

elasticsearch中的mapping映射配置与查询典型案例

elasticsearch中的mapping映射配置示例比如要搭建个中文新闻信息的搜索引擎,新闻有"标题"."内容"."作者"."类型"."发布时间"这五个字段:我们要提供"标题和内容的检索"."排序"."高亮"."统计"."过滤"等一些基本功能.ES提供了smartcn的中文分词插件,测试的话建议使用IK分

js调试系列: 初识控制台

写在最开头:其实我以前就在考虑要不要写这个东西,因为这个东西确实不难,但是为什么会有这么多人问,他们问的不是怎么用控制台,而是不知道控制台能干嘛,他们也知道有 console.log 之类的东西,但他们不知道为什么要用这么长的字符串代替 alert 输出信息.在他们眼里 alert 足以.好吧,我承认小小的吐槽了下,不过这个系列我只打算介绍下调试的基本知识,不会涉及太深,因为深入的东西结合js知识,如果你js没到一个境界,我就算教你调试bug,破解一些插件之类的,你也根本不知道我在做什么.我的目

ElasticSearch Index API &amp;&amp; Mapping

ElasticSearch  NEST Client 操作Index var indexName="twitter"; var deleteIndexResponse = client.DeleteIndex(indexName);                var createIndexResponse = client.CreateIndex(indexName);                var getIndexResponse = client.GetIndex(in

ElasticSearch 基础(4) - Mapping

一.Mapping概述 为了能够把日期字段处理成日期,把数字字段处理成数字,把字符串字段处理成Full-text或者精确的字符串值. ES需要知道每个字段里面都包含了什么类型.这些类型和字段的信息存储(包含)在映射(mapping)中. 索引中每个文档都有一个类型(type).每个类型都拥有自己的映射(mapping)或者模式定义(schema definition). 一个映射定义了字段类型,每个字段的数据类型,以及字段被Elasticsearch处理的方式.映射还用于设置关联到类型上的元数据

基于Cocos2d-x学习OpenGL ES 2.0系列——初识MVP(3)

在上一篇文章中,我在介绍vertex shader的时候挖了一个坑:CC_MVPMatrix.它其实是一个uniform,每一个Cocos2d-x预定义的shader都包含有这个uniform,但是如果你在shader里面不使用这个变量的话,OpenGL底层会把它优化掉. 但是,CC_MVPMatrix是在什么时候设置进来的呢?我在shader里面明明没有看到它,它从哪儿来的?别急,请继续往下读. 初识Uniform 在回答上面几个问题之前,让我们先来介绍一下什么是uniform.简单来说,un

elasticsearch index 之 Mapping

Lucene索引的一个特点就filed,索引以field组合.这一特点为索引和搜索提供了很大的灵活性.elasticsearch则在Lucene的基础上更近一步,它可以是 no scheme.实现这一功能的秘密就Mapping.Mapping是对索引各个字段的一种预设,包括索引与分词方式,是否存储等,数据根据字段名在Mapping中找到对应的配置,建立索引.这里将对Mapping的实现结构简单分析,Mapping的放置.更新.应用会在后面的索引fenx中进行说明. 首先看一下Mapping的实现