ES里设置索引中倒排列表仅仅存文档ID

`index_options`

The index_options parameter controls what information is added to the inverted index, for search and highlighting purposes. It accepts the following settings:

`docs`	Only the doc number is indexed. Can answer the question Does this term exist in this field?
`freqs`	Doc number and term frequencies are indexed. Term frequencies are used to score repeated terms higher than single terms.
`positions`	Doc number, term frequencies, and term positions (or order) are indexed. Positions can be used for proximity or phrase queries.
`offsets`	Doc number, term frequencies, positions, and start and end character offsets (which map the term back to the original string) are indexed. Offsets are used by the postings highlighter.

Analyzed string fields use positions as the default, and all other fields use docs as the default.

PUT my_index
{
  "mappings": {
    "my_type": {
      "properties": {
        "text": {
          "type": "text",
          "index_options": "offsets"
        }
      }
    }
  }
}

PUT my_index/my_type/1
{
  "text": "Quick brown fox"
}

GET my_index/_search
{
  "query": {
    "match": {
      "text": "brown fox"
    }
  },
  "highlight": {
    "fields": {
      "text": {} 
    }
  }
}

COPY AS CURL VIEW IN CONSOLE

The text field will use the postings highlighter by default because offsets are indexed.

转自：https://www.elastic.co/guide/en/elasticsearch/reference/current/index-options.html

注意：ES2.41里没有text这个type

curl -XPUT ‘http://localhost:9200/hec_test2‘ -d ‘
{
  "mappings": {
    "hec_type2": {
      "properties": {
        "filed-0": {
          "type": "string",
          "index_options": "docs"
        },
        "filed-1": {
          "type": "string",
          "index_options": "docs"
        }
      }
    }
  }
}
‘

时间： 2024-07-30 09:38:40

ES里设置索引中倒排列表仅仅存文档ID的相关文章

sphinx 源码阅读之分词，压缩索引，倒排——单词对应的文档ID列表本质和lucene无异也是外部排序再压缩解压的时候需要全部扫描doc_ids列表偏移量相加获得最终的文档ID

转自:http://github.tiankonguse.com/blog/2014/12/03/sphinx-token-inverted-sort.html 外部排序现在我们的背景是有16个已经排序的数据存在磁盘上.由于数据量很大,我们不能一次性全部读进来. 我们的目标是依次挑出最小的hit,然后交给索引引擎处理. sphinx 使用了 CSphHitQueue 这个数据结构. CSphHitQueue 你猜是什么? 队列? 恭喜你,猜错了.CSphHitQueue 是一个最小堆.且堆的最

在Oracle电子商务套件版本12.2中创建自定义应用程序（文档ID 1577707.1）

在本文档中本笔记介绍了在Oracle电子商务套件版本12.2中创建自定义应用程序所需的基本步骤.如果您要创建新表单,报告等,则需要自定义应用程序.它们允许您将自定义编写的文件与Oracle电子商务套件提供的标准种子功能分离.在向您的环境应用修补程序或执行升级时可以保留自定义设置. 自定义数据和索引表空间默认为APPS_TS_TX_DATA和APPS_TS_TX_IDX. 注意:当没有活动的修补程序周期时,应在运行文件系统上执行本文档中描述的过程. 也可以按照此过程更正先前创建的不使用AD Sp

Poseidon 系统是一个日志搜索平台——认证看链接ppt，本质是索引的倒排列表和原始日志数据都存在HDFS，而文档和倒排的元数据都在NOSQL里，同时针对单个filed都使用了独立索引，使用MR来索引和搜索

Poseidon 系统是一个日志搜索平台,可以在百万亿条.100PB 大小的日志数据中快速分析和检索.360 公司是一个安全公司,在追踪 APT(高级持续威胁)事件,经常需要在海量的历史日志数据中检索某些信息,例如某个恶意样本在某个时间段内的活动情况.在 Poseidon 系统出现之前,都是写 Map/Reduce 计算任务在 Hadoop 集群中做计算,一次任务所需的计算时间从数小时到数天不等,大大制约了 APT 事件的追踪效率.Poseidon 系统就是解决这个需求,能在数百万亿条规模的数据

这就是搜索引擎--读书笔记七--倒排列表压缩算法

倒排列表压缩算法目前有很多种倒排列表算法可以选择,但是我们对评判算法的优劣需要定量指标.一般会考虑3个指标:压缩率.压缩速度以及解压速度. 压缩率是指数据压缩前和压缩后大小的比例,显然,压缩率越高,就越节约磁盘空间.而压缩速度是压缩单位量的数据所花的时间,但是压缩往往是在建立索引过程中进行的,这是一个后台进行的过程,不需要及时响应用户查询,即使速度慢一些也没有关系.所以普遍来说,压缩速度不是一个重要指标. 那么我们来看看解压速度.顾名思义,解压就是将压缩数据恢复到原始数据.这是一个实时响应过程

搜索引擎基础概念（3）—— 倒排列表

倒排列表倒排列表用来记录有哪些文档包含了某个单词.一般在文档集合里会有很多文档包含某个单词,每个文档会记录文档编号(DocID),单词在这个文档中出现的次数(TF)及单词在文档中哪些位置出现过等信息,这样与一个文档相关的信息被称做倒排索引项(Posting),包含这个单词的一系列倒排索引项形成了列表结构,这就是某个单词对应的倒排列表.图 1-1 是倒排列表的示意图,在文档集合中出现过的所有单词及其对应的倒排列表组成了倒排索引. 图1-1 倒排列表示意图在实际的搜索引擎系统中,并不存储倒排

倒排列表压缩算法汇总——分区Elias-Fano编码貌似是最牛叉的啊！

来看看倒排索引压缩.压缩是拿CPU换IO的最重要手段之一,不论索引是放在硬盘还是内存中.索引压缩的算法有几十种,跟文本压缩不同,索引压缩算法不仅仅需要考虑压缩率,更要考虑压缩和解压性能,否则会解压太慢而起不到CPU换IO的作用.早期的索引设计里,在尝试了几十种编码之后,基本都确定性采用差分编码+可变长字节编码.差分的目的在于让索引的文档ID尽可能小,因为压缩小的整数总是比大整数更有效.在索引构建算法中,有一类工作叫做"文档重排",目的就是通过对文档索引顺序的重新排列,使得索引posti

散列表：WORD文档中如何检测单词的拼写错误

散列表:WORD文档中如何检测单词的拼写错误散列表用的是数组支持按照下标随机访问数据的特性,所以散列其实是数组的一种扩展,由数组演化而来. 散列表(哈希表 Hash Table):由散列函数(哈希函数)和数组构成,底层存储数据的是数组. 散列函数(键转化为散列值即数组下标)的设计: 散列值是非负整数: if key1 = key2, then hash(key1) == hash(key2); if key1 != key2, then hash(key1) != hash(key2). 散列

大数据技术之_20_Elasticsearch学习_01_概述 + 快速入门 + Java API 操作 + 创建、删除索引 + 新建、搜索、更新删除文档 + 条件查询 + 映射操作

一概述1.1 什么是搜索?1.2 如果用数据库做搜索会怎么样?1.3 什么是全文检索和 Lucene?1.4 什么是 Elasticsearch?1.5 Elasticsearch 的适用场景1.6 Elasticsearch 的特点1.7 Elasticsearch 的核心概念1.7.1 近实时1.7.2 Cluster(集群)1.7.3 Node(节点)1.7.4 Index(索引 --> 数据库)1.7.5 Type(类型 --> 表)1.7.6 Document(文档 -->

jsWindow 对象 Window 对象 Window 对象表示浏览器中打开的窗口。如果文档包含框架（frame 或 iframe 标签），浏览器会为 HTML 文档创建一个 window 对象，并为每个框架创建一个额外的 window 对象。注释：没有应用于 window 对象的公开标准，不过所有浏览器都支持该对象。 Window 对象集合集合描述 frames[] 返回窗口中所有命

一.JSX简介 JSX就是Javascript和XML结合的一种格式.React发明了JSX,利用HTML语法来创建虚拟DOM.当遇到<,JSX就当HTML解析,遇到{就当JavaScript解析. 如下(JS写法) var child1 = React.createElement('li', null, 'First Text Content'); var child2 = React.createElement('li', null, 'Second Text Content'); var