搜索引擎基础概念（3）—— 倒排列表

　　倒排列表

　　　　倒排列表用来记录有哪些文档包含了某个单词。一般在文档集合里会有很多文档包含某个单词，每个文档会记录文档编号（DocID），单词在这个文档中出现的次数（TF）及单词在文档中哪些位置出现过等信息，这样与一个文档相关的信息被称做倒排索引项（Posting），包含这个单词的一系列倒排索引项形成了列表结构，这就是某个单词对应的倒排列表。图 1-1 是倒排列表的示意图，在文档集合中出现过的所有单词及其对应的倒排列表组成了倒排索引。

图1-1　倒排列表示意图

　　　　在实际的搜索引擎系统中，并不存储倒排索引项中的实际文档编号，而是代之以文档编号差值（D-Gap）。文档编号差值是倒排列表中相邻的两个倒排索引项文档编号的差值，一般在索引构建过程中，可以保证倒排列表中后面出现的文档编号大于之前出现的文档编号，所以文档编号差值总是大于 0 的整数。如图 1-10 所示的例子中，原始的 3 个文档编号分别是 187、196 和 199，通过编号差值计算，在实际存储的时候就转化成了：187、9、3。

图1-2　文档编号差值示例

　　　　之所以要对文档编号进行差值计算，主要原因是为了更好地对数据进行压缩，原始文档编号一般都是大数值，通过差值计算，就有效地将大数值转换为了小数值，而这有助于增加数据的压缩率。

原文地址：https://www.cnblogs.com/yaokaizhi/p/9744230.html

时间： 2024-11-06 03:50:18

搜索引擎基础概念（3）—— 倒排列表

搜索引擎基础概念（3）—— 倒排列表的相关文章

这就是搜索引擎--读书笔记七--倒排列表压缩算法

搜索引擎基础概念（1）——倒排索引

搜索引擎基础概念（2）—— 构建单词词典

倒排列表压缩算法汇总——分区Elias-Fano编码貌似是最牛叉的啊！

Poseidon 系统是一个日志搜索平台——认证看链接ppt，本质是索引的倒排列表和原始日志数据都存在HDFS，而文档和倒排的元数据都在NOSQL里，同时针对单个filed都使用了独立索引，使用MR来索引和搜索

ES里设置索引中倒排列表仅仅存文档ID

倒排列表求交集算法包括baeza yates的交集算法

倒排列表求交集算法汇总

倒排表数据结构、通配符查询、拼写纠正详解