67.倒排索引结构理解

倒排索引,是适合用于进行搜索的,倒排索引的结构是比较复杂的,总体来说包括以下几个部分

(1)包含这个关键词的document list

(2)包含这个关键词的所有document的数量:IDF(inverse document frequency)

(3)这个关键词在每个document中出现的次数:TF(term frequency)

(4)这个关键词在这个document中的次序

(5)每个document的长度:length norm

(6)包含这个关键词的所有document的平均长度

倒排索引是不可变的,不可变的好处有:

(1)不需要锁,提升并发能力,避免锁的问题

(2)数据不变,只要cache内存足够就可以一直保存在os cache中,

(3)因为数据不变,filter cache可以一直驻留在内存中,提升性能

(4)可以压缩,节省cpu和io开销

倒排索引不可变的坏处:每次都要重新构建整个索引

原文地址:https://www.cnblogs.com/liuqianli/p/8476903.html

时间: 2024-10-11 14:38:51

67.倒排索引结构理解的相关文章

指针与链表结构理解

指针与链表结构理解#include<stdio.h>int main(void){ int a=3,*p; p=&a; printf("a=%d,*p=%d\n",a,*p); *p=10; printf("a=%d,*p=%d\n",a,*p); printf("Enter a:"); scanf("%d",&a); printf("a=%d,*p=%d\n",a,*p); r

TOMCAT 之 文件目录结构理解

一.文件目录结构理解 [[email protected] tomcat]# tree -L 1 . ├── bin #用以启动.关闭Tomcat或者其它功能的脚本 ├── conf #用以配置Tomcat的XML及DTD文件 ├── lib #存放web应用能访问的JAR包 ├── LICENSE ├── logs #Cataliina和其它web应用程序的日志文件 ├── NOTICE ├── RELEASE-NOTES ├── RUNNING.txt ├── script ├── temp

倒排索引简单理解

http://blog.csdn.net/hguisu/article/details/7962350 http://blog.csdn.net/hguisu/article/details/7969757 =====================           我是分割线          ============================= 倒排索引(英语:Inverted index),也常被称为反向索引.置入档案或反向档案,是一种索引方法,被用来存储在全文搜索下某个单词在一

pg数据库的结构理解

1 概述 PostgreSQL官方介绍称是最先进的开源关系型数据库,支持所有主流的平台,目前已经更新到了最新版本的12.0,在MySQL被Oracle收购后,PostgreSQL开源社区越来越活跃了,同时还有分布式集群的开源方案GreenPlum,目前也非常受欢迎.本篇文章讨论PostgreSQL内部的架构,内部的组件是如何工作的,这对一个DBA是非常重要的内容. 2 PostgreSQL架构 PostgreSQL的物理结构是非常简单的,主要是由共享内存.后台进程和数据文件组成的.大致的结构可以

栈、堆内存到底是如何申请的,方法是如何入栈出栈的——内存结构理解学习

Lee出品,转载请注明出处http://blog.csdn.net/hnulwt/article/details/42934365 对于软件开发者而言,理解和熟悉计算机内存知识是很基础的.今天我就来翻翻旧账,回顾看看有哪些点遗漏了,在此共同学习. 提起内存,我们常常想到三个区域: 1,静态区,静态变量 static variables / constant  ,常量,静态变量就存储在静态区域,这个区域比较简单,只需要知道怎么通过地址访问他就行了. 2,堆,也叫堆栈(这里要注意堆栈 和 栈 是不同

GBASE结构理解

GBASE数据库 8a 8a Cluster 8t 8m BI 8d 8 分析型数据库 分布式并行数据库集群 高端事务性数据库 高速内存数据库 可视商业智能 大型目录服务体系 硬加密安全数据库 数据分析: 8a:支撑海量数据快速分析的新型列存储数据库. 8a cluster:基于云计算架构和贡献节点架构的并行数据库集群,支持TB和PB级别结构化数据存储查询和分布式并行扩展. BI:基于j2ee和soa思想,使用flex技术实现数据分析,能用少量编程实现复杂的业务处理需求. 数据安全: 8d:目录

对Mybatis3源码结构理解(每天不断完善中...)

一.mybatis简介 Mybatis是支持普通SQL查询查询.存储过程和高级映射的优秀持久层框架.Mybatis消除了几乎所有的JDBC代码和参数的手工设置以及结果集的检索.Mybatis使用简单的XML或注解用于配置和原始映射,将接口和java的POJOS(Plan old java Objects,普通的java对象)映射成数据库中的记录. 二.框架结构图 刚开始学习源码,有哪儿不对的地方还望指出,十分感谢! (20160810第一版,以mybatis-3.4.1为例) 三.暂无

HABSE表结构理解

也分为行列,行是索引,锁定数据,查找数据只能通过行 列:建表时必须知道列族,真实列(列簇)在插入数据时候可以指定 查找指定列,必须带列族,列族1:name

倒排索引的理解

http://www.cnblogs.com/likehua/p/4001556.html