其他 - 简述反向索引

1. 概述

概述
1. 简述反向索引
2. 也有人叫倒排索引
场景
1. 经常会出现在搜索引擎的后面

2. 生活中的索引

格式

# 章节内容在哪一页
<content> -> <page>

字典
```
# 单词在哪一页
<word> -> <page>
```

思路
1. 内容在哪个位置

3. 搜索引擎生成倒排索引的内容

英文索引生成
1. 输入
  1. 文本
2. 过滤
  1. 例如 html 标签
3. 分词
  1. 时态
  2. 单复数
4. 过滤
  1. 过滤一些没哈用的词
    1. 比如: a, an, the, this, that
5. 输出
  1. 正向索引
6. 生成反向索引

4. 正向索引

概述
1. 生成索引时第一轮的输出
名称由来
1. 首先输出, 所以叫正向
2. 反向索引
  1. 基于正向索引而来, 所以叫反向
  2. 其实就是普通的索引
    1. 标记内容在某个位置

形式

Doc1 -> the, cow, says, moo
Doc2 -> the, cat, and, the, the, hat
Doc3 -> the, dish, ran, away, with, the, spoon

5. 反向索引

概述
1. 搜索引擎使用的最终结果
2. 实际的思路, 就是普通索引
  1. 就是字典里那种
名称由来
1. 正向索引
2. 正向索引反过来

原文地址：https://www.cnblogs.com/xy14/p/12015815.html

时间： 2025-01-17 21:31:03

其他 - 简述反向索引的相关文章

Oracle索引总结（三）- Oracle索引种类之反向索引

一反向索引 1.1 反向索引的定义反向索引作为B-tree索引的一个分支,主要是在创建索引时,针对索引列的索引键值进行字节反转,进而实现分散存放到不同叶子节点块的目的. 1.2 反向索引针对的问题使用传统的B-tree索引,当索引的列是按顺序产生时,相应的索引键值会基本分布在同一个叶块中.当用户对该列进行操作时,难免会发生索引块的争用. 使用反向索引,将索引列的键值进行反转,实现顺序的键值分散到不同的叶块中,从而减少索引块的争用. 例如:键值1001.1002.1003,反转后1001.2

Mapreduce 反向索引

反向索引主要用于全文搜索,就是形成一个word url这样的结构 file1: MapReduce is simple file2: MapReduce is powerful is simple file3: Hello MapReduce bye MapReduce 那么经过反向索引后就是: Hello file3.txt:1; MapReduce file3.txt:2;fil1.txt:1;fil2.txt:1; bye file3.txt:1; is

CM开发日志（四） - Solr 反向索引

什么是反向索引?(很多文章也称为倒排索引) 索引技术主要有以下3种: 反向索引,后缀数组和签名文件.其中, 反向索引技术在当前大多数的信息检索系统中得到了广泛的应用, 它对于关键词的搜索非常有效, 在lucene中也是使用的这种技术.后缀数组技术在短语查询中具有很快的速度, 但是这样的数据结构在构造和维护时都比较复杂一些.签名文件技术在20世纪80年代比较流行, 但是后来反向索引技术逐渐超越了它. 反向索引是目前搜索引擎公司对搜索引擎最常用的存储方式, 也是搜索引擎的核心内容, 反向索引源于实际

什么是反向索引

反向索引英文名叫做 Inverted index,顾名思义,是通常意义下索引的倒置. 举个例子: 我们用不同的数字索引不同的句子(比如以下三句在文本中是按照0,1,2的顺序排列的) 0 : "I love you" 1 : "I love you too " 2 : "I dislike you" 如果要用单词作为索引,而句子的位置作为被索引的元素,那么索引就发生了倒置: "I" : {0,1,2} "love&qu

Oracle 反向索引（反转建索引）理解

简述数据库系统索引分类

1.关系模式存取方法存取方法是快速存取数据库中数据的技术.数据库管理系统一般提供多种存取方法.常用的存取方法为索引方法和聚簇(clustering)方法. 2.索引简介当表的数据量比较大时,查询操作会比较耗时.建立索引是加快查询速度的有效手段,但数据更新时,维护相应的索引也需要牺牲一定的系统性能,应根据实际的情况选择性的使用索引. 3.索引的分类 3.1.按组织方式分类 (1)聚簇索引(clustered index) 聚簇索引会对表进行物理排序,所以这种索引对查询非常有效,一个表中只能有一

Solr4.8.0源码分析(10)之Lucene的索引文件(3)

Solr4.8.0源码分析(10)之Lucene的索引文件(3) 1. .si文件 .si文件存储了段的元数据,主要涉及SegmentInfoFormat.java和Segmentinfo.java这两个文件.由于本文介绍的Solr4.8.0,所以对应的是SegmentInfoFormat的子类Lucene46SegmentInfoFormat. 首先来看下.si文件的格式头部(header) 版本(SegVersion) doc个数(SegSize) 是否符合文档格式(IsCompoundF

悟空分词的搜索和排序源码分析之——索引

转自:http://blog.codeg.cn/2016/02/02/wukong-source-code-reading/ 索引过程分析下面我们来分析索引过程. // 将文档加入索引 // // 输入参数: // docId 标识文档编号,必须唯一 // data 见DocumentIndexData注释 // // 注意: // 1. 这个函数是线程安全的,请尽可能并发调用以提高索引速度 // 2. 这个函数调用是非同步的,也就是说在函数返回时有可能文档还没有加入索引中,因此 // 如果立

索引与like优化

未建索引 mysql> alter table modulestatus drop index imei;Query OK, 457922 rows affected (4.29 sec)Records: 457922 Duplicates: 0 Warnings: 0 mysql> SELECT count(*) from modulestatus where imei like '1%';+----------+| count(*) |+----------+| 270 |+-------

其他 - 简述 反向索引