搜索引擎的基础-倒排索引

　　昨天看hadoop视频的时候里面提到了google搜索引擎里使用的倒排索引技术，当时没有理解，今天翻阅了一些文档终于觉得拨云见日了，下面从用户在谷歌首页进行网页搜索这个角度来说明。

　　首先上一张图:

　　

　　简单的来说，当用户在搜索框输入一个关键词点击查询按钮后，后台程序首先会计算出所查询词的哈希值，然后去哈希表里寻找匹配项，哈希表的每一项通过指针指向一个哈希冲突表，哈希冲突表里存放着具有相同哈希值的单词。也就是说，搜索的第一步获取一个和用户搜索关键词相同哈希值的单词列表(冲突表)。然后会用这个冲突表里的单词和用户搜索词一一比较，找到完全匹配的单词。而冲突表中的每个单词对应一个倒排列表，如下图:

　　

　　这是一个最简单的倒排列表，每个单词对应唯一的单词ID,每个文档(即用户搜索后返回的网页)对应唯一的DocId,倒排列表中记录着每一个单词在哪些文档中出现过。比如跳槽这个单词，在编号为1,4的文档中出现过，那么就返回编号为1,4的两个网页作为搜索结果展示在页面上。

时间： 2024-12-08 03:28:25

搜索引擎的基础-倒排索引的相关文章

[Search Engine] 搜索引擎技术之倒排索引

倒排索引是搜索引擎中最为核心的一项技术之一,可以说是搜索引擎的基石.可以说正是有了倒排索引技术,搜索引擎才能有效率的进行数据库查找.删除等操作. 1. 倒排索引的思想倒排索引源于实际应用中需要根据属性的值来查找记录.这种索引表中的每一项都包括一个属性值和具有该属性值的各记录的地址.由于不是由记录来确定属性值,而是由属性值来确定记录的位置,因而称为倒排索引(inverted index). 在搜索引擎中,查询词可以切分成若干个单词,所以对于搜索引擎中的倒排索引对应的属性就是单词,而对应的记录就是

mapreduce实现搜索引擎简单的倒排索引

使用hadoop版本为2.2.0 倒排索引简单的可以理解为全文检索某个词例如:在a.txt 和b.txt两篇文章分别中查找统计hello这个单词出现的次数,出现次数越多,和关键词的吻合度就越高现有a.txt内容如下: hello tom hello jerry hello kitty hello world hello tom b.txt内容如下: hello jerry hello tom hello world 在hadoop平台上编写mr代码分析统计各个单词在两个文本中出现的次数其实

时间序列数据库选型——本质是列存储，B-tree索引，抑或是搜索引擎中的倒排索引

时间序列数据库最多,使用也最广泛.一般人们谈论时间序列数据库的时候指代的就是这一类存储.按照底层技术不同可以划分为三类. 直接基于文件的简单存储:RRD Tool,Graphite Whisper.这类工具附属于监控告警工具,底层没有一个正规的数据库引擎.只是简单的有一个二进制的文件结构. 基于K/V数据库构建:opentsdb(基于hbase),blueflood,kairosDB(基于cassandra),influxdb,prometheus(基于leveldb) 基于关系型数据库构建:m

Elastic Stack从入门到实践

第1章课程概述对课程整体进行介绍给出相关学习说明和建议1-1 _课程导学1-2 说明和建议第2章 Elasticsearch 篇之入门本章会对 Elasticsearch 篇进行一个总体的介绍,让大家对该篇每一章要讲解的内容有初步的了解.然后会讲解 Elasticsearch 中常见的术语.api,然后运行 Elasticsearch 并实际感受 api 的调用方式,为接下来的课程做好准备.2-1 -术语介绍2-2 -Document介绍2-3 -Index介绍2-4 -restapi介绍

这就是搜索引擎--读书笔记四--索引基础

搜索引擎索引基础前几天我阅读了搜索引擎索引这一章,发现倒排索引这一方法确实很巧妙和迷人,它包含的原理和设计方法很独到.所以接下来,我想把我学习到的索引方面的知识给大家讲解一下,总共分为三篇:索引基础.索引建立和更新.索引查询. 我们首先认识倒排索引基本概念文档:一般搜索引擎的处理对象是互联网网页,而文档这个概念要更宽泛些,代表以文本形式存在的存储对象,相比网页来说,涵盖了更多形式,比如Word.PDF.HTML.XML等不同格式的文件都可以称为文档. 文档集合:由若干文档构成的集合称为文档集

搜索引擎分类和基础架构概述

搜索引擎的标准定义:搜索引擎(Search Engine)是指根据一定的策略.运用特定的计算机程序从互联网上搜集信息,在对信息进行组织和处理后,为用户提供检索服务,将用户检索相关的信息展示给用户的系统.从上述定义中我们可以获得几个有关搜索引擎的关键步骤,分别为:搜集信息:组织和处理信息:展示信息. 1. 搜索引擎分类 1)全文搜索引擎全文搜索引擎是从网站提取信息从而构建网页数据库的. 全文搜索引擎的是如何搜集网站的呢?其实这里一般有两种方法: 1> 搜索引擎定期派出网络爬虫(也成为是蜘蛛或者机

搜索引擎基本原理

摘要:最近读了<这就是搜索引擎:核心技术详解>一书,简要作个记录. __________________________________________________ 目录 [1]搜索引擎概述 [2]搜索引擎的基础技术 [3]搜索引擎的平台基础 [4]搜索结果的改善优化 __________________________________________________ [1]搜索引擎概述过去的15年间,互联网信息急剧膨胀,靠人工的方式去筛选获取有用信息不再可能,因此搜索引擎应运而生.根据

Hadoop之倒排索引

前言: 从IT跨度到DT,如今的数据每天都在海量的增长.面对如此巨大的数据,如何能让搜索引擎更好的工作呢?本文作为Hadoop系列的第二篇,将介绍分布式情况下搜索引擎的基础实现,即“倒排索引”. 1.问题描述将所有不同文件里面的关键词进行存储,并实现快速检索.下面假设有3个文件的数据如下: file1.txt:MapReduce is simple file2.txt:mapReduce is powerful is simple file3.txt:Hello MapReduce bye M

用GO语言实现一个简单的搜索引擎

用GO语言实现一个简单的搜索引擎项目地址是:https://github.com/wyh267/FalconEngine 对搜索引擎感兴趣的可以去看看这本书,比较浅并且也比较完整的介绍了一个搜索引擎的全部机能. 我的这个搜索引擎原始数据是MySql数据库的,大家可以根据需要进行二次开发,用来支持其他数据库或者本地文件,Detail文件是存储在Redis数据库中,同样这部分也可以根据自己的需要二次开发,使用本地文件或者其他数据库,倒排索引和正排索引本地存储的时候使用的json格式,比较耗磁盘,第

猜你喜欢

vue,一路走来（3）

所有的静态页面布局完成后,最重要的就是数据交互了,简单来说,vue-resource就像jquery里的$.ajax,用来和后台交互数据的.放在created或ready里运行来获取或者更新数据的.不 ...

基于CAS实现单点登录（SSO）：CAS+LDAP实现单点登录认证

[一].概述 CAS是N个系统的中心认证入口,而贯穿多个系统的用户信息是共用的,应该被单独维护,而这些信息可能属于不用的系统,不用的组织,不用的国家,从而形成了树形结构,而使用关系型数据库维护树形结构 ...

计算机改名导致数据库链接的诡异问题

前几天给开发部门部署测试数据库时,遇到一个很诡异的问题:创建一个链接服务器GEK-MIS01时,报错如下: 消息 15190,级别 16,状态 1,过程 sp_dropserver,第 56 行仍有 ...

使用System.Drawing.Imaging.dll进行图片的合并

在最近开发项目的时候有时候需要进行图片的合并,即将两张图片合并成功一张图片合并图片的代码: 1 #region 两张图片的合并 2 3 /// <summary > 4 /// 将Ima ...

Perl 面向对象继承的用法

学生信息有两个包组成 Date和Student_info. 其中Date信息包括了时间信息的结构与设置. Student_info自身包含了名字的设置,引用Date包中时间信息的结构与设置. ---# ...

Python In Action:一、入门小例子

Python In Action这本书真是有点猛,一开头就来这么个例子: 1 import wx 2 class MyFrame(wx.Frame): 3 def __init__(self): 4 ...

CentOS如何挂载硬盘

远程SSH登录上CentOS服务器后,进行如下操作提醒:挂载操作会清空数据,请确认挂载盘无数据或者未使用第一步:列出所有磁盘命令: ll /dev/disk/by-path 提示:如果无法确 ...

myBatis 多对多

先说明一下需求: 在页面上显示数据库中的所有图书,显示图书的同时,显示出该图书所属的类别(这里一本书可能同时属于多个类别) 测试环境:MySQL.MyEclipse 创建表: 笔者这里使用中间表连 ...

Toolbar的使用

? 项目来源: https://github.com/xuwj/ToolbarDemo#userconsent# ? 一.V7包升级问题 ? 折腾好久,终于解决 <style name=&quo ...

实际操作中命令 su 与 sudo 的区别（转）

------------------------------------------------------------------------------------------------ 首先我 ...

344. Reverse String（C++）

344. Reverse String Write a function that takes a string as input and returns the string reversed. E ...

背包DP

背包九讲下载CSDN 背包九讲内容多重背包: hdu 2191 多重背包入门题使用将多重背包转化为完全背包与01背包求解: 对于w*num>= V这时就是完全背包,完全背包为何只与01背包在 ...

上周热点回顾（11.16-11.22）

热点随笔: · 北漂程序员的笑与泪(loonggg)· ASP.NET跨平台最佳实践(Apollo.NET)· 这个功能很简单,要做多久(五加乘)· 程序员的那些事儿 -- 高级程序员买衣服(GG20 ...

零散的知识点

最近做项目的时候,出现过一些以前没遇到的问题,基本上是解决了,为了加深记忆,把它们写到这里. 1)一般的评论框我们都会用textarea标签,在写完标签并运行之后,可以发现这个文本框右下角有个拖拽拉长 ...

nginx log_format

log_format caccess '$remote_addr-$remote_user [$time_local][$status][$host] "$request" &qu ...

EasyPR源码剖析（5）：车牌定位之偏斜扭转

一.简介通过颜色定位和Sobel算子定位可以计算出一个个的矩形区域,这些区域都是潜在车牌区域,但是在进行SVM判别是否是车牌之前,还需要进行一定的处理.主要是考虑到以下几个问题: 1.定位区域存在一 ...

Network (poj1144)

A Telephone Line Company (TLC) is establishing a new telephone cable network. They are connecting se ...

C#(ASP.NET)——Menu控件实现导航栏

一.打开aspx文件,从左边控件页面拖一个Menu控件和一个SiteMapDataSource控件. 设置Menu属性DataSourceID="SiteMapDataSource1&quo ...

[io benchmark]常用磁盘基准/压力测试工具

Unix Disk I/O Benchmarks fio - NEW! fio is an I/O tool meant to be used both for benchmark and stres ...

Java实验项目二——打印某年某月日历

Program:打印万年历(输入年份,月份,输出该月的日历,已知1900年1月1日是星期一), 要求: (1)编写一个方法判断闰年: (2)编写一个方法判断某年某月有多少天: (3)编写一个方法计算 ...

专题

随机推荐

© 2025 憋错料 | info#biecuoliao.com | 10 q. 0.024 s.