布尔检索

布尔检索是在倒排索引结构下进行的,下面举个例子说明一下什么是布尔检索。

假设有一个倒排文件,如下图所示:

现在要检索的word为 word1 和word3,以布尔  与  运算为例,就是对word1 与word3的检索结果  与  一下,也就是说只有两个word的倒排表中都有的文档编号才会被检索到。

word1 & word3 ,那么检索的结果就是 doc4 和doc6。

当然还可以是进行布尔 或 运算,也就是只要在 word1 和 word3 的倒排表中出现的文档编号,就会被检索到。

word1 | word3 ,那么检索结果是 doc1,doc3,doc4,doc6,doc7,doc8。

与运算检索的话,正确率比较高,但是召回率低。或运算检索的话,正确率比较低,但是召回率高。

时间: 2024-11-03 21:35:06

布尔检索的相关文章

搜索引擎概述之布尔检索

阅读本篇文章首先要对"词汇文档矩阵"和"倒排索引"有个基本的认识,要了解相关的知识可以阅读上一篇文章:搜索引擎概述之倒排索引索引. 布尔检索是最基础,也是使用最广泛的信息检索模型了.所谓布尔查询就是通过AND.OR.NOT等逻辑操作符将检索词连接起来的查询.比如: 李白 AND (杜甫 OR 白居易) NOT 苏轼 那么,布尔检索时如何利用倒排索引进行查询的呢?我们还是先从词汇文档矩阵说起吧~ 从词汇文档矩阵说起 我们先假设我们有一个词汇文档矩阵,如下所示: 当我进

文本分析与检索

主要内容: 1.文本表示与特征提取: 2.隐语义分析LSA和Latent Dirichlet Allocation(LDA) 3.检索模型:Boolean模型.向量模型.概率模型 1.文本表示与特征提取 文本中抽取出的特征词进行量化来表示文本信息: 利用分词工具:极易中文分词:je-analysis-1.5.3,庖丁分词:paoding-analyzer.jar, IKAnalyzer3.0, imdict-chinese-analyzer, ictclas4j 目前通常采用向量空间模型来描述文

科技文献检索(八)——检索技术

1.布尔检索 Boolean 用布尔逻辑算符来规定检索词之间的逻辑关系的一种检索技术 种类:逻辑与(AND.*).逻辑或(OR.+).逻辑非(NOT.-) ☆广泛应用于搜索引擎和数据库 (1)逻辑“与”——and:* 用于概念交叉和限定.起缩小检索范围和提高文献查准率的作用 例如:查有关“大学生信息素养”方面的文章 大学生 and 信息素养 大学生*信息素养 (2)逻辑“或”——or:+:| 用于概念并列和补充.可扩大检索范围,提高查全率. 例如:检索“未成年人”方面的文献 未成年人 or 儿童

Lucene 4.X 全套教程

http://www.cnblogs.com/forfuture1978/category/300665.html Lucene 4.X 倒排索引原理与实现: (3) Term Dictionary和Index文件 (FST详细解析) 摘要: 我们来看最复杂的部分,就是Term Dictionary和Term Index文件,Term Dictionary文件的后缀名为tim,Term Index文件的后缀名是tip,格式如图所示.Term Dictionary文件首先是一个Header,接下来

工欲善其事必先利其器之搜索引擎

众所周知,搜索引擎在我们生活里面是离不开的,特别是对一个程序员来说能够好好的利用好这个资源可以使我们的做事的效率提高很多,,达到事倍功半的效果!今天我们就来看一看如何优雅的使用搜索引擎!     1.简单查询.在搜索引擎中输入关键词,然后点击“搜索”就行了,系统很快会返回查询结果,这是最简单的查询方法,使用方便,但是查询的结果却不准确,可能包含着许多无用的信息. 2. 使用双引号用(" ").给要查询的关键词加上双引号(半角,以下要加的其它符号同此),可以实现精确的查询,这种方法要求查

MySQL全文检索

一.概述 MySQL全文检索是利用查询关键字和查询列内容之间的相关度进行检索,可以利用全文索引来提高匹配的速度. 二.语法 MATCH (col1,col2,...) AGAINST (expr [search_modifier]) search_modifier: { IN BOOLEAN MODE | WITH QUERY EXPANSION } 例如: SELECT * FROM tab_name WHERE MATCH ('列名1,列名2...列名n') AGAINST('词1 词2 词

Atitit.数据检索与网络爬虫与数据采集的原理概论

1. 信息检索1 1.1. <信息检索导论>((美)曼宁...)[简介_书评_在线阅读] - dangdang.html1 1.2. <现代信息检索(原书第2版)(由信息检索领域的代表人物撰写,及时掌握现代信息检索关键主题的详细知识)>((智)贝泽耶茨...)2 2. 网络爬虫2 2.1. 第8章 web爬取1993 2.2. <用Python写网络爬虫>([澳]理查德...)3 3. 数据采集4 3.1. <Python网络数据采集>(...)[简介_书评

搜索引擎原理与实践

编辑 随着搜索引擎技术的发展和不断完善,越来越多的人开始对搜索引擎原理和技术进行研究,越来越多的人喜欢上了搜索引擎,<搜索引擎原理与实践>一书,从教学的角度出发,全面地阐述了搜索引擎的原理和实践,包括搜索引擎的基本原理与技术.搜索引擎的数据结柳搜索引擎的爬虫.多媒体信息检索技术以及搜索引擎开发技术.该书适合高等院校计算机科学与技术专业及相关专业的高年级学生和研究生阅读参考,也适合相关领域的工程技术人员参阅. 书    名 搜索引擎原理与实践 作    者 袁津生.李群.蔡岳 ISBN 7563

MySQL中文全文检索

一.概述 MySQL全文检索是利用查询关键字和查询列内容之间的相关度进行检索,可以利用全文索引来提高匹配的速度. 二.语法 1 2 MATCH (col1,col2,...) AGAINST (expr [search_modifier]) search_modifier: { IN BOOLEAN MODE | WITH QUERY EXPANSION } 例如:SELECT * FROM tab_name WHERE MATCH ('列名1,列名2...列名n') AGAINST('词1 词