信息检索 1 背景知识

1 定义

本文信息检索属于广义上的信息检索。即把信息按一定方式组织起来,并根据信息用户的需求找出有关的信息的过程和技术。

2 感性认识

百度和google搜索就是一种信息检索技术。

我们平时使用百度和google的过程,就是输入关键词,然后会出现相关的页面。而这些页面通常是含有我们输入关键词的页面。那么这些页面是怎么排序呢?简单的来讲就是通过相关性来排序的。如图所示:

简述:

1 有一个大的静态的文档集合

2 有一个信息索取的要求,也即上文提到的搜索关键词

3 最终任务就是找到与关键词有关的文档

总结,如上图红色所标注,一个检索信息的系统关键在于四个部分

1 怎么去表达我们要去检索的信息,比如关键词?数字?图书编号?

2 怎么去表达这些文档,具体来讲就是我们怎么去索引整个文件,易知我们不可能每次搜索就去分析整个文档。假设有用过老版windows的朋友应该知道,每次在搜索框搜索文档的时候会提示是否要建立索引等就是这个原因。

3 怎么去比较文档和你搜索词是否匹配呢?比如你要搜本玄幻小说 你在百度上打上玄幻小说,那么爱情小说会出现么?爱情小说出现的话为什么在玄幻小说之后呢?这就是系统比较的一个评分系统或检索模型。系统会按照你的关键词对文档进行评分,评分高的自然出现在前面。我没有研究过seo,但是推测seo的基本应该也就是在这个评分系统上。

4 怎么去评价一个系统的好坏呢?对于某个关键词可能会出现某些文件,我们可能感性的对这个系统进行评价。但是我们人工去检测是非常低效的。而且不同人可能对不同的系统有不同的要求爱好。那么我们需要一种可以评价系统好坏的理论方式。

以上就是对一个信息检索系统的背景和引子。接下来的博文会深入到我们引出的各个具体问题。

时间: 2024-08-02 12:28:40

信息检索 1 背景知识的相关文章

word2vec 中的数学原理详解(三)背景知识

  word2vec 是 Google 于 2013 年开源推出的一个用于获取 word vector 的工具包,它简单.高效,因此引起了很多人的关注.由于 word2vec 的作者 Tomas Mikolov 在两篇相关的论文 [3,4] 中并没有谈及太多算法细节,因而在一定程度上增加了这个工具包的神秘感.一些按捺不住的人于是选择了通过解剖源代码的方式来一窥究竟,出于好奇,我也成为了他们中的一员.读完代码后,觉得收获颇多,整理成文,给有需要的朋友参考. 相关链接 (一)目录和前言 (二)预备知

Mozilla研究—深入理解mozilla所需的背景知识

mozilla是一个以浏览器为中心的软件平台,它在我们平台中占有重要地位.我们用它来实现WEB浏览器.WAP浏览器.邮件系统.电子书和帮助阅读器等应用程序.为此,我最近花了不少时间去阅读mozilla的代码和文档,我将写一系列的BLOG作为笔记,供有需要的朋友参考.本文介绍一下深入理解mozilla所需的背景知识. Mozilla非常庞大,据说有数百万行的代码.逐行理解所有代码是不可能的(也没有必要),不过要理解它的架构,以便充分利用它的功能是可能的.Mozilla涉及的技术比较多,如果不理解这

Multiple View Geometry [多视几何] - Part 0: 背景知识:射影几何,变换与估计

1. 2D射影几何与变换 这一章的内容主要在介绍一些基本的几何概念和几何符号,以便理解后文中的内容.更具体的来说,主要包含了平面射影变换的几何知识. 1.1 平面几何 平面几何是个非常简单的概念,无非是点,线,再就是点和线之间的关系. 1.2 2D射影平面(Projective plane) 众所周知,在平面上的一个点可以用他的2D坐标$(x,y)\in\mathbb{R}^2$来表示,如果$\mathbb{R}^2$是一个向量空间,那么坐标$(x,y)$就是一个向量. 行向量与列向量(Row

.NET同步与异步之相关背景知识(六)

在之前的五篇随笔中,已经介绍了.NET 类库中实现并行的常见方式及其基本用法,当然.这些基本用法远远不能覆盖所有,也只能作为一个引子出现在这里.以下是前五篇随笔的目录: .NET 同步与异步之封装成Task(五) .NET 实现并行的几种方式(四) .NET 实现并行的几种方式(三) .NET 实现并行的几种方式(二) .NET 实现并行的几种方式(一) 话再说回来,这五篇随笔都属于<同步与异步>系列.同步与异步.这是一个很大.很笼统的话题,以笔者所学很难将其将其介绍清楚,不过.笔者还是会尽力

windows系统背景知识学习笔记

前言 对于每天都要在windows平台上进行逆向工程任务的我们而言,稍微了解一些系统底层的机制与实现原理,用这些背景知识来武装自己总是好的. 调试器,反汇编器,加包,解包器,虚拟机,等等,无一不是运行在windows系统上, 甚至对内核调试器如SoftICE,WinDbg等工具的使用,也要求了解一些系统的内幕. 最近抽空在阅读<深入解析windows操作系统第6版上册>这本书,因此将其中与软件逆向有关的重点总结出来,部分内容加上了个人的理解进行润色,并非断章取义,而是去芜存菁. 笔记会不定期更

扫盲 HTTPS 和 SSL/TLS 协议[1]:背景知识、协议的需求、设计的难点

转自: https://program-think.blogspot.com/2014/11/https-ssl-tls-1.html 扫盲 HTTPS 和 SSL/TLS 协议[1]:背景知识.协议的需求.设计的难点 文章目录 ★相关背景知识★HTTPS 协议的需求是啥?★设计 HTTPS 协议的主要难点★结尾 ★相关背景知识 要说清楚 HTTPS 协议的实现原理,至少需要如下几个背景知识.1. 大致了解几个基本术语(HTTPS.SSL.TLS)的含义2. 大致了解 HTTP 和 TCP 的关

rhythmbox插件开发笔记2:背景知识学习 D-Bus&amp;VFS&amp;Gio&amp; Python GTK+ 3

这次主要简单介绍下相关的背景知识 D-Bus&VFS&Gio& Python GTK+ 3  D-Bus D-Bus是开源的进程通信(IPC)系统,它允许多个进程进行实时通信.D-Bus提供以下功能: 完成在同一个桌面会话下的多个桌面应用程序间的通信,将整个桌面会话联合成一个整体,并为进程分配生存期 完成桌面会话和操作系统的通信,其中的操作系统包括内核,守护进程和进程 http://en.wikipedia.org/wiki/D-bus 下面一张图解释了linux下图形编程的一切:

第17章 文本和字体_17.1-17.2 简单文本输出、 字体的背景知识

17.1 简单文本输出 17.1.1 文本输出函数 (1)TextOut(hdc,xStart,yStart,pString,iCount) ①xStart和yStart使用的是逻辑坐标,TextOut并不以NULL来做字符串的结束,需指定字符的个数iCount的值 ②SetTextAlign会改变xStart和yStart的含义 SetTextAlign 坐标值的含义 TA_LEFT xStart:第一个字符的左侧坐标 TA_RIGHT xStart:最后一个字符的右侧坐标 TA_CENTER

DRILLNET 2.0------第二十八章 背景知识

第二十八章 背景知识 <略>?