信息检索导论 第二章 阅读笔记

1. 词条化是将给定的字符序列拆分成一系列子序列的过程,其中每个子序列称为一个词条(token)。在这个过程中,可能会同时去掉一些特殊字符,如标点符号等。

输入:Friends, Romans, Countrymen, lend me your ears;

输出:Friends Romans Countrymen lend me your ears (其中每个单词被称为一个词条)

2. 词条、词条类与词项

词条:在文档中出现的字符序列的一个实例;

词条类:相同词条构成的集合;

词项:在信息检索系统词典中所包含的某个可能经过归一化处理的词条类。词项不一定是原始的词条,在实际中,它往往要通过对原始词条进行归一化来得到。

3. 分词(word segmentation):对于一些主要的东亚语言(如汉语、日语、韩语和泰语等),词与词之间并不存在空格,因此必须对这些语言的字符序列先进行分词。

分词的方法包括基于词典的最大匹配法(采用启发式规则来进行未定义词识别)和基于机器学习序列模型的方法(如隐马尔科夫模型或条件随机场模型)等,后者需要

在手工切分好的语料上进行训练。另一个解决方法则摒弃了基于词的索引策略而采用短字符序列的方法(如字符的k-gram方法)。

4. 停用词(stop word):一些常用词在文档和用户需求进行匹配时价值并不大,需要彻底从词汇表中去除,这些词称为停用词。一个常用的生成停用词表的方法就是将

词项按照文档集频率从高到低排列,然后手工选择那些语义内容与文档主题关系不大的高频词作为停用词。停用词表中的每个词将在索引过程中被忽略。使用停用词表,

可以大大减小系统所需要存储的倒排记录表的数目。但是,停用词表会对短语的搜索造成影响。在信息检索系统不断发展的历程中,有从大停用词表(200-300个词)到

小停用词表(7-12个词)最后到不用停用词的趋势。

5. 词条归一化(token normalization):将看起来不完全一致的多个词条归纳成一个等价类,以便在它们之间进行匹配的过程。

最常规的做法是隐式地建立等价类,比如在文档和查询中,都把词条anti-discriminatory和antidiscriminatory映射成词项antidiscriminatory,这样对两个词中的

任一个进行搜索,都会返回包含其中任一词的文档。另一种建立等价类的方法是维持多个非归一化词条之间的关联关系。该方法可以扩展成手工建立同义词词表,比如car

和automobile就是同义词。

6. 出于语法上的要求,文档中常常会使用词的不同形态,语言中也存在大量意义相近的同源词。在很多情况下,如果输入其中一个词能返回包含其同源词的文档,那么这

样的搜索似乎非常有用。因此,可以进行词干还原和词形归并,减少屈折变化的形式,将派生词转化为基本形式。

7. 很多复杂的或技术性的概念、机构名和产品名等都是由多个词语组成的复合词或短语。因此,需要支持短语查询。可以考虑使用二元词索引、位置信息索引或者混合索

引机制。

时间: 2024-08-09 21:52:19

信息检索导论 第二章 阅读笔记的相关文章

《大道至简》第二章阅读笔记

<大道至简>这本书在第二章中的主要内容是“懒人创造方法”!因为一个勤勤恳恳.老实工作的人是不太可能会懂得创新的,因为他只知道认真仔细的工作,一点一滴.一丝不苟.按部就班的按照上司交给他的内容,因为他认真负责,不容许自己出现一点纰漏.而懒人则不一样了,因为工作量庞大,所以他们自己因为懒惰而各种寻找方法,从而减轻自己的工作量,动脑筋让自己的实际工作量减到最小,而这时就需要开动脑筋,让自己想出一个可行的办法,从而实现自己的目的. 在这本书的第二章开头,还是延续了这本书的惯例,用一个寓言小故事来引入本

《番茄工作法图解》第二章阅读笔记

<番茄工作法图解>第二章 背景 通过执行一套相同的动作和准备程序,可以使大脑自我调整,进入执行某类事务的最佳状态. 多巴胺神经递质的职责之一是保持人的警觉性.一种理论解释为什么有些人常常多动,是因为大脑要弥补多巴胺产量的不足,从而增加了肾上腺素的产生. 要让注意力处于最佳状态,需要在半小时之间进行短暂休息,每周安排不超过40小时的工作计划.我的经验告诉我,采取可持续的步伐,是工作卓有成效的前提. 在短期记忆中信息通畅以声音形势存储.与此相对,在长期记忆中信息通常以语义形势存储.延迟回忆更容易记

软件工程概论第二章阅读笔记

在这一章当中,我了解到了软件生存期的几个模型. 首先是瀑布模型.其优点有:1 可强迫开发人员采用规范化的方法 2 严格规定了每个阶段必须提交的文档 3 要求每个阶段交出的产品都必须是经过验证的.其缺点有:1 最终产品可能与客户要求不符 2 该模型只是用于项目开始时需求已知的情况.在瀑布模型的基础上,还发展出了v模型,其将设计与测试有机的结合在了一起. 其次是快速原型模型.其优点有:1 满足客户真实需求 2 规格说明文档能正确的描述客户需求 3 产品开发基本上按照线性顺序进行 4 开发过程后续中不

补基础:自学:计算机科学导论 第二章 数字系统

2.2 位置化数字系统 在数字中符号所占据的位置决定了其表示的值.在该系统中,数字这样表示: +-(Sk-1  --S2S1S0 --S-l)b 它的值是: n = +-(Sk-1 * bk-1 + -- + S1 * b 1 + S0 * b0 + S-1 * b-1 + -- + S-l * b-l) S是一套符号集,:b是底(或基数),它等于S符号集中的符号总数. 2.2.1 十进制系统(以10为底) 十进制(decimal)来源于拉丁词根decem. 在该系统中,底b = 10, 并且用

算法导论 第二章

2014-12-02 20:21:40 http://www.cnblogs.com/sungoshawk/p/3617652.html 上面链接指向算法导论第二章的预习博客,很值得一看,很详细. 插入算法: 1 #include <iostream> 2 3 using namespace std; 4 void insert_sort(int *datas, int length); 5 int main() 6 { 7 int a[10]={1,2,4,35,6,1,4,7,9,7};

Android深度探索——第二章读书笔记及心得

Android开发环境搭建 ——第二章读书笔记及心得 通过本章的学习了解了如何对Ubuntu Linux下的Android进行搭建,包括搭建Android应用程序开发环境.Android NDK开发环境和交叉编译环境的搭建.了解了搭建Android环境所需要的各种东西,了解了配置ADT的必要性—以便ADT能够找到Android SDK.知道了底层开发所需要的各种工具.学会了如何在Ubuntu下安装JDK.以及编译交叉编译环境,当初在学习Linux交叉环境编译的时候就不是特别成功,中间出了很多的错

《HeadFirst Python》第二章学习笔记

现在,请跟着舍得的脚步,打开<HeadFirst Python>第二章. 一章的内容其实没有多少,多练习几次就能掌握一个大概了! <HeadFirst Python>的第二章设计得很有意思.它直接从制作一个模块入手,顺带讲了模块的导入,传统的书可不会这么搞. 不过书中关于编辑器的观点略显陈旧. 最好的编辑器是什么? 别用书中推荐的Python自带IDLE,在现阶段,请使用Jupyter Notebook来进行各项练习. 等学完这本书后,你可以选择PyCharm/Eric6/Wing

Python核心编程第三版第二章学习笔记

第二章 网络编程 1.学习笔记 2.课后习题 答案是按照自己理解和查阅资料来的,不保证正确性.如由错误欢迎指出,谢谢 1. 套接字:A network socket is an endpoint of a connection across a computer network,Sockets are often represented internally as simple integers, which identify which connection to use. 套接字是网络通信的

Machine Learning In Action 第二章学习笔记: kNN算法

本文主要记录<Machine Learning In Action>中第二章的内容.书中以两个具体实例来介绍kNN(k nearest neighbors),分别是: 约会对象预测 手写数字识别 通过“约会对象”功能,基本能够了解到kNN算法的工作原理.“手写数字识别”与“约会对象预测”使用完全一样的算法代码,仅仅是数据集有变化. 约会对象预测 1 约会对象预测功能需求 主人公“张三”喜欢结交新朋友.“系统A”上面注册了很多类似于“张三”的用户,大家都想结交心朋友.“张三”最开始通过自己筛选的