1 定义
本文信息检索属于广义上的信息检索。即把信息按一定方式组织起来,并根据信息用户的需求找出有关的信息的过程和技术。
2 感性认识
百度和google搜索就是一种信息检索技术。
我们平时使用百度和google的过程,就是输入关键词,然后会出现相关的页面。而这些页面通常是含有我们输入关键词的页面。那么这些页面是怎么排序呢?简单的来讲就是通过相关性来排序的。如图所示:
简述:
1 有一个大的静态的文档集合
2 有一个信息索取的要求,也即上文提到的搜索关键词
3 最终任务就是找到与关键词有关的文档
总结,如上图红色所标注,一个检索信息的系统关键在于四个部分
1 怎么去表达我们要去检索的信息,比如关键词?数字?图书编号?
2 怎么去表达这些文档,具体来讲就是我们怎么去索引整个文件,易知我们不可能每次搜索就去分析整个文档。假设有用过老版windows的朋友应该知道,每次在搜索框搜索文档的时候会提示是否要建立索引等就是这个原因。
3 怎么去比较文档和你搜索词是否匹配呢?比如你要搜本玄幻小说 你在百度上打上玄幻小说,那么爱情小说会出现么?爱情小说出现的话为什么在玄幻小说之后呢?这就是系统比较的一个评分系统或检索模型。系统会按照你的关键词对文档进行评分,评分高的自然出现在前面。我没有研究过seo,但是推测seo的基本应该也就是在这个评分系统上。
4 怎么去评价一个系统的好坏呢?对于某个关键词可能会出现某些文件,我们可能感性的对这个系统进行评价。但是我们人工去检测是非常低效的。而且不同人可能对不同的系统有不同的要求爱好。那么我们需要一种可以评价系统好坏的理论方式。
以上就是对一个信息检索系统的背景和引子。接下来的博文会深入到我们引出的各个具体问题。
时间: 2024-10-12 16:54:06