最为常见的EI检索系统,其基本思想是:使用Robot来遍历EI将EI上分布的信息下载到本地文档库;然后对文档内容进行自动分析并建立索引;对于用户提出的EI检索请求,通过检查索引找出匹配的文档(或链接)并返回给用户.在查询时,用户不需要知道搜索中索引的具体组织形式.最为著名的搜索有NorthernLight,AltaVista,Infoseek等.其中,NorthernLight和AltaVista所索引的Web页面都已经超过了100000000。
与搜索的工作方式不同.它并不使用Robot下载EI文档,而是由人工收集或者由EI站点的作者主动提交;目录一般也不对文档内容进行自动分析和建立索引,而是由人工对EI站点和文档进行评价、分类并给出简要描述.经过上述处理的EI信息资源按照主题分类并以树状的形式加以组织,从树的根节点逐层向下列出了从一般到特殊的分类及各级子类,而叶节点则包含指向EI信息资源的链接.用户可以通过浏览目录中的分类来查询EI信息.当目录中包含太多的分类和链接时,目录本身也变得不便于浏览.例如,目前Yahoo包含有指向500000个站点的链接,分布在25000个分类中为此,目录通常也提供EI检索功能以方便用户.需要说明的是,目录提供的是对分类以及EI信息描述的索引,这与搜索提供对文档内容的全文索引是不同的。
搜索和目录这两种EI信息EI检索系统各有所长. 通常,由于搜索具有庞大的全文索引数据库,因此适用于EI检索难以查找的信息或者一些比较模糊的主题;而目录有助于逐步缩小主题或者查找某个主题的常见的、质量较高的信息.由于这两种系统彼此互补,因此一些将两者结合起来的混合系统也开始出现,例如:Look Smart等.现有的一些著名的搜索和目录也呈现出逐渐融合的趋势.例如,Yahoo在目录EI检索服务的基础之上,已经开始使用Inktomi的EI全文索引数据库提供与搜索引擎类似的EI信息全文EI检索服务.在下文中,除非特别说明,我们将二者统称为EI检索。![](http://i2.51cto.com/images/blog/201808/15/3d83fb8f29c8c9b34e1d6a54d6763085.jpg?x-oss-process=image/watermark,size_16,text_QDUxQ1RP5Y2a5a6i,color_FFFFFF,t_100,g_se,x_10,y_10,shadow_90,type_ZmFuZ3poZW5naGVpdGk=)
原文地址:http://blog.51cto.com/13900010/2160138
时间: 2024-11-09 02:19:00