搜索引擎原理

在浩如烟海的Internet上,特别是其上的Web(World Wide Web万维网)上,不会搜索,就不会上网。网虫朋友们,你了解搜索引擎吗?它们是怎么工作的?你都使用哪些搜索引擎?今天我就和大家聊聊搜索引擎的话题。
一、搜索引擎的分类

  获得站点网页资料,能够建立数据库并提供查询的系统,我们都能够把它叫做搜索引擎。依照工作原理的不同,能够把它们分为两个基本类别:全文搜索引擎(FullText Search Engine)和分类文件夹Directory)。

  全文搜索引擎的数据库是依靠一个叫“网络机器人(Spider)”或叫“网络蜘蛛(crawlers)”的软件,通过网络上的各种链接自己主动获取大量网页信息内容,并按以定的规则分析整理形成的。Google、百度都是比較典型的全文搜索引擎系统。

  分类文件夹则是通过人工的方式收集整理站点资料形成数据库的,比方雅虎中国以及国内的搜狐、新浪、网易分类文件夹。另外,在网上的一些导航站点,也能够归属为原始的分类文件夹,比方“网址之家”(http://www.hao123.com/)。

  全文搜索引擎和分类文件夹在使用上各有长短。全文搜索引擎由于依靠软件进行,所以数据库的容量很庞大,可是,它的查询结果往往不够准确;分类文件夹依靠人工收集和整理站点,可以提供更为准确的查询结果,但收集的内容却很有限。为了取长补短,如今的许多搜索引擎,都同一时候提供这两类查询,一般对全文搜索引擎的查询称为搜索“所有站点”或“所有站点”,比方Google的全文搜索(http://www.google.com/intl/zh-CN/);把对分类文件夹的查询称为搜索“分类文件夹”或搜索“分类站点”,比方新浪搜索(http://dir.sina.com.cn/)和雅虎中国搜索(http://cn.search.yahoo.com/dirsrch/)。

  在网上,对这两类搜索引擎进行整合,还产生了其他的搜索服务,在这里,我们权且也把它们称作搜索引擎,主要有这两类:

  ⒈元搜索引擎(META Search Engine)。
  这类搜索引擎一般都没有自己网络机器人及数据库,它们的搜索结果是通过调用、控制和优化其他多个独立搜索引擎的搜索结果并以统一的格式在同一界面集中显示。元搜索引擎虽没有“网络机器人”或“网络蜘蛛”,也无独立的索引数据库,但在检索请求提交、检索接口代理和检索结果显示等方面,均有自己研发的特色元搜索技术。比方“metaFisher元搜索引擎”
http://www.hsfz.net/fish/),它就调用和整合了Google、Yahoo、AlltheWeb、百度和OpenFind等多家搜索引擎的数据。

  ⒉集成搜索引擎(All-in-One Search Page)。
  集成搜索引擎是通过网络技术,在一个网页上链接非常多个独立搜索引擎,查询时,点选或指定搜索引擎,一次输入,多个搜索引擎同一时候查询,搜索结果由各搜索引擎分别以不同页面显示,比方“网际瑞士军刀”(http://free.okey.net/%7Efree/search1.htm)。

二、搜索引擎的工作原理

  全文搜索引擎的“网络机器人”或“网络蜘蛛”是一种网络上的软件,它遍历Web空间,可以扫描一定IP地址范围内的站点,并沿着网络上的链接从一个网页到还有一个网页,从一个站点到还有一个站点採集网页资料。它为保证採集的资料最新,还会回訪已抓取过的网页。网络机器人或网络蜘蛛採集的网页,还要有其他程序进行分析,依据一定的相关度算法进行大量的计算建立网页索引,才干加入?到索引数据库中。我们平时看到的全文搜索引擎,实际上仅仅是一个搜索引擎系统的检索界面,当你输入关键词进行查询时,搜索引擎会从庞大的数据库中找到符合该关键词的全部相关网页的索引,并按一定的排名规则呈现给我们。不同的搜索引擎,网页索引数据库不同,排名规则也不尽同样,所以,当我们以同一关键词用不同的搜索引擎查询时,搜索结果也就不尽同样。

  和全文搜索引擎一样,分类文件夹的整个工作过程也相同分为收集信息、分析信息和查询信息三部分,仅仅只是分类文件夹的收集、分析信息两部分主要依靠人工完毕。分类文件夹一般都有专门的编辑人员,负责收集站点的信息。随着收录站点的增多,如今一般都是由站点管理者递交自己的站点信息给分类文件夹,然后由分类文件夹的编辑人员审核递交的站点,以决定是否收录该站点。假设该站点审核通过,分类文件夹的编辑人员还须要分析该站点的内容,并将该站点放在对应的类别和文件夹中。全部这些收录的站点相同被存放在一个“索引数据库”中。用户在查询信息时,能够选择依照关键词搜索,也可按分类文件夹逐层查找。如以关键词搜索,返回的结果跟全文搜索引擎一样,也是依据信息关联程度排列站点。须要注意的是,分类文件夹的关键词查询仅仅能在站点的名称、网址、简单介绍等内容中进行,它的查询结果也仅仅是被收录站点首页的URL地址,而不是具体的页面。分类文件夹就像一个电话号码薄一样,依照各个站点的性质,把其网址分门别类排在一起,大类以下套着小类,一直到各个站点的具体地址,一般还会提供各个站点的内容简单介绍,用户不使用关键词也可进行查询,仅仅要找到相关文件夹,就全然能够找到相关的站点(注意:是相关的站点,而不是这个站点上某个网页的内容,某一文件夹中站点的排名通常是依照标题字母的先后顺序或者收录的时间顺序决定的)。

三、搜索引擎的发展趋势。

  一个好的搜索引擎,不仅数据库容量要大,更新频率、检索速度要快,支持对多语言的搜索,并且随着数据库容量的不断膨胀,还要能从庞大的资料库中精确地找到正确的资料。

  ⒈提高搜索引擎对用户检索提问的理解。
  为了提高搜索引擎对用户检索提问的理解,就必须有一个好的检索提问语言。为了克服关键词检索和文件夹查询的缺点,如今已经出现了自然语言智能答询。用户能够输入简单的疑问句,比方“如何能杀死计算机中的病毒”,搜索引擎在对提问进行结构和内容的分析之后,或直接给出提问的答案,或引导用户从几个可选择的问题中进行再选择。自然语言的优势在于,一是使网络交流更加人性化,二是使查询变得更加方便、直接、有效。就以上面的样例来讲,假设用关键词查询,多半人会用“病毒”这个词来检索,结果中必定会包含各类病毒的介绍,病毒是如何产生的等等很多无用信息,而用“如何能杀死计算机中的病毒”检索,搜索引擎会将如何杀死病毒的信息提供给用户,提高了检索效率。

  ⒉垂直主题搜索引擎有着极大的发展空间。
  网上的信息浩如烟海,网络资源以惊人的速度增长,一个搜索引擎非常难收集全全部主题的网络信息,即使信息主题收集得比較全面,因为主题范围太宽,非常难将各主题都做得精确而又专业,使得检索结果垃圾太多。这样以来,垂直主题的搜索引擎以其高度的目标化和专业化在各类搜索引擎中占领了一席之地。眼下,一些基本的搜索引擎,都提供了新闻、Mp3、图片、Flash等的搜索,加强了检索的针对性。

  ⒊元搜索引擎,可以提供全面且较为准确的查询结果。
  如今的很多搜索引擎,其收集信息的范围、索引方法、排名规则等都各不同样,每个搜索引擎平均仅仅能涉及到整个Web资源的30-50%,这样导致同一个搜索请求在不同搜索引擎中获得的查询结果的反复率不足34%,而每个搜索引擎的查准率不到45%。元搜索引擎(META Search Engine)是将用户提交的检索请求发送到多个独立的搜索引擎上去搜索,并将检索结果集中统一处理,以统一的格式提供给用户,因此有搜索引擎之上的搜索引擎之称。它的主要精力放在提高搜索速度、智能化处理搜索结果、个性化搜索功能的设置和用户检索界面的友好性上,查全率和查准率都比較高。

四、基本的搜索引擎介绍

  这里介绍的是在国内外影响比較大的基本的一些搜索引擎和分类文件夹网站,因为如今的网站一般都同一时候提供全文搜索和分类文件夹两种服务,所以我们依照其自有的技术进行分类和介绍。

  ㈠基本的全文搜索引擎

  ⒈Google(http://www.google.com/)。Google成立于1997年,几年间迅速发展成为世界范围内规模最大的搜索引擎。Google数据库现存有42.8亿个Web文件,每天处理的搜索请求已达2亿次,并且这一数字还在不断增长。Google借用Dmoz(http://dmoz.org/)的分类文件夹提供“网页文件夹”查询(http://www.google.com/dirhp?hl=zh-CN&tab=wd&ie=UTF-8&oe=UTF-8&q=),但默认站点排列顺序并不是依照字母顺序,而是依据站点PageRank的分值高低排列。

  ⒉百度(http://www.baidu.com/)。百度是国内最早的商业化(早期为其他门户站点提供搜索服务,如今的竞价排名更是日进斗金)全文搜索引擎,拥有自己的网络机器人和索引数据库,专注于中文的搜索引擎市场,除有网页搜索外,百度还有新闻、MP3、图片等搜索,并在2003年底推出“贴吧”、按地域搜索等功能。

  ⒊中国搜索(http://www.huicong.com/)。中国搜索的前身是慧聪搜索,原慧聪搜索在联合中国网等30多家知名站点的基础上,2002年9月25日,正式组建了中国搜索联盟,经过一年多的发展,联盟成员就已达630多家,成为中国互联网一支重要的力量。因为发展迅速,慧聪集团借上市之机,将慧聪搜索更名为中国搜索,全力发展其在搜索引擎方面的业务,以打造中文搜索领域的全新品牌。

  ㈡主要分类文件夹

  ⒈雅虎中国分类文件夹(http://cn.yahoo.com/)。雅虎中国的分类文件夹是最早的分类文件夹,现有14个主类目,包含“商业与经济”、“艺术与人文”等,能够逐层进入进行检索,也能够利用关键词对“分类站点”进行搜索(http://m6.search.cnb.yahoo.com/dirsrch/)。此外,雅虎中国也能够对“全部站点”进行关键词搜索(http://cn.search.yahoo.com/websrch/),早期,他的搜索结果使用Google的数据,2004年2月正式推出自己的全文搜索引擎,并结束了与Google的合作。

  ⒉新浪分类文件夹(http://dir.sina.com.cn/)。新浪的分类文件夹眼下共同拥有18个大类目,用户可按文件夹逐级向下浏览,直到找到所需站点。就好像用户到图书馆找书一样,依照类别大小,层层查找,终于找到须要的站点或内容。通过和其他全文搜索引擎的合作,如今,也能够使用关键词对新浪的“分类站点”或“所有站点”进行搜索。

  ⒊搜狐分类文件夹(http://dir.sohu.com/)。搜狐分类文件夹把站点作为收录对象,详细的方法就是将每一个站点首页的URL地址提供给搜索用户,而且将站点的题名和整个站点的内容简单描写叙述一下,可是并不揭示站点中每一个网页的信息内容。除此之外,也能够使用关键词对搜狐的“分类文件夹”或全部站点进行搜索。

  ⒋网易分类文件夹(http://search.163.com/)。网易的分类文件夹採用“开放式文件夹”管理方式,在功能齐全的分布式编辑和管理系统的支持下,现有5000多位各界专业人士參与可浏览分类文件夹的编辑工作,极大地适应了互联网信息爆炸式增长的趋势。在加强与其他搜索引擎合作的基础上,新版搜索引擎支持使用关键词对全部站点进行检索。

搜索引擎原理,布布扣,bubuko.com

时间: 2024-12-18 19:03:44

搜索引擎原理的相关文章

搜索引擎原理之链接原理的简单分析

在google诞生以前,传统搜索引擎主要依靠页面内容中的关键词匹配搜索词进行排名.这种排名方式的短处现在看来显而易见,那就是很容易被刻意操纵.黑帽SEO在页面上推挤关键词,或加入与主题无关的热门关键词,都能提高排名,使搜索引擎排名结果质量大为下降.现在的搜索引擎都使用链接分析技术减少垃圾,提高用户体验.下面泡馆史明星就来简单的介绍链接在搜索引擎排名中的应用原理. 在排名中计入链接因素,不仅有助于减少垃圾,提高结果相关性,也使传统关键词匹配无法排名的文件能够被处理.比如图片.视频无法进行关键词匹配

搜索引擎原理和简单过程【转】

搜索引擎原理 原文链接:http://www.cnblogs.com/seaspring/ 1.1 常用的非结构化数据检索方法 按照上节所说,搜索引擎主要处理的是非结构化数据,故名思议,非结构化数据的特点就是没有固定的结构,这也正是处理比较困难的原因:结构化数据可以通过数据库等方式处理.非结构化数据如何处理,据说有两种方法: 一种是顺序搜索,比如在linux下用grep方式来搜索包含特定字符串的文档,这在文档数量少的时候比较有效. 二种是全文检索,它是通过对非结构化数据进行结构化转化,对非结构化

搜索引擎原理与实践

编辑 随着搜索引擎技术的发展和不断完善,越来越多的人开始对搜索引擎原理和技术进行研究,越来越多的人喜欢上了搜索引擎,<搜索引擎原理与实践>一书,从教学的角度出发,全面地阐述了搜索引擎的原理和实践,包括搜索引擎的基本原理与技术.搜索引擎的数据结柳搜索引擎的爬虫.多媒体信息检索技术以及搜索引擎开发技术.该书适合高等院校计算机科学与技术专业及相关专业的高年级学生和研究生阅读参考,也适合相关领域的工程技术人员参阅. 书    名 搜索引擎原理与实践 作    者 袁津生.李群.蔡岳 ISBN 7563

Python分布式爬虫、信息检索、搜索引擎原理及应用视频教程

38套大数据,云计算,架构,数据分析师,Hadoop,Spark,Storm,Kafka,人工智能,机器学习,深度学习,项目实战视频教程 视频课程包含: 38套大数据和人工智能精品高级课包含:大数据,云计算,架构,数据挖掘实战,实时推荐系统实战,电视收视率项目实战,实时流统计项目实战,离线电商分析项目实战,Spark大型项目实战用户分析,智能客户系统项目实战,Linux基础,Hadoop,Spark,Storm,Docker,Mapreduce,Kafka,Flume,OpenStack,Hiv

[SE0]简单的搜索引擎原理

1.简单了解搜索引擎收录的原理  包括baidu. google .yahoo 在内的各大搜索引擎在内基本上搜录网站的原理大致相同(除了国内某些网站 网1新 l 等采取人工登记的办法),搜索引擎都是采用自己的算法在网络上遍历搜索,一般靠有效的连接和网页的跳转访问地址,同时也登记网站的<title>和<meta>,并对一部分关键字进行屏蔽.遍历的结果也要进行筛选,重复的网址和不可靠的<title>甚至网页内容会被删除.并定时更新搜索引擎的数据. 百度: http://ww

搜索引擎原理:数据预处理

http://passport.baidu.com/?business&un=%E6%9C%89%E8%8D%A5%E9%98%B3%E7%BE%8E%E5%A5%B3%E5%8C%85%E5%A4%9C#0 http://passport.baidu.com/?business&un=%E6%9E%97%E5%B7%9E%E6%9C%89%E5%B0%8F%E5%A6%B9%E6%8C%89%E6%91%A9#0 http://passport.baidu.com/?business&a

浅谈搜索引擎原理

http://t.qq.com/nanjingxia7551 http://t.qq.com/p/t/466214001064098 http://t.qq.com/lishuixiaojiebao http://t.qq.com/p/t/441720100016863 http://t.qq.com/wuxixiaojiebaoye http://t.qq.com/p/t/457708060557722 http://t.qq.com/jiangyinxi1705 http://t.qq.co

osc搜索引擎框架search-framework,TngouDB,gso,

项目目的:OSChina 实现全文搜索的简单封装框架 License: Public Domain 包含内容: 重建索引工具 -> IndexRebuilder.java 增量构建索引工具 -> IndexUpdater.java 全文搜索框架 http://git.oschina.net/oschina/search-framework TngouDB 背景 TngouDB是天狗网(tngou.net)开发的中文搜索引擎数据库,用于天狗农业网的农业搜索引擎. 天狗希望基于开源的力量,把Tng

自己动手做简易搜索引擎

搜索引擎是指根据一定的策略.运用特定的计算机程序从互联网上搜集信息,在对信息进行组织和处理后,为用户提供检索服务,将用户检索相关的信息展示给用户的系统.搜索引擎包括全文索引.目录索引.元搜索引擎.垂直搜索引擎.集合式搜索引擎.门户搜索引擎与免费链接列表等.百度和谷歌等是搜索引擎的代表. 如今网络的发展让我们的生活变得越来越丰富,但也带来了很多不便,要在偌大的网海中寻找我们需要的资料和数据,那简直就是一场灾难,更多的是无从下手.正如我们无法很快甚至无法从一个大型商场中找到我们想要的东东一样.(截止