搜索引擎架构

  搜索引擎获取并存储海量的网页相关信息,不需要实时计算,可看做搜索引擎的后台计算系统。搜索引擎的最重要目的是为用户提供准确全面的搜索结果。

  当搜索引擎接收到用户的查询词后,首先需要对查询词进行分析,希望能够结合查询词和用户信息来正确推导用户的真正搜索结果,如果能够在缓存系统找到满足用户需求的信息,则可以直接将搜索结果返回给用户,如果缓存信息无法满足用户需求,搜索引擎需要调用“网页排序”模块功能,根据用户的查询实时计算哪些网页是满足用户信息需求的,并排序输出作为搜索结果。而网页排序最重要的两个参考因素中,一个是内容相似性因素,即哪些网页是和用户查询密切相关的;另一个是网页的重要性因素,即哪些网页是质量较好或者相对重要的,这点往往可以从链接分析的结果获取。结合以上两个考虑因素,就可以对网页进行排序,作为用户查询的搜索结果。

参考:《这就是搜索引擎:核心技术详解》.张俊林.pdf 第一章

原文地址:https://www.cnblogs.com/TheoryDance/p/8446743.html

时间: 2024-10-13 20:20:09

搜索引擎架构的相关文章

亿级数据的高并发通用搜索引擎架构设计(转-张宴)

[文章作者:张宴 本文版本:v1.0 最后修改:2008.12.09 转载请注明原文链接:http://blog.zyan.cc/post/385/] 曾经在七月,写过一篇文章──<基于Sphinx+MySQL的千万级数据全文检索(搜索引擎)架构设计>, 前公司的分类信息搜索基于此架构,效果明显,甚至将很大一部分带Where条件的MySQL SQL查询,都改用了Sphinx+MySQL搜索.但是,这套架构仍存在局限:一是MySQL本身的并发能力有限,在200-300个并发连接下,查询 和更新就

购物搜索引擎架构的变与不变

购物搜索具有更丰富的数据信息.更多样的排序规则和更专业的搜索需求.快速多变的聚合.排序.多样性需求,使引擎架构变更频繁,更趋定制化.专业的搜索领域,使购物搜索需要部署更多集群,加大了引擎的管理和运维难度.如何在快速需求变更中保持引擎架构的独立和稳定,如何有效运维大量引擎集群,一淘网在搜索架构上又经历了怎样的变化.与您一起分享. 原文地址:http://www.infoq.com/cn/presentations/shopping-search-engine-framework-variable

搜索引擎的技术架构

文章转自:http://blog.csdn.net/hguisu/article/details/7955985 1. 搜索引擎的分类 搜索引擎按其工作方式主要可分为三种: 分别是全文搜索引擎(Full Text Search Engine) 目录索引类搜索引擎(Search Index/Directory) 元搜索引擎(Meta Search Engine). ■ 全文搜索引擎 全文搜索引擎是名副其实的搜索引擎,国外具代表性的有Google.Fast/AllTheWeb.AltaVista.I

搜索引擎分类和基础架构概述

搜索引擎的标准定义:搜索引擎(Search Engine)是指根据一定的策略.运用特定的计算机程序从互联网上搜集信息,在对信息进行组织和处理后,为用户提供检索服务,将用户检索相关的信息展示给用户的系统.从上述定义中我们可以获得几个有关搜索引擎的关键步骤,分别为:搜集信息:组织和处理信息:展示信息. 1. 搜索引擎分类 1)全文搜索引擎 全文搜索引擎是从网站提取信息从而构建网页数据库的. 全文搜索引擎的是如何搜集网站的呢?其实这里一般有两种方法: 1> 搜索引擎定期派出网络爬虫(也成为是蜘蛛或者机

[Search Engine] 搜索引擎技术之网络爬虫

随着互联网的大力发展,互联网称为信息的主要载体,而如何在互联网中搜集信息是互联网领域面临的一大挑战.网络爬虫技术是什么?其实网络爬虫技术就是指的网络数据的抓取,因为在网络中抓取数据是具有关联性的抓取,它就像是一只蜘蛛一样在互联网中爬来爬去,所以我们很形象地将其称为是网络爬虫技术.其中网络爬虫也被称为是网络机器人或者是网络追逐者. 网络爬虫技术是搜索引擎架构中最为根本的数据技术,通过网络爬虫技术,我们可以将互联网中数以百亿计的网页信息保存到本地,形成一个镜像文件,为整个搜索引擎提供数据支撑. 1.

搜索引擎和知识图谱那些事 (上).基础篇

这是一篇基础性文章,主要介绍搜索引擎和知识图谱的一些原理.发展经历和应用等知识.希望文章对你有所帮助~如果有错误或不足之处,还请海涵.(参考资料见后) 一. 搜索引擎 (一).搜索引擎的四个时代 根据张俊林大神的<这就是搜索引擎>这本书中描述(推荐大家阅读),搜索引擎从采取的技术划分为4个时代: 1.史前时代:分类目录的一代 这个时代成为"导航时代",Yahoo和国内hao123是这个时代的代表.通过人工搜集整理,把属于各个类别的高质量网站或网页分类,用户通过分级目录来查找

达观数据搜索引擎排序实践

前言 随着互联网的深入发展,人类已然进入大数据时代.如何在浩瀚的数据海洋里高速有效的获取有价值的信息,正是促使大数据技术具备走向众多企业的潜力.搜索引擎作为获取信息的有效入口,已然经历了20多年的发展,并一直试图理解用户搜索意图以及提升搜索的精准性. Google是全球性的搜索引擎,看似简单的搜索框背后隐藏的是极其复杂的系统架构和搜索算法,其中排序(以下统称Ranking)的架构和算法更是关键部分.Google正是通过PageRank算法深刻改变搜索排序而一举击败众多竞争对手. Ranking是

天猫11.11:搜索引擎实时秒级更新

搜索是很多用户在天猫购物时的第一入口,搜索结果会根据销量.库存.人气对商品进行排序,而商品的显示顺序往往会决定用户的选择,所以保证搜索结果的实时性和准确性非常重要.在电商系统中,特别是在“双十一”这样的高并发场景下,如何准确展示搜索结果显得尤为重要.在今年的“双十一”活动中,InfoQ有幸采访到了阿里巴巴集团搜索引擎的三位负责人仁基.桂南和悾傅,与他们共同探讨了搜索引擎背后的细节.以下内容根据本次采访整理而成. 阿里巴巴的搜索引擎承担着全集团的搜索业务,包括淘宝.天猫.1688等系统,对比传统的

[转]天猫11.11:搜索引擎实时秒级更新

搜索是很多用户在天猫购物时的第一入口,搜索结果会根据销量.库存.人气对商品进行排序,而商品的显示顺序往往会决定用户的选择,所以保证搜索结果的实时性和准确性非常重要.在电商系统中,特别是在“双十一”这样的高并发场景下,如何准确展示搜索结果显得尤为重要.在今年的“双十一”活动中,InfoQ有幸采访到了阿里巴巴集团搜索引擎的三位负责人仁基.桂南和悾傅,与他们共同探讨了搜索引擎背后的细节.以下内容根据本次采访整理而成. 阿里巴巴的搜索引擎承担着全集团的搜索业务,包括淘宝.天猫.1688等系统,对比传统的