购物搜索引擎架构的变与不变

购物搜索具有更丰富的数据信息、更多样的排序规则和更专业的搜索需求。快速多变的聚合、排序、多样性需求,使引擎架构变更频繁,更趋定制化。专业的搜索领域,使购物搜索需要部署更多集群,加大了引擎的管理和运维难度。如何在快速需求变更中保持引擎架构的独立和稳定,如何有效运维大量引擎集群,一淘网在搜索架构上又经历了怎样的变化。与您一起分享。

原文地址:http://www.infoq.com/cn/presentations/shopping-search-engine-framework-variable

时间: 2024-11-05 21:48:51

购物搜索引擎架构的变与不变的相关文章

亿级数据的高并发通用搜索引擎架构设计(转-张宴)

[文章作者:张宴 本文版本:v1.0 最后修改:2008.12.09 转载请注明原文链接:http://blog.zyan.cc/post/385/] 曾经在七月,写过一篇文章──<基于Sphinx+MySQL的千万级数据全文检索(搜索引擎)架构设计>, 前公司的分类信息搜索基于此架构,效果明显,甚至将很大一部分带Where条件的MySQL SQL查询,都改用了Sphinx+MySQL搜索.但是,这套架构仍存在局限:一是MySQL本身的并发能力有限,在200-300个并发连接下,查询 和更新就

搜索引擎架构

搜索引擎获取并存储海量的网页相关信息,不需要实时计算,可看做搜索引擎的后台计算系统.搜索引擎的最重要目的是为用户提供准确全面的搜索结果. 当搜索引擎接收到用户的查询词后,首先需要对查询词进行分析,希望能够结合查询词和用户信息来正确推导用户的真正搜索结果,如果能够在缓存系统找到满足用户需求的信息,则可以直接将搜索结果返回给用户,如果缓存信息无法满足用户需求,搜索引擎需要调用"网页排序"模块功能,根据用户的查询实时计算哪些网页是满足用户信息需求的,并排序输出作为搜索结果.而网页排序最重要的

一点一点学架构(一)——变是永远不变的

在这次的项目中,接触了"新"的底层架构. 做项目两个多月以来,对底层架构,脑中只有一个大概轮廓,一直以来都没有行动下移,把这架构落实到图上. 近日,抽出一些空儿,画画图.看看这个被大牛们吹捧的架构,到底是怎么回儿事. 三层 不管这个架构怎么变,它都来源于经典三层UBD.从整体看,不同之处在于,U层在调用B层的时候,是通过WCF.WCF,用于分布式,在这篇文章我们暂且对它忽略不计.然后就只剩下UBD,U层在这里我们也先对它"不闻不问".这样就只剩下B层和D层.所以从整

搜索引擎的技术架构

文章转自:http://blog.csdn.net/hguisu/article/details/7955985 1. 搜索引擎的分类 搜索引擎按其工作方式主要可分为三种: 分别是全文搜索引擎(Full Text Search Engine) 目录索引类搜索引擎(Search Index/Directory) 元搜索引擎(Meta Search Engine). ■ 全文搜索引擎 全文搜索引擎是名副其实的搜索引擎,国外具代表性的有Google.Fast/AllTheWeb.AltaVista.I

搜索引擎分类和基础架构概述

搜索引擎的标准定义:搜索引擎(Search Engine)是指根据一定的策略.运用特定的计算机程序从互联网上搜集信息,在对信息进行组织和处理后,为用户提供检索服务,将用户检索相关的信息展示给用户的系统.从上述定义中我们可以获得几个有关搜索引擎的关键步骤,分别为:搜集信息:组织和处理信息:展示信息. 1. 搜索引擎分类 1)全文搜索引擎 全文搜索引擎是从网站提取信息从而构建网页数据库的. 全文搜索引擎的是如何搜集网站的呢?其实这里一般有两种方法: 1> 搜索引擎定期派出网络爬虫(也成为是蜘蛛或者机

达观数据搜索引擎排序实践

前言 随着互联网的深入发展,人类已然进入大数据时代.如何在浩瀚的数据海洋里高速有效的获取有价值的信息,正是促使大数据技术具备走向众多企业的潜力.搜索引擎作为获取信息的有效入口,已然经历了20多年的发展,并一直试图理解用户搜索意图以及提升搜索的精准性. Google是全球性的搜索引擎,看似简单的搜索框背后隐藏的是极其复杂的系统架构和搜索算法,其中排序(以下统称Ranking)的架构和算法更是关键部分.Google正是通过PageRank算法深刻改变搜索排序而一举击败众多竞争对手. Ranking是

天猫11.11:搜索引擎实时秒级更新

搜索是很多用户在天猫购物时的第一入口,搜索结果会根据销量.库存.人气对商品进行排序,而商品的显示顺序往往会决定用户的选择,所以保证搜索结果的实时性和准确性非常重要.在电商系统中,特别是在“双十一”这样的高并发场景下,如何准确展示搜索结果显得尤为重要.在今年的“双十一”活动中,InfoQ有幸采访到了阿里巴巴集团搜索引擎的三位负责人仁基.桂南和悾傅,与他们共同探讨了搜索引擎背后的细节.以下内容根据本次采访整理而成. 阿里巴巴的搜索引擎承担着全集团的搜索业务,包括淘宝.天猫.1688等系统,对比传统的

[转]天猫11.11:搜索引擎实时秒级更新

搜索是很多用户在天猫购物时的第一入口,搜索结果会根据销量.库存.人气对商品进行排序,而商品的显示顺序往往会决定用户的选择,所以保证搜索结果的实时性和准确性非常重要.在电商系统中,特别是在“双十一”这样的高并发场景下,如何准确展示搜索结果显得尤为重要.在今年的“双十一”活动中,InfoQ有幸采访到了阿里巴巴集团搜索引擎的三位负责人仁基.桂南和悾傅,与他们共同探讨了搜索引擎背后的细节.以下内容根据本次采访整理而成. 阿里巴巴的搜索引擎承担着全集团的搜索业务,包括淘宝.天猫.1688等系统,对比传统的

属性 每秒10万吞吐 并发 架构 设计 58最核心的帖子中心服务IMC 类目服务 入口层是Java研发的,聚合层与检索层都是C语言研发的 电商系统里的SKU扩展服务

小结: 1. 海量异构数据的存储问题 如何将不同品类,异构的数据统一存储起来呢? (1)全品类通用属性统一存储: (2)单品类特有属性,品类类型与通用属性json来进行存储: 2. 入口层是Java研发的,聚合层与检索层都是C语言研发的 3. (1)数据库提供“帖子id”的正排查询需求: (2)所有非“帖子id”的个性化检索需求,统一走外置索引: 4. 定期全量重建索引 5. 为应对100亿级别数据量.几十万级别的吞吐量,业务线各种复杂的复杂检索查询,扩展性是设计重点: (1)统一的代理层,作为