58同城沈剑:好的架构不是设计出来的,而是演进出来的

对 很多创业公司而言,随着业务的增长,网站的流量也会经历不同的阶段。从十万流量到一百万流量,再从一百万流量跨越到一千万甚至上亿的流量,网站的架构需要 经历哪些变化?我们一起听听

58 同城的技术委员会执行主席沈剑在 OneAPM 技术公开课上的回答(以下演讲整理):

本场演讲我主要阐述一下,58同城从小流量、中等规模流量、大流量,到更大的流量过程中,架构是怎么演进的?遇到了哪些问题?以及如何解决这些问题?

好的架构不是设计出来的而是演进出来的

对很多创业公司而言,在初期的时候,我们很难在初期就预估到流量十倍以后、百倍以后、一千倍以后网站的架构会变成什么样。当然,如果在最初的时期,就设计一个千万级并发的流量架构,那样的话,成本是也是非常之高的,估计很难有公司会这样做。

所以,我们主要来讲架构是如何进行演化的。我们在每个阶段,找到对应该阶段网站架构所面临的问题,然后在不断解决这些问题的过程中,整个战略的架构就是在不断的演进了。

其实,在 58 同城建立之初,站点的流量非常小,可能也就是是十万级别,这也就意味着,平均每秒钟也就是几次的访问。此时网站架构的特点:请求量是比较低,数据量比较小,代码量也比较小。可能找几个工程师,很容易就做一个这样的站点,根本没什么「架构」可言。

其实,这也是很多创业公司初期面临的问题,最开始58同城的站点架构用一个词概括就是「ALL IN ONE」,如下图所示:

就 像一个单机系统,所有的东西都部署在一台机器上,包括站点、数据库、文件等等。而工程师每天的核心工作就是 CURD,前端传过来一些数据,然后业务逻辑层拼装成一些 CURD 访问数据库,数据库返回数据,数据拼装成页面,最终返回到浏览器。相信很多创业团队,初期做的工作也是类似,每天写代码,写 SQL、接口参数、访问数据等等。

这里需要说明一个问题,大家都知道目前 58 同城使用的是 Windows、iis、SQL-Sever、C# 这条路。现在很多创业公司可能就不会这么做。58 同城为什么当时选择了这条路?原因是公司招聘的第一个工程师和第二个工程师只会这个,所以只能走这条路。

如果可以重来?那么会选择LAMP

很 多创业的同学可能会想,如果我们初期希望做一个产品的话,我们应该使用什么架构? 如果让我们重来,可能我们现在会选 LAMP,为什么?首先是无须编译,而且快速发布功能强大,从前端到后端、数据库访问、业务逻辑处理等等全部可以搞定,最重要的是因为开源产品,是完全免 费的。如果使用 LAMP 搭建一个论坛,两天的时间就很足够了。所以,如果在创业初期,就尽量不要再使用 Windows 的技术体系了。

在 这个阶段 58 同城面临的主要问题是什么?其实就是招人。很多工程师可能都是再培训学校里培训了3月就过来上班,所以他们写 CURD 的话很容易出错。当时,我们引进了 DAO 和 ORM。虽然那些培训了几个月的工程师可能写CURD不是特别的擅长,但是他们写面向对象的一些程序引入了 DAO 和 ORM,让他们不再直接面对 CURD 语句,这样就会相对容易一些。因为工程师比较擅长的是面向对象的数据,不是 CURD,所以我们当时引入了 ORM,总的来说,如果大家现在的项目处于一个初期孵化的阶段,DAO 和 ORM 能够极大的提高效率,而且可以降低出错的概率。

中等规模:流量跨过十万的阶段,数据库成为瓶颈

随 着 58 同城的高速增长,我们很快跨越了十万流量的阶段。主要需求是什么?网站能够正常访问,当然速度更快点就好了。而此时系统面临问题包括:在流量的高峰期容易 宕机,因为大量的请求会压到数据库上,所以数据库成为新的瓶颈,而且人多的时候,访问速度会很慢。这时,我们的机器数量也从一台变成了多台。现在的架构就 采用了分布式,如下图所示:

首 先,我们使用了一些非常常见的技术,一方面是动静分离,动态的页面通过 Web-Servre 访问,静态的像图片等就单独放到了一些服务器上。另外一点就是读写分离。其实,对 58 同城或者说绝大部分的站点而言,一般来说都是读多写少。对 58 同城来说,绝大部分用户是访问信息,只有很少的用户过来发贴。那么如何扩展整个站点架构的读请求呢?常用的是主从同步,读写分离。我们原来只有一个数据 库,现在使用多个不同的数据库提供服务,这样的话,就扩展了读写,很快就解决了中等规模下数据访问的问题。

在这个阶段,系统的主要矛盾就是「站点耦合+读写延时」,58 同城是如何进行解耦,如何缓解延时呢?

对 58 同城而言,典型业务场景是主页,发布信息有发布页,信息聚合、标题聚合有列表页,点开一个标题有详细页,而这些站点都是耦合在一个程序中的,或者说耦合在一个站点中的,当我们有一个站点出现问题的时候,整个站点就会因为耦合一起出问题。

第 二个问题,大家都知道做数据库读请求和写请求,分布在不同的数据库上,这个时候如果再读取可能读到的是旧数据,因为读写有一个延时。如果有用户发帖子,马 上去找的话肯定找不到,很可能带来的后果就是陆续在发布两条信息,这就是一个很大的问题。尤其是在请求量越来越大的时候,这个问题就更加突出。

在 解决这些问题是,最先想到的是针对原来站点的核心业务做切分,然后工程师根据自己的站点和业务场景进行细分。首先,业务拆分是 58 同城最先尝试的优化。我们将业务垂直拆分成了首页和发布页。另外,在数据库层面,我们也随之进行了拆分,将大数据量拆分成一个个小的数据量。这样,读写延 时就马上得到了缓解。尤其是在代码拆分成了不同的层面之后,站点耦合也得到了缓解,数据量加载速度也提升了很多。

当 时,还使用了一些技术,前面也提到了对动态资源和静态资源进行拆分。其中,我们对静态资源使用了 CDN 服务,便于数据缓存和就近访问,访问速度得到很明显的提升。除此之外,我们还使用了 MVC 模式,擅长前端的去做展示层,擅长协作逻辑的工程师就做 Contorller,擅长数据的人就负责数据,效率就会逐步的提高,最后就是负载均衡技术。

大流量:将整个 Windows 技术体系转向了 Java 体系

流 量越来越大,当流量超过一千多万时,58 同城面对最大的问题就是性能和成本。此前,我提到58同城最初的技术选型是 Windows,应该是在 2006 年的时候,整个网站的性能变得非常之低。即使进行了业务拆分和一些优化,但是依然解决不了这个问题,所以我们当时做了一个非常艰难的决定,就是转型:将整 个 Windows 技术体系转向了 Java 体系,这涵盖了操作系统、数据库等多个维度。

其实,现在很多大的互联网公司在流量从小到大的过程中都经历过转型,包括京东、淘宝等等。对技术的要求越来越高,任何一个站点都不能挂,对站点的可用性要求也是越来越高。

就 在这个时候,58 同城业务量也出现一个爆发期。于是我们招聘了很多的工程师,大家一起写越来越多的站点,但是发现效率很低,经常做一些重复性的工作比如参数解析等等。同 时,业务之间相互依赖,无论是分类的子系统还是信息的子系统,二手车业务、房产业务都要访问用户和信息等一些底层数据,代码之间频繁的沟通,效率也不可能 很高。

问题随之而来,站点数越来越多,数据量越来越大,机器数从最开始的几台上升到几百台的级别。那么如何提供整个架构的可用性呢?首先,在上层我们进行了一些改进和优化,再做进一步的垂直拆分,同时我们引入了 Cache,如下图所示:

在 架构的改进上,我们构建了一个相对独立的服务层,这个服务层做的每个业务线都会写对应的代码。如果用户发出请求,就由这个服务层统一来管理,所有的上游业 务线就像调用本地函数一样,通过 IDC 的框架来调用这个服务。整个用户登录先访问 Cache,如果 Cache 变动了就直接返回,如果 Cache 不变动,就会访问数据库,这样把数据库的数据拿到本地再放回 Cache,再打回上一轮。如此一来,业务逻辑全部封装在这个服务的上游管理,该业务逻辑只有服务层能够编写代码,然后由这个服务层集中管理、集中优化, 这样就提高了效率。

除 此之外,为了保证站点的高可用,我们主要使用了反向代理技术。因为用户而言,他主要为了使用 58 同城的服务,他不关注访问是58同城或者有十台首页的服务器。58 同城通过反向代理技术,通过 DNS 群,通过 LVS 技术,来保证接入层的高可用性,同时还保证了服务层、站点层、数据层的高可用。另外,为了保证高可用我们经常使用冗余的方法,无论是站点服务和数据服务都 可以使用这种方式进行解决,一个站点不可用,我们就换一个站点,一个数据库不够用,我们就多加几个。当然,数据冗余也会带来一些副作用,如果数据量更新的 话,那就需要将所有的“冗余”都要进行更新。

58同城也做了一个图片存储系统,开始都是存储在操作系统之上,随着新增站点、新增服务,压力就变得越来越大。于是,58 同城就自建了站点框架和服务框架,现在这两个框架也已经开源(如何降低站点开发成本?https://github.com/58code/Argo 如何降低服务开发成本? https://github.com/58code/Gaea )只需要修改一些基本的配置就可以使用了。

当架构变成「蜘蛛网」,人肉已很难搞定!

随着用户量、数据量并发量进一步的增长,58同城也拓展了很多的新业务,那么对产品迭代速度要求就非常高,整体的架构对自动化的要求越来越高。

为 了支撑业务的发展,技术团队对架构做了进一步的解耦,另外就是引入了配置中心,如果要访问任何一个服务,不会直接在本地的配置中留下一个服务,配置中心告 诉这个服务的特点,如果扩展的话,配置中心自动下达消息,如果有机器要下线的话,配置中心会反向通过发邮件的方式进行通知。

而柔性服务是指当流量增加的时候,自动的新增服务。可以看到进一步解耦之后,有垂直业务、无线业务、集成业务等等,这些子系统之间都是通过配置中心相应之间发生关系的。

另 一点就是关于数据库,当某一点成为一个业务线重点的时候,我们就会集中解决这个点的问题。最初期的时候每个业务线都要访问数据库,访问缓存,访问用户数 据,于是我们把代码集中的放到了服务层。现在数据量越来越大,大家都要做数据切分,每个业务线都做切分,这个时候58同城的每个页面都面对这样的痛点,于 是把这个痛点拿到集中的层面来解决。

最后一点就是效率矛盾,此时很多问题,靠「人肉」已经很难进行搞定了。这就需要自动化,包括回归、测试、运维、监控等等都要回归到自动化。

这 里需要补充一点,就是在产品层面,我们引入了智能化,比如说智能推荐,主动推荐一些相关的话题;智能广告,通过一些智能的策略,让用户对广告的点击更多, 增加对 58 同城的收录;智能搜索,在搜索的过程中加入一些搜索的策略,可以提高搜索的权重,也可以增加 58 同城的 PV。当然,所有的自动化的产品背后都是由技术在驱动。

未来的挑战

现 在,58同城的流量已经突破的 10 亿的量级,那么架构上未来面临哪些挑战呢?一方面是无线化、移动化。另一方面就是需求的变化,我们必须加快迭代一些东西。如果拥有10亿的流量,却跑在一 亿的架构上肯定是不行的。未来,我们会使用更多的并行计算、实时计算,如果能做到实时推荐,效果肯定非常好,这也是我们的挑战。最后一点,58同城现在的 服务器大概在3000台左右,未来将拓展到 10000 万,这就是运维的挑战了。

总结:

最 后做一个小的总结,网站在不同的阶段遇到的问题不一样,而解决这些问题使用的技术也不一样,流量小的时候,我们主要目的是提高开发效率,在早期要引入 ORM,DAO 这些技术。随着流量变大,使用动静分离、读写分离、主从同步、垂直拆分、CDN、MVC 等方式不断提升网站的稳定性。面对更大的流量时,通过垂直拆分、服务化、反向代理、开发框架(站点/服务)等等,不断提升高可用。在面对上亿级的更大流量 时,通过中心化、柔性服务、消息总线、自动化(回归,测试,运维,监控)来迎接新的挑战。未来的就是继续实现 移动化,大数据实时计算,平台化…

时间: 2024-10-16 14:00:24

58同城沈剑:好的架构不是设计出来的,而是演进出来的的相关文章

58同城沈剑:好的架构源于不停地衍变,而非设计

原文网址链接:http://www.csdn.net/article/2015-10-24/2826028摘要:对很多创业公司而言,很难在初期就预估到流量十倍.百倍以及千倍以后网站架构会是什么样的一个状况.同时,如果系统初期就设计一个千万级并发的流量架构,很难有公司可以支撑这个成本. [编者按]对很多创业公司而言,随着业务增长,网站的流量也会经历不同的阶段.从十万流量到一百万流量,再从一百万流量跨越到一千万甚至上亿的流量,网站的架构需要经历哪些变化?在“OneAPM 技术公开课”第一期中,58同

[2016-03-18] [架构] 读《58同城沈剑:好的架构不是设计出来的,而是演进出来的》

文章摘录: ———————————————————————- 58同城从小流量.中等规模流量.大流量,到更大的流量过程中,架构是怎么演进的?遇到了哪些问题?以及如何解决这些问题? 在 58 同城建立之初,站点的流量非常小,可能也就是是十万级别,这也就意味着,平均每秒钟也就是几次的访问. 此时网站架构的特点:请求量是比较低,数据量比较小,代码量也比较小.可能找几个工程师,很容易就做一个这样的站点,根本没什么「架构」可言. 最开始58同城的站点架构用一个词概括就是「ALL IN ONE」 如果可以重

58沈剑:秒杀系统架构优化思路

有个兄弟分享秒杀系统的优化,其观点有些赞同,大部分观点却并不同意,结合自己的经验,谈谈自己的一些看法. 一.为什么难 秒杀系统难做的原因:库存只有一份,所有人会在集中的时间读和写这些数据. 例如小米手机每周二的秒杀,可能手机只有1万部,但瞬时进入的流量可能是几百几千万. 又例如12306抢票,亦与秒杀类似,瞬时流量更甚. 二.常见架构 流量到了亿级别,常见站点架构如上: 1)浏览器端,最上层,会执行到一些JS代码 2)站点层,这一层会访问后端数据,拼html页面返回给浏览器 3)服务层,向上游屏

【58沈剑架构系列】一分钟了解负载均衡的一切

什么是负载均衡 负载均衡(Load Balance)是分布式系统架构设计中必须考虑的因素之一,它通常是指,将请求/数据[均匀]分摊到多个操作单元上执行,负载均衡的关键在于[均匀]. 常见的负载均衡方案 常见互联网分布式架构如上,分为客户端层.反向代理nginx层.站点层.服务层.数据层.可以看到,每一个下游都有多个上游调用,只需要做到,每一个上游都均匀访问每一个下游,就能实现“将请求/数据[均匀]分摊到多个操作单元上执行”. [客户端层->反向代理层]的负载均衡 [客户端层]到[反向代理层]的负

58沈剑用3个小时的视频告诉你高可用的那些事儿

本文是58到家技术总监沈剑在MPD2016 北京站上的演讲视频.全面解析单点系统的可用性架构与优化/消息系统的可达性架构与优化/事务系统的一致性架构与优化. 1.互联网单点系统可用性架构与优化:点击此处观看视频.时长63分钟,建议收藏和转发后在Wifi环境下观看. PPT 关于单点系统可用性架构的小结:1.单点系统存在的问题:可用性问题,性能瓶颈问题2.shadow-master是一种常见的解决单点系统可用性问题的方案3.减少与单点的交互,是存在单点的系统优化的核心方向,常见方法有批量写,客户端

转: 58同城高性能移动Push推送平台架构演进之路

转: http://geek.csdn.net/news/detail/58738 文/孙玄 本文详细讲述58同城高性能移动Push推送平台架构演进的三个阶段,并介绍了什么是移动Push推送,为什么需要,原理和方案对比:移动Push推送第一阶段(单平台)架构如何设计:移动Push推送典型性能问题分析解决,以及高可用.高性能.高稳定性如何保证. 什么是移动Push推送 移动Push推送是移动互联网最基础的需求之一,用于满足移动互联环境下消息到达App客户端.以转转(58赶集旗下真实个人的闲置交易平

CSDN首页> 云计算 孙玄:解析58同城典型技术架构及演变

转:http://www.csdn.net/article/2015-04-09/2824437 在UPYUN主办的“UPYUN Open Talk”第三期北京站上,58同城系统架构师孙玄详细介绍了58同城的商家(移动)管理平台的技术架构及演变历程,并就企业的核心O2O技术进行了专题的分享. 孙玄表示,58同城是一个分类信息网站,涵盖房产.二手车.招聘.黄页等内容,在每一个类别里都能看到方便用户交流沟通的58帮帮.58帮帮分为IM部分和非IM的业务处理部分,目前,整个帮帮系统每天要处理10亿次+

媳妇熬成婆?分类信息之上 58同城打算干点别的

经过近一年时间的频繁投资之后,近期58同城进行了大规模的组织架构调整,此举意在向业界展示58同城的未来发展方向,同时也显露了姚劲波的野心.另外,让58可喜的是,伴随组织架构调整而来的还有一份超预期的亮眼财报,这在提升资本市场信心的同时也抵挡了不少质疑之声. 10亿美元投资并购目标已完成1/3 此前,包括58同城.赶集网在内的分类信息网站频繁招到业界质疑,一来认为分类信息市场已步入市场瓶颈期,未来成长空间不足:二来以分类信息的营收能力,企业难有更大作为,而且获取流量的成本较高,用户需求频次相对较低

开源项目-类似58同城的项目启动

已经进入编程这行已经3年,最近想做一个自己的开源项目,最后选来选去,选中了类似58同城的功能的项目作为开始 下面是一些列的工作,里面会体系我是怎样把这个项目做出来,包括思路.技术.代码等等. 需求阶段-需求比较明确,就是仿制58同城功能,这里说明一下,只是功能,相应的优化没有,因为优化都是在有瓶颈的条件下才优化 技术选型-python与php, python作为爬虫的技术,因为一开始没有什么数据,所以使用爬虫技术暂时把58上面的数据爬过来使用,当然这是学习性质,不盈利,特说明,如果58同城方面有