分布式系统的架构思路

一、前言

在计算机领域,当单机性能达到瓶颈时,有两种方式可以解决性能问题,一是堆硬件,进一步提升配置,二是分布式,水平扩展。当然,两者都是一样的烧钱。
今天聊聊我所理解的分布式系统的架构思路。

二、分布式系统的两种方式

平时接触到的分布式系统有很多种,比如分布式文件系统,分布式数据库,分布式WebService,分布式计算等等,面向的情景不同,但分布式的思路是否是一样的呢?

1.简单的例子

假设我们有一台服务器,它可以承担1百万/秒的请求,这个请求可以的是通过http访问网页,通过tcp下载文件,jdbc执行sql,RPC调用接口…,现在我们有一条数据的请求是2百万/秒,很显然服务器hold不住了,会各种拒绝访问,甚至崩溃,宕机,怎么办呢。一台机器解决不了的问题,那就两台。所以我们加一台机器,每台承担1百万。如果请求继续增加呢,两台解决不了的问题,那就三台呗。这种方式我们称之为水平扩展。如何实现请求的平均分配便是负载均衡了。

另一个栗子,我们现在有两个数据请求,数据1 90万,数据2 80万,上面那台机器也hold不住,我们加一台机器来负载均衡一下,每台机器处理45万数据1和40万数据2,但是平分太麻烦,不如一台处理数据1,一台处理数据2,同样能解决问题,这种方式我们称之为垂直拆分

水平扩展垂直拆分是分布式架构的两种思路,但并不是一个二选一的问题,更多的是兼并合用。下面介绍一个实际的场景。这也是许多互联网的公司架构思路。

2.实际的例子

我此时所在的公司的计算机系统很庞大,自然是一个整的分布式系统,为了方便组织管理,公司将整个技术部按业务和平台拆分为部门,订单的,会员的,商家的等等,每个部门有自己的web服务器集群,数据库服务器集群,通过同一个网站访问的链接可能来自于不同的服务器和数据库,对网站及底层对数据库的访问被分配到了不同的服务器集群,这个便是典型的按业务做的垂直拆分,每个部门的服务器在hold不住时,会有弹性的扩展,这便是水平扩展

在数据库层,有些表非常大,数据量在亿级,如果只是纯粹的水平的扩展并不一定最好,如果对表进行拆分,比如可以按用户id进行水平拆表,通过对id取模的方式,将用户划分到多张表中,同时这些表也可以处在不同的服务器。按业务的垂直拆库和按用户水平拆表是分布式数据库中通用的解决方案。

三、负载均衡

前面我们谈到了分布式来解决性能问题,但其附带的问题是怎么分布,即如何负载均衡。这里要解决的问题是当客户端请求时,应该让它请求分布式系统中哪一台服务器,通常的做法是通过一台中间服务器来给客服端分配目标服务器。

这里同样拿两个不同的分布式系统做说明,下图左边是分布式文件系统FastDFS,右边是一个用于分布式的RPC中间件。

  • FastDFS的一次文件下载请求过程是这样的
    1.client询问tracker可以下载指定文件的storage;
    2.tracker返回一台可用的storage;
    3.client直接和storage通信完成文件下载。

其中tracker便是负载均衡服务器,storage是存储文件和处理上传下载请求的服务器。

  • 而另一个RPC中间件Hedwig也是类似的
    1.client询问zookeeper哪台server可以执行请求;
    2.zookeeper返回一台可用server;
    3.client直接与service完成一次RPC。

zookeeper是分布式系统中一个负载均衡框架,google的chubby的一个开源实现,是是Hadoop和Hbase的重要组件。

同样的在http中,常听说的nginx也是一个负载均衡服务器,它面向的是分布式web服务器。至于具体的负载均衡算法轮询,hash等这里就不深入了。


四、同步

分布式系统中,解决了负载均衡的问题后,另外一个问题就是数据的一致性了,这个就需要通过同步来保障。根据不同的场景和需求,同步的方式也是有选择的。

在分布式文件系统中,比如商品页面的图片,如果进行了修改,同步要求并不高,就算有数秒甚至数分钟的延迟都是可以接受的,因为一般不会产生损失性的影响,因此可以简单的通过文件修改的时间戳,隔一定时间扫描同步一次,可以牺牲一致性来提高效率。

但银行中的分布式数据库就不一样了,一丁点不同步就是无法接受的,甚至可以通过加锁等牺牲性能的方式来保障完全的一致。

在一致性算法中paxos算法是公认的最好的算法,chubby、zookeeper中paxos是它保证一致性的核心。这个算法比较难懂,我目前也没弄懂,这里就不深入了。

时间: 2024-08-05 12:05:46

分布式系统的架构思路的相关文章

分布式系统基础架构

Hadoop是一个由Apache基金会所开发的分布式系统基础架构.用户可以在不了解分布式底层细节的情况下,开发分布式程序.充分利用集群的威力进行高速运算和存储.Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS.HDFS有高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上:而且它提供高吞吐量(high throughput)来访问应用程序的数据,适合那些有着超大数据集(large data set)的应用程序.HDF

分布式系统基础架构——Hadoop

1.Hadoop a.概念:Hadoop是一个由Apache基金会所开发的分布式系统基础架构 b.组成:Hadoop = HDFS (文件系统) + Mapreduce (数据处理) 2.安装 a.配置Java运行环境 b.从官网下载 Hadoop 并解压,地址:http://hadoop.apache.org/releases.html c.下载 winutils 对 windows 进行支持,地址:https://github.com/steveloughran/winutils(支持老版本

高性能服务器架构思路(三)——分布式系统概念

版权声明:本文由韩伟原创文章,转载请注明出处: 文章原文链接:https://www.qcloud.com/community/article/165 来源:腾云阁 https://www.qcloud.com/community 任何的服务器的性能都是有极限的,面对海量的互联网访问需求,是不可能单靠一台服务器或者一个CPU来承担的.所以我们一般都会在运行时架构设计之初,就考虑如何能利用多个CPU.多台服务器来分担负载,这就是所谓分布的策略.分布式的服务器概念很简单,但是实现起来却比较复杂.因为

.NET分布式系统架构思路

分布式系统是由一组通过网络进行通信.为了完成共同的任务而协调工作的计算机节点组成的系统.分布式系统的出现是为了用廉价的.普通的机器完成单个计算机无法完成的计算.存储任务.其目的是利用更多的机器,处理更多的数据. 一.最初假设的网站中,我们把应用系统网站.文件和数据库都放在一台服务器上,一台服务器包打天下. 二.随着业务扩展,一台服务器无法满足性能需求,将应用程序.数据库.文件分别部署在不同的服务器上,并根据服务器用途不同,配置不同的硬件,达到性能最佳的效果. 三.随着业务扩展,一台数据库.网站.

高性能服务器架构思路

在服务器端程序开发领域,性能问题一直是备受关注的重点.业界有大量的框架.组件.类库都是以性能为卖点而广为人知.然而,服务器端程序在性能问题上应该有何种基本思路,这个却很少被这些项目的文档提及.本文正式希望介绍服务器端解决性能问题的基本策略和经典实践,并分为几个部分来说明: 1. 缓存策略的概念和实例 2.缓存策略的难点:不同特点的缓存数据的清理机制 3.分布策略的概念和实例 4.分布策略的难点:共享数据安全性与代码复杂度的平衡 缓存 缓存策略的概念 我们提到服务器端性能问题的时候,往往会混淆不清

(整理三)高并发架构思路,附十万定时任务执行解决方案

一.什么是高并发 高并发(High Concurrency)是互联网分布式系统架构设计中必须考虑的因素之一,它通常是指,通过设计保证系统能够同时并行处理很多请求. 高并发相关常用的一些指标有响应时间(Response Time),吞吐量(Throughput),每秒查询率QPS(Query Per Second),并发用户数等. 响应时间:系统对请求做出响应的时间.例如系统处理一个HTTP请求需要200ms,这个200ms就是系统的响应时间. 吞吐量:单位时间内处理的请求数量. QPS:每秒响应

辛星浅谈大型网站架构思路之二分解

第一节中我们讨论了简化,如果简化完毕,或者无法简化,那么就要考虑分解它了,那么如何去分呢?通常来说,可以从横向和纵向去分,也可以从软件和硬件去分,这个和我们构架的设计方面有关. 横向分解之我见: ①所谓横向分解,就是分离出的各个部分不存在明显的层次关系,彼此之间独立性较强,当然完全的独立是不现实的. ②第一点思路就是根据功能去分,比如网站分为bbs来交流问题,blog来展示博文信息,news来展示新闻等等,那么可以考虑根据二级域名来做相应的部署,比如bbs放到一台服务器上,blog放到一台服务器

基于路由机制设计的app架构思路

转载请注明出处:王亟亟的大牛之路 有差不多接近一个多月没发文了,最近事情比较多.各种会,写各种计划,解决各种问题,以及团队内部扩招那些事(每天邮箱各种简历眼花缭乱) 先安利:我的Git 之后会把内容都往git book等地方迁移,所以对我写的东西感兴趣的小伙们可以follow我的git,以获取最新内容! 对架构的理解 最近聊了许多小伙报价从高到低的各式各样的都有(这里只是举个例子,没有任何贬低的意思) 一提架构张嘴就来 MVC MVP MVVM等等等,如果简历写有大项目的架构经验并且要价偏高的我

高性能服务器架构思路(五)——分布式缓存

版权声明:本文由韩伟原创文章,转载请注明出处: 文章原文链接:https://www.qcloud.com/community/article/167 来源:腾云阁 https://www.qcloud.com/community 在分布式程序架构中,如果我们需要整个体系有更高的稳定性,能够对进程容灾或者动态扩容提供支持,那么最难解决的问题,就是每个进程中的内存状态.因为进程一旦毁灭,内存中的状态会消失,这就很难不影响提供的服务.所以我们需要一种方法,让进程的内存状态,不太影响整体服务,甚至最好