PHP 基于redis实现的流量控制系统

PHP 基于redis实现的流量控制系统

我们对项目模块进行了一定程度的微服务化改造,之前所有模块都放在一个项目里(一个大文件夹),线上部署也一样,这样的缺点显而易见。 后面我们按照业务功能拆分成一个个的子模块,然后子模块之间通过RPC框架进行访问,各个子模块有各自独立的线上机器集群、mysql及redis等存储资源,这样一个子模块出问题不会影响到其它模块,同时可维护性,扩展性更强。

但现实中每个子模块的服务能力是不同的, 如下图按子模块拆分之后的架构图所示,假设到达A模块的QPS为100,A依赖于B,同时每一个A模块到达B模块的请求QPS也为100, 但B模块所能提供的最大QPS能力为50, 如果不进行流量限制,则B模块因为超过负载而流量堆积导致整个系统不可用,我们的动态流量控制系统就是找到子模块的最佳服务能力,即限制A模块到达B模块的流量为50QPS,则至少保证一部分请求是能够正常进行的,而不会因为一个子服务挂掉而拖跨整个系统。

我们的RPC框架是一个PHP实现的框架,主要支持http协议的访问。对于一个前端A模块来说,对于依赖于的后端B模块, 需先对B模块进行服务化配置,再按服务名字进行引用访问,服务配置一般形式如下:

[MODULE-B]  ; 服务名字
protocol = "http"  ;交互协议
lb_alg = "random" ; 负载均衡算法
conn_timeout_ms = 1000 ; 连接超时,所有协议使用, 单位为ms
read_timeout_ms = 3000 ; 读超时
write_timeout_ms = 3000 ; 写超时
exe_timeout_ms = 3000 ; 执行超时
host.default[] = "127.0.0.1" ; ip或域名
host.default[] = "127.0.0.2" ; ip或域名
host.default[] = "127.0.0.3" ; ip或域名
port = 80 ; 端口
domain = ‘api.abc.com‘ ; 域名配置,不作真正解析,作为header host字段传给后端
  • [MODULE-B]  ; 服务名字
    protocol = "http"  ;交互协议
    lb_alg = "random" ; 负载均衡算法
    conn_timeout_ms = 1000 ; 连接超时,所有协议使用, 单位为ms
    read_timeout_ms = 3000 ; 读超时
    write_timeout_ms = 3000 ; 写超时
    exe_timeout_ms = 3000 ; 执行超时
    host.default[] = "127.0.0.1" ; ip或域名
    host.default[] = "127.0.0.2" ; ip或域名
    host.default[] = "127.0.0.3" ; ip或域名
    port = 80 ; 端口
    domain = ‘api.abc.com‘ ; 域名配置,不作真正解析,作为header host字段传给后端

对于要访问的一个服务模块,部署上一般是一个集群,我们需要配置机器集群的所有IP,当然,如果有内部DNS服务,也可以配上集群的域名。

对于一个RPC框架来说,基本的功能有负载均衡、健康检查、降级&限流等,我们的流量控制即针对降级&限流功能,在详细介绍它之前,先说说负载均衡与健康检查是如何实现的,是这流量控制实现的基础。

负载均衡我们实现了随机与轮询算法,随机算法通过在所有IP中随机选一个即可,比较容易实现,对于轮询算法,我们是基于单机轮询,将上一个选择的IP序号利用apcu扩展记录在本地内存中,以方便找到下一个要使用的IP序号。

被访问的机器可能会失败,我们将失败的请求IP记录在redis中,同时分析记录的失败日志来决定是否需要将一个机器IP摘除,即认为这个IP的机器已经挂掉,不能正常提供服务了,这就是健康检查的功能,我们通过相关服务配置项来介绍下健康检查的具体功能:

ip_fail_sample_ratio = 1 ; 采样比例

失败IP记录采样比例,我们将失败的请求记录在redis中,为防止太多的redis请求,我们可以配一个失败采样比例

ip_fail_cnt_threshold  = 10;  IP失败次数
ip_fail_delay_time_s = 2 ;  时间区间
ip_fail_client_cnt = 3 ; 失败的客户端数

不可能一个IP失败一次就将其从健康IP列表中去掉,只有在有效的ip_fail_delay_time_s 时间范围内,请求失败了 ip_fail_cnt_threshold 次,并且失败的客户端达到ip_fail_client_cnt 个, 才认为其是不健康的IP。 

为什么要添加 ip_fail_client_cnt 这样一个配置,因为如果只是某一台机器访问后端某个服务IP失败,那不一定是服务IP的问题,也可能是访问客户端的问题,只有当大多数客户端都有失败记录时才认为是后端服务IP的问题

我们将失败日志记录在redis的list表中,并带上时间戳,就比较容易统计时间区间内的失败次数。

ip_retry_delay_time_s = 30 ; 检查失败IP是否恢复间隔时间

某个失败的IP有可能在一定时间内恢复,我们间隔 ip_retry_delay_time_s 长的时间去检查,如果请求成功,则从失败的IP列表中去除

ip_retry_fail_cnt = 10;  失败IP如果检查失败,记录的失败权重值

ip_log_ttl_s = 60000; 日志有效期时间

一般来说只有最近的失败日志才有意义,对于历史的日志我们将其自动删除。
ip_log_max_cnt = 10000; 记录的最大日志量

我们用redis记录失败日志,容量有限,我们要设定一个记录的最大日志数量,多余的日志自动删除。

在我们的代码实现中,除了正常的服务IP配置,我们还维护了一个失败IP列表,这样通过算法选IP时先要去掉失败IP,失败IP记录在一个文件中,同时利用apcu内存缓存加速访问,这样我们所有的操作基本是基于内存访问的,不会有性能问题。

我们只有在请求失败时才会将日志记录在redis中,那在什么时候将失败的IP找出来呢,这涉及到查询redis list列表中所有的失败日志,同时统计失败个数,是一个较复杂的操作。我们的实现是多个PHP进程抢占锁的方式,谁抢到了就执行分析操作,记录失败的IP到文件中。因为只有一个进程会执行分析操作,所以对正常请求不会有什么影响。  同时只有在失败时才会有抢占锁的动作,正常情况下基本不会与redis有任何交互,没有性能损耗。

我们的健康检查依赖于一个中心化的redis服务,如果它挂了怎么办?如果判断redis服务本身挂掉了,rpc框架会自动关闭健康检查服务, 不再与redis交互,这样至少不会影响正常的RPC功能。

在健康检查实现的基础上我们可以实现流量控制,即当我们发现大部分或全部IP失败时,我们可以推断是因为流量过大导致后端服务响应不过来而请求失败,这时我们就应该以一定策略限流,一般的实现是直接将流量全部摘除,这有点粗暴,我们的实现是逐步减少流量,直至失败的IP比例降到一定数值,后面又尝试逐步增加流量,增加与减少可能是一个循环的过程,即是动态的流量控制,最终我们会找到一个最佳的流量值。通过相关配置来介绍一下流量控制的功能:

degrade_ip_fail_ratio = 1 ; 服务开始降级时失败IP比例

即失败的IP比例达到多少时开始降级,即开始减少流量

degrade_dec_step = 0.1 ; 每次限流增加多少

即每次减少多少比例的流量

degrade_stop_ip_ratio = 0.5; 

在失败的IP已降到多少比例时开始停止减少流量,并尝试增加流量
degrade_stop_ttl_s = 10;

停止等待多长时间开始尝试增加流量
degrade_step_ttl_s = 10

流量增加或减少需要等待的时间。
每一次流量增加或减少后,下一步如何做是根据当时失败的IP比例来决定的,而且会保持当前流量值一段时间,而不是立即做决定。

degrade_add_step = 0.1

每次增加流量增加的比例值

degrade_return = false ; 降级时返回值

降级时我们不会再去访问后端服务,而是直接给调用方返回一个配置的值。

流量控制的状态图描述如下:

如何实现控制流量在一定比例呢? 通过随机选择,比如获得一个随机数并判断是否落在某个范围内。 通过限制流量在一个最佳值,在影响最少的用户情况下让大部分请求能正常工作,同时流量控制配合监控报警,发现某个模块的流量控制比例在1以下,说明相关模块已是系统的瓶颈,下一步就应该增加硬件资源或者优化我们的程序性能了。

原文地址:https://www.cnblogs.com/maibaodexiaoer/p/8569808.html

时间: 2024-10-09 08:19:07

PHP 基于redis实现的流量控制系统的相关文章

Tomcat7基于Redis的Session共享实战二

目前,为了使web能适应大规模的访问,需要实现应用的集群部署.集群最有效的方案就是负载均衡,而实现负载均衡用户每一个请求都有可能被分配到不固定的服务器上,这样我们首先要解决session的统一来保证无论用户的请求被转发到哪个服务器上都能保证用户的正常使用,即需要实现session的共享机制. 在集群系统下实现session统一的有如下几种方案:(1) 应用服务器间的session复制共享(如tomcat自带session共享)(2) 基于cache DB缓存的session共享 一.应用服务器间

Netty Redis 亿级流量 高并发 实战 (长文 修正版)

目录 疯狂创客圈 Java 分布式聊天室[ 亿级流量]实战系列之 -30[ 博客园 总入口 ] 写在前面 1.1. 快速的能力提升,巨大的应用价值 1.1.1. 飞速提升能力,并且满足实际开发要求 1.1.2. 越来越多.大量的应用场景 1.2. 高并发架构中的6大集群 1.2.1. 支撑亿级流量的IM整体架构 1.2.2. IM通讯协议介绍 1.2.3. 长连接和短连接 1.2.4. 技术选型 1.3. 基于Redis 设计分布式Session 1.3.1. SessionLocal本地会话

基于Redis的分布式锁和Redlock算法

1 前言 前面写了4篇Redis底层实现和工程架构相关文章,感兴趣的读者可以回顾一下: Redis面试热点之底层实现篇-1 Redis面试热点之底层实现篇-2 Redis面试热点之工程架构篇-1 Redis面试热点之工程架构篇-2 今天开始来和大家一起学习一下Redis实际应用篇,会写几个Redis的常见应用. 在我看来Redis最为典型的应用就是作为分布式缓存系统,其他的一些应用本质上并不是杀手锏功能,是基于Redis支持的数据类型和分布式架构来实现的,属于小而美的应用. 结合笔者的日常工作,

身为一枚优秀的程序员必备的基于Redis的分布式锁和Redlock算法

1 前言 今天开始来和大家一起学习一下Redis实际应用篇,会写几个Redis的常见应用. 在我看来Redis最为典型的应用就是作为分布式缓存系统,其他的一些应用本质上并不是杀手锏功能,是基于Redis支持的数据类型和分布式架构来实现的,属于小而美的应用. 结合笔者的日常工作,今天和大家一起研究下基于Redis的分布式锁和Redlock算法的一些事情. 2.初识锁 1. 锁的双面性 现在我们写的程序基本上都有一定的并发性,要么单台多进线程.要么多台机器集群化,在仅读的场景下是不需要加锁的,因为数

基于 Redis 构建数据服务

今天我们来聊聊如何基于redis数据库扩展数据服务,如何实现分片(sharding)以及高可用(high availability). 分布式系统不存在完美的设计,处处都体现了trade off. 因此我们在开始正文前,需要确定后续的讨论原则,仍然以分布式系统设计中的CAP原则为例.由于主角是redis,那性能表现肯定是最高设计目标,之后讨论过程中的所有抉择,都会优先考虑CAP中的AP性质. 两个点按顺序来,先看分片. 何谓分片?简单来说,就是对单机redis做水平扩展. 当然,做游戏的同学可能

基于Redis的三种分布式爬虫策略

前言: 爬虫是偏IO型的任务,分布式爬虫的实现难度比分布式计算和分布式存储简单得多. 个人以为分布式爬虫需要考虑的点主要有以下几个: 爬虫任务的统一调度 爬虫任务的统一去重 存储问题 速度问题 足够"健壮"的情况下实现起来越简单/方便越好 最好支持"断点续爬"功能 Python分布式爬虫比较常用的应该是scrapy框架加上Redis内存数据库,中间的调度任务等用scrapy-redis模块实现. 此处简单介绍一下基于Redis的三种分布式策略,其实它们之间还是很相似

基于redis AE的异步网络框架

最近一直在研究redis的源码,redis的高效率令人佩服. 在我们的linux机器上,cpu型号为, Intel(R) Pentium(R) CPU G630 @ 2.70GHz Intel(R) Pentium(R) CPU G630 @ 2.70GHz 上 set,get 都能达到每秒钟15W的请求处理量,真是佩服这代码的效率. 前几篇文章,主要是介绍了基本的代码,比如字符串处理,链表处理,hash等.这篇文章介绍网络的核心,基于事件反映的异步网络框架. 异步网络处理,是基于epoll的.

基于Redis的分布式锁到底安全吗(上)?

网上有关Redis分布式锁的文章可谓多如牛毛了,不信的话你可以拿关键词"Redis 分布式锁"随便到哪个搜索引擎上去搜索一下就知道了.这些文章的思路大体相近,给出的实现算法也看似合乎逻辑,但当我们着手去实现它们的时候,却发现如果你越是仔细推敲,疑虑也就越来越多. 实际上,大概在一年以前,关于Redis分布式锁的安全性问题,在分布式系统专家Martin Kleppmann和Redis的作者antirez之间就发生过一场争论.由于对这个问题一直以来比较关注,所以我前些日子仔细阅读了与这场争

基于redis分布式缓存实现(新浪微博案例)

第一:Redis 是什么? Redis是基于内存.可持久化的日志型.Key-Value数据库 高性能存储系统,并提供多种语言的API. 第二:出现背景 数据结构(Data Structure)需求越来越多, 但memcache中没有, 影响开发效率 性能需求, 随着读操作的量的上升需要解决,经历的过程有: 数据库读写分离(M/S)–>数据库使用多个Slave–>增加Cache (memcache)–>转到Redis 解决写的问题: 水平拆分,对表的拆分,将有的用户放在这个表,有的用户放在