直击传统运维痛点,京东金融智能运维初探!

随着互联网+时代的到来,京东金融业务规模不断扩大,业务场景也不断创新。但是,业务变化之快超乎想象,相应的 SOA  及微服务架构日趋深入,服务数量不断膨胀,线上环境日益复杂,服务依赖关系每天都在变化。

● 如何实时看清系统的容量水位,为容量评估和系统扩容提供客观依据?

● 当故障发生时,如何精确判断影响范围?

● 如何确定每一次交易过程中,每个系统处理耗时分别是多少?

● 每个系统在处理一笔交易时,分别在数据库、NoSQL、缓存、日志、RPC、业务逻辑上耗时多少?

● 如何快速确定系统的真正瓶颈点?

面对上述难题,本文将从智能容量评估与智能告警切入,为大家分享京东金融的运维实践。

智能容量评

应用的容量评估是一个老大难问题,目前也没有一种简单而有效的方式,主要是通过压测手段直接得到应用单机最高 QPS 的相关数据。

线下压测

为了测试数据的相对真实性,在容量评估的线下压测中一般通过 tcpcopy 等工具,将线上的流量直接复制到测试服务器,在测试服务器出现瓶颈时得到应用最高的  QPS,再通过线上线下的换算系数推算出线上的应用能承载的容量。

注:本图片转自tcpcopy官网


线上压测

通过线下压测的方式进行容量评估的优点是压测过程对线上的环境几乎没有影响,但是过程比较繁琐,耗时也较长。所以以短平快为主要特色的互联网公司更钟爱通过线上的压测来进行容量评估。

如何进行线上的压测?

一般来说,不管是通过集中的负载设备(如 F5、Radware 等)或是四七层的软负载(LVS、Nginx、HAProxy
等)亦或是开源的服务框架(如  Spring Cloud、DUBBO 等)都支持加权轮询算法(Weighted Round  Robin)。简单的说就是在负载轮询的时候,不同的服务器可以指定不同的权重。

线上压测的原理就是逐渐加大某一台服务器的权重,使这台服务器的流量远大于其他服务器,直至该服务器出现性能瓶颈。这个瓶颈可能是  CPU、LOAD、内存、带宽等物理瓶颈,也可能是 RT、失败率、QPS 波动等软瓶颈。

当单机性能出现性能瓶颈时,工程师记下此时的应用 QPS 就是单机容量,然后根据集群服务器数量很容易得到集群的容量。

如下 Nginx 的配置,使得服务器 192.168.0.2 的流量是其他服务器的 5 倍,假设此时服务器 192.168.0.2 出现瓶颈,QPS 为  1000,那么集群容量为 3000。(假设负载没有瓶颈)

http {   
upstream cluster {   
server 192.168.0.2 weight= 5;   
server 192.168.0.3 weight= 1;   
server 192.168.0.4 weight= 1;   
   }   
}

容量计算

不管是线上还是线下的压测,反映的都是压测时的应用容量。在互联网快速发展的今天,程序版本迭代的速度惊人,针对每次版本的迭代、环境的变化都进行一次线上的压测是不现实的,也是不具备可操作性的。

那么换一种思路去思考,我们通过压测去评估应用的容量其实是因为我们无法知道具体的一个方法的耗时到底在哪里?也就是说被压测的对象对我们是一个黑盒子,如果我们想办法打开了这个黑盒子,理论上我们就有办法计算应用的容量,而且可以做到实时的应用容量评估。

因此,迫切需要寻求另外一种解决问题的思路:QPS 的瓶颈到底是什么?如果弄清楚了这个问题,应用的 QPS 就可以通过计算得到。

再结合下图的耗时明细和应用所处的运行环境,我们就可以找到具体的瓶颈点。

举一个简单的例子:

如果一个方法在一定采样时间内,平均 QPS 为 200,平均耗时为 100ms,耗时明细分析发现平均访问数据库 6 次,每次耗时  10ms,也就是数据库总耗时 60ms,其他均为业务逻辑耗时 40ms。如何确定应用的容量呢?

假如数据库连接池的最大连接数为 30,执行此方法的线程池最大为 50(简单起见暂时不考虑线程的切换成本),那么理论上数据库的单机最高 QPS 为  30*1000/60=500。

同理业务逻辑的单机最高 QPS 为 50*1000/40=1250,显然这个方法的瓶颈点在数据库上,也就是这个方法的单机最高 QPS 为 500。

然后,针对这个方法进行优化,数据库每次访问的耗时降到了 5ms,平均访问次数变成了 4 次,也就是数据库总耗时为
20ms,业务逻辑耗时依然是  40ms,此时数据库的单机最高 QPS 为
30*1000/20=1500。显然此时的瓶颈点在业务逻辑上,也就是这个方法的单机最高 QPS 为  1250。

上例为一个方法的单机最高 QPS 推断,结合其他方法做同理分析,依据计算出这个方法在整个应用中对资源的占用比例就可以推算出整个应用的单机最高  QPS。

进一步分析,业务逻辑耗时也就是总耗时去除了 IO 的耗时(如 RPC 远程调用、访问数据库、读写磁盘耗时等等),业务逻辑耗时主要分为两大部分:

● 线程运行耗时(RUNNABLE)

● 线程等待耗时(BLOCKED、WAITING、TIMED_WAITING)

通过对业务逻辑耗时的分类得知,真正消耗 CPU 资源的是线程运行耗时,那么问题就变成了我们怎么拿到运行时间与等待时间的耗时比例了。

CPU 使用率(进程、线程)可以通过 proc 虚拟文件系统得到,此处不是本文重点,不展开讨论。不同环境还可以通过不同的特性快速得到这些数据。以 Java  应用为例,我们可以从 JMX 中拿到线程执行的统计情况,大致推算出上述的比例,如下图所示:

继续分析上面的例子,假设我们通过分析线程的运行情况得知,运行时间与等待时间为 1:1,此时进程 CPU 的使用率为 20%,那么 CPU
指标能支撑的单机最高 QPS 为 200 * 100% / 20% = 1000,也就是这个方法的单机最高 QPS 为  1000。同理可以推断网络带宽等物理资源的瓶颈点。

一般来说,业务逻辑耗时中,对于计算密集型的应用,CPU 计算耗时的比例比较大,而 IO 密集型的应用反之。

通过以上的数据,我们就可以实时评估系统的容量,如下图:

应用实时水位图


智能告警

根源告警分析是基于网络拓扑,结合调用链,通过时间相关性、权重、机器学习等算法,将告警进行分类筛选,快速找到告警根源的一种方式。它能从大量的告警中找到问题的根源,因此大大缩短了故障排查及恢复时间。

告警处理步骤

● 告警过滤(将告警中不重要的告警以及重复告警过滤掉)

● 生成派生告警(根源关联关系生成各类派生告警)

● 告警关联(同一个时间窗内,不同类型派生告警是否存在关联)

● 权重计算(根据预先设置的各类告警的权重,计算成为根源告警的可能性)

● 生成根源告警(将权重最大的派生告警标记为根源告警)

● 根源告警合并(若多类告警计算出的根源告警相同,则将其合并)

● 根据历史告警处理知识库,找到类似根源告警的处理方案,智能地给出解决方案。

根源告警原理图

举例来说:

假设多个系统通过 RPC 进行服务调用,调用关系如下:D 系统->C 系统-> B 系统-> A 系统。

当 A 系统查询数据库出现查询超时后,告警会层层往前推进,导致 B、C、D 系统均有 N 个超时告警产生。此时,ROOT  分析可以将告警进行收敛,直接分析出根源告警为 A 系统访问数据库异常,导致 A、B、C、D 多个系统异常。

这样,就避免了处理人员和每个系统开发人员沟通,辅助处理人员快速定位问题根源、提高了平均解决时间(MTTR)。如下图所示:

根源告警调用链关系

根源告警明细表

根源告警分析主要分为强关联分析与机器学习两类。

a.强关联数据分析

强关联指的是已知确定的关联关系。如:

● 应用之间的调用链关系

● 数据库与应用服务器

● 网络设备与网络设备、网络设备与应用服务器

● 宿主机与虚拟机关系等

若在同一个时间窗内,有多个强关联的设备或应用服务器同时告警,则大概率认为告警之间存在关联关系。

在权重算法中,有一个重要的规则,链路上存在连续的告警可能存在关联,越靠后的应用越可能是根源。现在我们根据例子,分别计算各类根源告警。

继续使用上面的例子,D 应用->C 应用->B 应用->A 应用->数据库异常的情况。

● 首先是计算数据库根源告警。根据数据库关联关系,会派生数据库类型的数据库告警、A 应用告警。还会派生一条应用类型的 A 应用数据库异常告警。

根据数据库派生告警以及数据库与应用的关联关系及权重,可以得出数据库异常导致 A 应用查询超时。

● 接下来是计算应用根源告警。根据调用关系,我们先计算出连续多个应用告警的链路。当前 D->C->B->A  四个应用都有派生告警,满足此规则。

● 然后,找到最靠后的告警应用,也就是 A 应用。列举时间窗口内所有 A  应用的派生告警(可能存在多种派生告警,根据权重计算根源),将权重最高的派生告警标记为根源告警。

比如:A 系统内部有 2 种类型派生告警,分别是数据库告警、GC 告警。

根据权重计算规则,数据库告警为 90,GC 告警  10,也就是说数据库异常告警权重最高。这时由于数据库根源告警和调用链根源告警一致,会将两种类型的告警合并。最后得出结论:数据库异常导致 A、B、C、D  系统告警。

b.机器学习根源分析

强关联数据分析是对已知告警的关联关系,直接进行根源告警分析。但是有些时候,关联关系是未知的。这时就需要通过机器学习算法,找到告警之间的隐含联系,再进行根源告警预测。

目前,主要进行了两类机器学习实践。

1、关联规则算法

关联规则算法主要进行了 Apriori 算法和 FPGrowth 两类算法的实践。这两类功能相似,都可以发现频繁项集。经过实测,FPGrowth 比  Apriori 更高效一些。

我们按一定的时间间隔划分时间窗,计算每个时间窗内,各种告警一起出现的频率,找出各类告警之间的关联。最终可按分析出的关联关系,生成根源告警

关联规则算法的优点在于理解和实现起来比较简单。缺点是效率比较低,灵活度也不够高。

2、神经网络算法

循环神经网络(简称  RNN)是一个和时间序列有关系的神经网络,对单张图片而言,像素信息是静止的,而对于一段话而言,里面的词的组成是有先后的,而且通常情况下,后续的词和前面的词有顺序关联。

这时候,卷积神经网络通常很难处理这种时序关联信息,而 RNN 却能有效地进行处理。

随着时间间隔的增大,RNN 对于后面时间的节点相比前面时间节点的感知力将下降。解决这个问题需要用到 LongShort Term 网络(简称  LSTM),它通过刻意的设计来避免长期依赖问题。LSTM 在实践中默认可以记住长期的信息,而不需要付出很大代价。

对于某类故障引起的大量告警之间,存在着时间相关性。将历史派生告警作为输入,将根源告警类型作为输出。通过 LSTM  提取派生告警特征,建立告警相关性分析模型。这样就可以实时将符合特征的派生告警,划分到同一类根源告警中,帮助用户快速定位问题。

需要说明的是金融本身的业务特点决定了对第三方存在依赖性,因此告警本身的随机性较大,客观上导致学习样本的质量不高,需要长期的积累和修正才能达到比较好的效果,因此对于根源告警,如果有条件取到强关联关系,建议使用强关联分析,能达到事半功倍的效果。

结语

智能运维是目前运维领域被炒得最火的词汇之一,但是个人认为没有一个智能运维的产品是放之四海而皆准,智能运维需要在真实的环境中不断的磨合,才能达到我们预期的效果。

随着人工智能在运维领域的不断尝试与探索,未来在运维领域中的异常检测与智能报警及自动化容量规划与分配必将得到快速的发展,从而成为运维的核心竞争力。

沈建林 ● 京东金融集团资深架构师

曾在多家知名第三方支付公司任职系统架构师,致力于基础中间件与支付核心平台的研发,主导过 RPC  
服务框架、数据库分库分表、统一日志平台,分布式服务跟踪、流程编排等一系列中间件的设计与研发,参与过多家支付公司支付核心系统的建设。现任京东金融集团资深架构师,负责基础开发部基础中间件的设计和研发工作。擅长基础中间件设计与开发,关注大型分布式系统、JVM
 原理及调优、服务治理与监控等领域。

时间: 2024-08-27 18:11:48

直击传统运维痛点,京东金融智能运维初探!的相关文章

无卡支付时代 银行信用卡联手京东金融欲打翻身仗

互联网金融的兴起带动了消费金融的快速发展,很多平台纷纷利用消费分期来提升交易额,同时,那些具有互联网基因的电商平台也大大增加了用户粘性.伴随着整个消费大潮从线上向线下回归,消费金融也开始重新向线下市场渗透,然而,线下消费金融一直是传统金融机构的战场,如今,在新技术的冲击下,传统金融机构不得不考虑开放合作,尤其是在信用卡领域,借金融科技的力量留住消费者正在成为业内共识. 现象一:京东金融白条.蚂蚁花呗纷纷加速转向线下市场 相比线上电商消费而言,线下消费有着更大的市场空间,同时也有更多的消费场景,除

三星绑定京东金融:改变传统智能硬件产品的营销模式

三星年度旗舰手机S6于4月17日在京东平台开始发售,当日便创下三个记录:第一小时销售数字创下高端手机在京东平台的销售记录:当天48%的S6手机购买用户来自移动端:每4部销售的S6手机中,就有一部是用京东白条购买的. 从"弯屏"造势开始,京东金融在预售及发售期间,京东金融整合优质平台资源,推出了"打白条"."小金库"."轻众筹"三波重磅营销攻势,全方位给三星S6的销售提供支持:选择与京东深度合作,三星在产品营销.渠道推广.服务保

基于PaddlePaddle的新能源充电桩智能运维

随着大数据.人工智能.云计算技术的日渐成熟和飞速发展,传统的运维技术和解决方案已经不能满足需求,智能运维已成为运维的热点领域.同时,为了满足大流量.用户高质量体验和用户分布地域广的互联网应用场景,大型分布式系统的部署方式也成为了高效运维的必然之选.如何提升运维的能力和效率,是保障业务高可用所面临的最大挑战.本篇文章以百度基于PaddlePaddle的新能源充电桩为切入点,深入介绍智能运维在电力行业的实际应用. 以下为演讲实录. 电力行业运维过程中的痛点与机遇 众所周知,典型电力行业包括发电.输电

智能运维就是由 AI 代替运维人员?

听了有关AI运维之后有很多人感到比较焦虑,我所从事的运维或开发将来会不会被AI给替代掉呢? 现在新技术发展的特别快,各种语言.技术.理念让大家确实感到自顾不暇跟不上趟,但是有一点,在这里我要特别重申一下,AI在目前这个阶段还是一种辅助大家来进行判断和学习.定位处理问题的工具,就像无人驾驶,现在可以做到完全没有人驾驶吗?肯定不行,未来无人驾驶是完全可以替代人的,但它还有很长一段路要走.AI运维就像无人驾驶一样,未来前景很光明,但任重道远. 大部分的智能运维还没有完全落地,我所在的企业也是处在一个探

智能运维:www6662016com从0搭建AIOps系统18288006666

互联网刚兴起的时候,运维还只是一个简单的服务安装管理及监控工作,没人会想到人类在互联网上建立了如此庞大的业务生态.从衣食住行到教育金融,服务器的规模在急剧膨胀,从简单的人力可管控,逐渐进化到依赖自动化体系来管理,但是另一方面,仅依赖工具已经不能很好地解决运维场景的需求.智能运维是建立在运维基础上,通过一定策略和算法来进行智能化诊断决策,以更快.更准确.更高效地完成运维工作的技术体系.要实现智能运维的目标,需要有平台支撑,这也是DevOps很火的原因,很多运维工程师都掌握了开发工具和平台的本领,因

海量日志分析与智能运维

以下文字版根据<大咖·来了>第3期<海量日志分析与智能运维>整理,回放链接:http://aix.51cto.com/activity/10011.html?dk=wz 一.AIOps 与智能日志中心 1.1AIOps 五等级 要说智能日志中心,首先要了解什么是智能运维.目前业界对智能运维的运用,主要分为如下五个等级. 一级是最容易的,只要你有个想法试试就行,到网管监控系统里,拿一个监控指标的曲线下来,就可以尝试异常检测. 一级还没有成熟的单点应用,当有了一个成熟的单点应用,就算是

智能运维解决方案:TOC -IT技术运行中心

TOC--IT技术运行中心(Technoical Operation Center )是网利友联在多年运维经验基础上,全新打造的一套综合智能运维解决方案. 运维现状 运维行业经过几十年的发展,基本上每个用户的信息中心都已经建立了一套完整的运维体系,这其中不乏最重要几个部分:人.物.数.业务在变,运维目标也在时刻发生着变化.如今的运维体系现状是有团队.有工具.有数据.但是面向智能运维生态的发展趋势,面对大数据分析计算场景,缺少的是数据汇聚.数据融合.告警关联分析.数据统一展现等.总结起来就是整个运

智和网管平台国产化AIOps智能运维 建立自主可控网络安全体系

没有网络安全就没有国家安全,中国作为一个崛起中的大国,网络安全至关重要.新一届中央高度重视信息安全自主可控的发展,Gartner研究报告表明,2019年中国三分之二的数据中心.IT基础设施支出流向中国本土厂商,因此,如智和网管平台SugarNMS以国产化.高拓展性为核心的智能化运维软件成为行业的前沿力量. 自主知识产权 全面深入IT国产化 IT国产化体系复杂,产业链涉及网络基础设施.服务器.存储.数据库.中间件.操作系统等众多环节.现在,服务器.PC和网络安全国产化率较高,如服务器领域依靠华为.

Gartner中国智能运维市场指南发布,擎创再次成为AIOps代表供应商

近日,Gartner发布了<中国智能运维市场指南>(以下简称"<指南>"),擎创科技再次因为在智能运维领域产品的创新力及其成熟度,被Gartner提名为AIOps领域代表供应商.而在去年7月份,擎创就被Gartner评为中国AIOps领域重点推荐服务商. Gartner<指南>指出,在中国特有的生态环境系统下,全球性的IT巨头虽然进驻中国市场数十年,但是却难以在AIOps领域扩张.主要原因在于,这些全球性供应商提供的ITOM工具的许可证模式比较昂贵,