阿里云性能监控 ARMS 全真3D拓扑揭秘

摘要: 微服务架构下,各类服务之间存在着错综复杂的依赖关系。一旦业务出现问题,追查问题源头就好比大海捞针,没有头绪。但业务不等人,此时,在最短的时间内定位问题根源是开发和运维人员对微服务监控产品的核心诉求。 传统的监控产品提供了表格(table)、表单(form)和仪表盘(dashboard)三种展现形式,因其局限性,并无法完整和直观的提供监控详情,以快速定位问题。

微服务架构下,各类服务之间存在着错综复杂的依赖关系。一旦业务出现问题,追查问题源头就好比大海捞针,没有头绪。但业务不等人,此时,在最短的时间内定位问题根源是开发和运维人员对微服务监控产品的核心诉求。

传统的监控产品提供了表格(table)、表单(form)和仪表盘(dashboard)三种展现形式,因其局限性,并无法完整和直观的提供监控详情,以快速定位问题。阿里云性能监控 ARMS 新推出的全真3D拓扑功能给这个问题带来了完美的解决方案。ARMS 3D拓扑功能,创新地采用三维立体的方式展示系统中真实的架构层级和关系,利用ThreeJS的前端框架建立一个立体的监控空间,让用户一目了然地看到系统的结构与状态。

传统监控方式的不足
在传统的监控产品中,我们最常见的界面就是表格、表单和仪表盘这三种,但这三种界面皆有其局限性。

表格:通常用于展示大量数据,信息密集,频繁翻页,大部分内容为数值和文字,不够直观。
表单:用于展示某个实例的详细内容,涉及大量文字和图表的阅读。缺点是一次只能聚焦一个实例,如有下层信息,需要跳转到更深层级。
仪表盘:以图表形式对信息的聚合展示,更直观和生动。但一个版面展示信息有限,一般下层信息阅读量就很少。
因为这种界面形式上的限制,我们常常不得不面对让人头昏眼花的大量表格,为了定位一个问题反复跳转,一不留神就迷失在茫茫数据中,想要理解数据之间的关系只能靠经验和记忆。

ARMS的监控创新
ARMS 通过使用全真3D的方式(简称 ARMS 3D拓扑)去展示系统的立体性,帮助用户快速理解和追踪系统节点中的关系。

首先,我们将系统从底到上抽象为 主机-应用-服务 这三个层级,这也是我们在传统监控方式中关注最多的三层信息。在这三个层级上的模块分别代表系统中真实存在的主机(ECS/物理机)- 应用 - 服务。纵向的连线代表主机对应用的支持,以及服务在应用上的归属。

用户除了可以从全局视角看到自己的整个系统,也可以单独缩放和旋转某一层级,详细查看主机的集群和负载情况,应用之间的调用关系,以及服务的调用量、错误率等。下面我们来一一介绍各层级展示的内容。

应用层
应用层展现内容有四个部分:

中心应用
中心应用依赖的应用
使用中心应用服务的应用
中心应用依赖的中间件
总的来说,就是展示服务自身、服务被谁调用以及服务间的依赖关系。点击应用,会弹出右侧面板,应用的QPS、RT、ERROR的信息都在上面展示。同时,动态的连线关系让我们更清楚地看到应用之间的调用关系,以及中间件组件对系统的支持,甚至底层、主机层每个主机的健康情况。

服务层
服务层就是展示各个应用提供的服务详情信息,鼠标滑过就有服务名展示,颜色表示这个服务的响应时长超过阈值(可配置),需要关注。

主机层
主机层展现的是各个应用的主机详情,点击每个主机可以看到主机的CPU、MEM、Load信息,超过阈值的指标会标记颜色。另外还会展现主机的静态信息,比如主机所隶属的机房、单元、主机名称、JVM、Tomcat版本信息等。

以往我们从出错的服务到应用,再定位到具体的机器,可能需要十几次页面跳转,而在 ARMS 3D拓扑 的三维世界中,我们在一个页面中就可以完成这些动作。三维世界的交互方式—拉近、拉远、转换视角和折叠展开,代替了页面的跳转。用户无论拉近到哪个机器或应用,都可以快速的理解自己在系统中所处的位置以及和其他层级的关系,不会因为操作链路过长而迷失自己。

接入方式
当前,ARMS 3D拓扑功能已经上线,用户只要成功接入ARMS的探针,就能以3D的方式去查看自己的系统状态,不需要额外的操作与费用。

总结
ARMS 3D拓扑功能提供了一种全新的交互方式,扩充了和应用沟通的维度,实现了360度全方位诊断性能瓶颈和故障节点,以甄别故障出现时,哪些应用和哪些关联的主机出现了问题等,从此,应用离我们如此之近。

原文地址:http://blog.51cto.com/14031893/2318908

时间: 2024-10-17 10:08:15

阿里云性能监控 ARMS 全真3D拓扑揭秘的相关文章

阿里云自定义监控tomcat进程数

阿里云提供自定义监控SDK,这有助于我们定制化的根据自身业务来做监控,下面我就根据业务需求来介绍一个简单的自定义监控配置. 阿里提供了2个版本的自定义监控接口:自定义监控SDK(python版) :cms_post.py自定义监控SDK(bash版) :cms_post.sh下载地址:http://help.aliyun.com/knowledge_detail.htm?knowledgeId=5974901 本文使用shell版本做演示       这里说下我的简单需求,我们需要监控ECS服务

阿里云自定义监控-系统文件MD5校验

1.文件md5校验hashlib模块 hashlib.md5() 2.文件比对模块filecmp模块 filecmp.cmp('md5File', 'md5File_new'): ##文件一直返回True 不一致返回False 3.打开文件操作with open ..... as f: ##不用close关闭文件 4.格式化字符串输出tring = "%s %s\n" % (md5.hexdigest(),line.strip()) 脚本示例: #!/usr/bin/python #

阿里云自定义监控

自定义监控:对上面监控的补充,可以自定义相应的监控项,在服务器上执行相应的脚本采集数据,然后调用阿里云封装的JDK将数据上传,进行报警处理. 下载阿里云的JDK到服务器相应的目录下 http://help.aliyun.com/knowledge_detail.htm?knowledgeId=5974901 /usr/local/aegis/aegis_quartz/aegis_quartz/libexec/user 添加自定义的选项 报警规则: 这里要注意地段后填写的内容,这个是与上传的字段匹

阿里云基础监控

一.云服务器的优势: 云服务器(Elastic ComputeService, ECS)是一种处理能力可弹性伸缩的计算服务,其管理方式比物理服务器更简单高效.服务器是建立在可靠的资源池上,基本不用考虑服务器的硬件故障,资源池就是一个冗余的环境.云服务器帮助您快速构建更稳定.安全的应用,降低开发运维的难度和整体IT成本,使您能够更专注于核心业务创新. 二.阿里云的安全配置 1.云盾: A.安骑士:为云服务器提供防黑客入侵的服务,包括木马查杀.防密码暴力破解.异地登录提醒.高危漏洞检测修复.体检加固

阿里云 ECS 监控报警设置

1.阿里云监控项说明 https://helpcdn.aliyun.com/document_detail/43505.html 2.监控设置 3.报警规则 4.设置阈值 5.确定即可. 6.效果图 原文地址:https://www.cnblogs.com/zoulixiang/p/9473789.html

阿里云性能真的是差到了极点……

一个简单的SELECT COUNT(*) 要6秒 select count(*) from tb where status=1 #运行花费6-10秒 吞吐能力 阿里云 [[email protected] ~]# cd /tmp && dd if=/dev/zero of=t.img bs=4096 count=10000 conv= ync 10000+0 records in 10000+0 records out 40960000 bytes (41 MB) copied, 0.99

面向视频的全新AI架构 —— 阿里云智能视觉技术全解

我们都知道,AI技术正在以可见的速度被应用于各行各业,然而绝大部分业务场景想应用AI技术,都需要算法工程师根据自身业务的标注数据,来进行单独训练,才能打磨出合适的AI模型.如此一来,如何以最低的门槛和成本,实现AI技术落地变成了行业急需解决的问题. 市场上的AI服务非常多,但是在视觉领域,通用的AI服务主要是基于图像的架构来做的,视频时代已经到来,基于图像的AI架构是否还能被广泛应用?阿里云视频云团队专注于视频领域,所以在针对视频的AI处理方面也有独特的思考和实践.3月27日下午,第51期阿里云

自定义监控(阿里云&zabbix)

自定义监控(阿里云&zabbix) 目前阿里云对25端口有限制,无法在阿里云上搭建邮件服务器发送告警邮件,如果需要邮件通知,可以采取下面方法: 1.开同阿里云企业邮箱 2.使用阿里云监控告警 3.第三方zabbix自定义脚本监控 一.阿里云自定义监控 阿里云提供自定义监控SDK,这有助于我们定制化的根据自身业务来做监控,下面我就根据业务需求来介绍一个简单的自定义监控配置. 阿里提供了2个版本的自定义监控接口: 自定义监控SDK(python版) :cms_post.py 自定义监控SDK(bas

阿里云平台A监控系统故障总结

阿里云平台监控系统显示pending 状态故障总结 各位网友,各位同行,大家好! 今天遇到了一个问题监控平台服务器显示pending的状态,显示蓝色,把自己解决问题的心得体 会,解决问题的小的思路和解决办法分享一下,如下所示描述: 问题描述1:A监控系统SLB负载均衡产品服务器显示pending蓝色的状态:(备注:正常的状态是 绿色位正常的状态: 解决思路和办法1:登陆负载均衡产品SLB服务器,查看配置文件目录cd /usr/alisys/dragoon/conf 查看是否有staragent.