如何使用阿里云ARMS诊断Java服务端报错问题

摘要: 这是ARMS团队推出的“网站常见问题1分钟定位系列篇”第二文。

我的网站为什么一错再错
网页报错,尤其是5XX错误是互联网应用最常见的问题之一。5XX错误通常发生于服务端。服务端是业务逻辑最复杂,也是整条网络请求链路中最容易出错、出了错最难排查的地方。

运维工程师与研发工程师排查此类问题,通常要通过登录机器查看日志来定位问题。对于一般的Java应用错误日志,通常是这幅模样:

一般来说,对于逻辑不算太复杂、历史不算“太悠久”的应用来说,登录机器看日志的方式能够很大程度上地解决网站报错的问题。但遇到下列情况时,使用传统的方式可能就有些困难:

在一个分布式Java应用集群中,我想知道这类错误每分钟发生了多少次,什么时候开始发生的;
系统太老,遗留异常我不想管了,我只想知道,今天和昨天相比,发布前和发布后相比,多了哪些异常;
我想知道这个错误对应的是哪个Web请求,Web请求的参数是什么;
客服给了我一个用户下单失败的订单号,我想知道这个用户下单为啥失败,到底哪里错了;
使用阿里云ARMS的0埋点技术,1分钟定位“错”问题
利用阿里云ARMS(应用实时监控 - 链接)的异常自动捕捉、收集、统计、溯源能力,您只需要在您的应用启动脚本中增加几行探针加载逻辑 - 链接,不需要对您的应用代码做任何改动,即可以让应用中所有“错”调用无处可逃。

1、对应用中的所有错误进行全方位监控,只需要安装ARMS Java探针(如果您的应用托管于EDAS,您甚至可以跳过这一步 - 链接)

开通ARMS,并创建应用;
下载Java探针包并解压;
在Java应用启动脚本中增加 -javaagent:/{user.workspace}/ArmsAgent/arms-bootstrap-1.7.0-SNAPSHOT.jar -Darms.licenseKey=xxx -Darms.appId=xxx (appId和licenseKey根据页面分配的信息填写,详情可看 - 链接)
打开ARMS页面,数据开始上报,验证Java探针安装成功。

2、所有“错”一览无余

成功安装探针后,在应用概览中我们立即就能看到系统中发生的所有“异常”,异常类型的分布以及发生次数。

点击“应用详情”,可以看到更详细的异常分布图,您可以看到集群或者单台机器的错误详情,从下图中,我们可以看到从11点开始系统的错误发生了激增的现象!
3、错误溯源:找到导致错误的原因

光看到错误的分布还远远不够,我们需要知道这个错误发生的原因。虽然日志中Java的异常堆栈中包含了调用的代码片段,但并不包含这次调用的完整上下游和请求参数。
ARMS的探针技术,通过字节码增强技术,可以以很小的性能开销完整捕获异常上下游的完整调用快照,让异常的原因更加清晰。

我们可以从调用链快照中清晰地看到一次异常中的完整链路,我们甚至可以看到这次调用的详细的请求参数和异常日志,以获得更加详细的问题上下文信息。
至此,我们完成了一次全白屏化的线上错误诊断过程,通过ARMS探针诊断工具,再也不需要登录机器诊断线上错误问题了。
4、防患于未然 -- 设置告警

当然,您可以在ARMS的告警设置中对某一个接口或全部接口设置告警,让页面接口出现错误时第一时刻通知到您的运维团队。

原文链接

本文为云栖社区原创内容,未经允许不得转载。

原文地址:http://blog.51cto.com/13876536/2161996

时间: 2024-10-06 22:39:38

如何使用阿里云ARMS诊断Java服务端报错问题的相关文章

使用阿里云服务器搭建svn服务端

前言:我这边使用的是windows server2012 1.svn服务端安装 安装过程与工程创建参考这我篇文章https://www.cnblogs.com/gj-blog/p/9355373.html 2.配置svn服务端 到这一步,你应该已经安装了svn服务端,并且创建了项目工程与用户 2.1先配置VisualSVN Server 点击ok 2.2配置阿里云服务器安全组规则 打开浏览器登录阿里云域名控制台并登录 点击管理 点击本实例安全组 点击配置规则 添加安全组规则 点击确定. 3.连接

阿里云ESC搭建SVN服务端

CentOS7)下yum命令快速安装svn服务端,学习在思考中独孤中度过,在孤独中进取! 01.SVN服务的安装(subversion) 02.ESC安全组策略 1.在线安装svn服务 $ sudo yum install subversion 测试安装是否成功: $ svnserve --version 2. 建立版本库 创建svn数据目录(subversion默认是把/var/svn作为数据根目录的,开机启动默认也是从这里): $ sudo mkdir -p /svn_root/ 创建版本库

阿里云专有网络GitLab6.3.1启动报错 master failed to start

帮朋友搭建Gitlab环境,前面所有步骤均正常操作,但是在启动时候,报错: master failed to start, check stderr log for details. 硬件环境:阿里云ECS主机 网络:专有网络 启动时现象: [[email protected] ~]$ /etc/init.d/gitlab restart Removing stale Unicorn web server pid. This is most likely caused by the web se

docker之阿里云centos 7.x 启动容器报错处理办法

最近阿里云服务器(操作系统centOS 7.x) 安装docker,参照阿里云帮助文档https://help.aliyun.com/document_detail/51853.html?spm=a2c4g.11186623.4.1.32f34c07tZ5Knr. 安装过程顺利进行,包括拉取镜像资源,但是运行容器的时候出现了问题,入下图所示: 尝试了度娘给的各种方案,无法处理,只得阿里云提交工单,进行咨询,沟通一上午的时间,最后也是无果而终. 无奈了,只得回头重新浏览各种博客文章寻找答案,原文参

解决阿里云部署 office web apps ApplicationFailedException 报错问题

查找这个问题,确实花费了很长时间,所以具体解析一下问题原因吧. 报错如下: 问题详情链接 New-OfficeWebAppsFarm:Office Online服务无法启动.有关详细信息,请参阅Windows应用程序事件日志 + New-OfficeWebAppsFarm -InternalUrl"http://"...... + ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~ ~~~~~~~~~~~~~~~~~~~~ + Cat

关于Eureka客户端连接服务端报错问题Cannot execute request on any known server

对于Eureka包这个错误问题:Cannot execute request on any known server,总的原因就是连接Eureka连接服务端的Url地址不对,Url地址不对很很多情况. 一.比如服务端自己连接自己报错,也就是说你可能忘记在eureka服务中配置如下代码. 默认都是开启的. eureka.client.registerWithEureka=false eureka.client.fetchRegistry=false 二.可能是你的配置的去服务注册中心的地址写错了.

阿里云的NoSQL存储服务OTS的应用分析

这篇文章主要介绍了阿里云的NoSQL存储服务OTS的应用分析,OTS作为阿里巴巴开发的NoSQL存储技术服务现已面向用户商业化,需要的朋友可以参考下. 1. 概要  OTS是构建在阿里云飞天分布式系统上的NoSQL存储服务,提供海量结构化数据的存储和实时访问.OTS以实例和表来组织数据,通过自动的数据分区和负载均衡技术,对应用提供规模(数据和访问)的无缝扩展.应用通过调用OTS API/SDK或者操作管理控制台来使用OTS服务.OTS服务具有以下几个主要的特点:  规模可扩展:OTS具备可扩展的

阿里云邮件推送服务

提起邮件服务,最早之前一般自建邮件服务器,需要硬软件和运维的支持,稳定性也难保证,随着云服务的普及邮件推送功能的服务化是趋势,也省钱省事省心. 最早开始用过搜狐邮件服务,阿里云生态现在基本都出现了,我们来尝试一下阿里云的邮件推送服务: 一.阿里云控制台操作 首先在阿里云邮件推送控制台添加域名,然后在自己的dns服务器中添加如下的解析(根据控制台中的“配置”): 一个主机名为aliyundm的TXT记录,用于验证域名所有权 一个主机名为空.值为v=spf1 include:spf1.dm.aliy

解决.NET Core中MailKit无法使用阿里云邮件推送服务的问题

在博问中(.net core怎么实现邮件发送)知道了MailKit无法使用阿里云邮件推送服务发送邮件的问题,自已实测也遇到同样的问题,而用自己搭建的邮件服务器没这个问题. 于是,向阿里云提交了工单...在提供了TCP抓包数据后,阿里云技术专员发现了问题所在:在认证通过后,MailKit发送了EHLO命令,然后才发送MAIL FROM命令,服务器在收到EHLO时会重置客户端的认证状态,所以后续的命令过来时,服务器认为客户端没有认证,于是报错“503 Bad sequence of commands