线上问题排查的四类方法

最正统的方法

日志

这是排查问题的最常用的方法,需要预估自己每日日志量和需要存储的日志时间。申请磁盘空间时一般会留35%的冗余以备突发流量。

一般需要打日志的有:每个对外提供方法的入口和出口,调用第三方的调用前和调用后。打印内容主要包括入参和出参。https://github.com/xiexiaojing/concise-logger 我在简明日志规范里定义:几种常用的类里用切面的形式注入日志。

监控

传统的方法如果JVM出现gc等问题需要先打开gc日志,这会牺牲一些效率。但是现在业界已经普遍将这些数据上报到系统中,比如欧美常用的prometheus,国内用小米的falcon比较多。

对于数据库、调用量、响应时长等监控系统也都有统计。美团点评的CAT不仅集成了这些,还集成了依赖分析、依赖分析、心跳报表、业务大盘等。挺方便的。

报警

报警不仅可以发现问题,还可以将发生问题时已经执行到的阶段作为报警信息一起发出,便于快速定位。

linux命令

tcpdump

如果收到不明数据,又不知道数据从哪里来的,最简单的方法就是tcpdump进行抓包分析,确定数据来源。

netstat

通常用来监听连接端口的状态。常见的状态主要有:

  1. listen状态:正在监听来自远方的TCP端口的链接请求。
  2. syn-sent状态:在发送链接请求后等待匹配的连接请求。
  3. syn-received状态:在收到和发送一个链接请求后等待对方对链接请求的确认。
  4. established状态:代表一个打开的链接。
  5. fin-wait-1状态:等待远程tcp连接中断请求,或先前的链接中断请求的确认。
  6. fin-wait-2状态:从远程tcp等待链接中断请求。
  7. close-wait状态:等待从本地用户发来的链接中断请求。
  8. closing状态:等待远程tcp对链接中断的确认。
  9. last-ack状态:等待原来的发现远程tcp的链接中断请求的确认。
  10. tie-wait状态:等待足够的时间以确保远程tcp接收到连接中断请求的确认。
  11. closed状态:没有任何连接状态。

再现

我无数次的假装路过,只是为了与你一次偶然的邂逅……
这句话用到希望复现线上问题时,往往描述到位的想哭。
如果线上运行的程序遇到问题需要排查,建议优先使用最正统的方法,不行的话linux命令也可以接受。内存泄漏、并发问题等的再现成本很高。并且极其不利用快速恢复。

线上调试

如果再现之后还不不能确定问题的原因,还有最后一招不到万不得已不要用:线上调试。

工具:线上机器是linux系统,本地intelij

复制下面的信息

在线上启动参数中加上上面信息,重启。

sudo svc -du /service/XXXX/

看看监听端口有没有起来

lsof -i :8083

起来后,本地inteij开启远程debug即可。记得之前有次线上事故就是有个小哥在线上开启远程debug,请求打到断点卡在那里了。
总结

事实、数据、推论、猜测

推荐阅读

项目改进的四个抓手

技术境界的二三四

工作中常见的五种技术leader

原文地址:https://www.cnblogs.com/xiexj/p/11373936.html

时间: 2024-11-06 07:24:39

线上问题排查的四类方法的相关文章

线上操作与线上问题排查实战

转自:https://mp.weixin.qq.com/s?__biz=MjM5ODYxMDA5OQ==&mid=2651960323&idx=1&sn=e04af14d2ebf939133869e0f18bb0dd1&chksm=bd2d01df8a5a88c98c3cb94a99334a16b372fd997f36bc757a38bb44b70d977797fa840064dc&mpshare=1&scene=23&srcid=0816Yl1Rl

线上问题排查

线上操作与线上问题排查实战 技术同学需要经常登录线上的服务器进行操作,58到家架构部/运维部/58速运技术部,联合进行了一次线上操作与线上问题排查实战演练,同学们反馈有收获,特将实战演练的问题和答案公布出来,希望对大家也有帮助. 一.了解机器连接数情况 问题:1.2.3.4的sshd的监听端口是22,如何统计1.2.3.4的sshd服务各种连接状态(TIME_WAIT/ CLOSE_WAIT/ ESTABLISHED)的连接数. 参考答案: netstat -n | grep 1.2.3.4:2

服务器线上问题排查研究

线上问题诸如: 1.线上服务器CPU占用率高如何排查? 2.线上服务器Load飙高如何排查?  3.线上服务器频繁发生Full GC如何排查?  4.线上服务器发生死锁如何排查? 一:线上服务器CPU占用率高如何排查? 问题发现: 在每次大促之前,我们的测试人员都会对网站进行压力测试,这个时候会查看服务的cpu.内存.load.rt.qps等指标. 在一次压测过程中,测试人员发现我们的某一个接口,在qps上升到500以后,CPU使用率急剧升高. CPU利用率,又称CPU使用率.顾名思义,CPU利

Java架构师线上问题排查,这些命令程序员一定用得到!

Java架构师线上问题排查,这些命令程序员一定用得到! 线上问题排查,以下场景,你遇到过吗? 一.了解机器连接数情况 问题:1.2.3.4的sshd的监听端口是22,如何统计1.2.3.4的sshd服务各种连接状态(TIME_WAIT/ CLOSE_WAIT/ ESTABLISHED)的连接数. 常见方法: · netstat -n | grep 1.2.3.4:22 | awk '/^tcp/ {++S[$NF]} END {for(a in S) print a, S[a]}' · nets

JVM 线上故障排查基本操作--CPU飙高

JVM 线上故障排查基本操作 CPU 飚高 线上 CPU 飚高问题大家应该都遇到过,那么如何定位问题呢? 思路:首先找到 CPU 飚高的那个 Java 进程,因为你的服务器会有多个 JVM 进程.然后找到那个进程中的 “问题线程”,最后根据线程堆栈信息找到问题代码.最后对代码进行排查. 如何操作呢? 通过 top 命令找到 CPU 消耗最高的进程,并记住进程 ID. 再次通过 top -Hp [进程 ID] 找到 CPU 消耗最高的线程 ID,并记住线程 ID. 通过 JDK 提供的 jstac

Java 开发必须掌握的线上问题排查命令

作为一个合格的开发人员,不仅要能写得一手还代码,还有一项很重要的技能就是排查问题.这里提到的排查问题不仅仅是在coding的过程中debug等,还包括的就是线上问题的排查.由于在生产环境中,一般没办法debug(其实有些问题,debug也白扯...),所以我们需要借助一些常用命令来查看运行时的具体情况,这些运行时信息包括但不限于运行日志.异常堆栈.堆使用情况.GC情况.JVM参数情况.线程情况等. 给一个系统定位问题的时候,知识.经验是关键,数据是依据,工具是运用知识处理数据的手段.为了便于我们

Java开发必须掌握的线上问题排查命令

作为一个合格的开发人员,不仅要能写得一手还代码,还有一项很重要的技能就是排查问题.这里提到的排查问题不仅仅是在coding的过程中debug等,还包括的就是线上问题的排查.由于在生产环境中,一般没办法debug(其实有些问题,debug也白扯...),所以我们需要借助一些常用命令来查看运行时的具体情况,这些运行时信息包括但不限于运行日志.异常堆栈.堆使用情况.GC情况.JVM参数情况.线程情况等. 给一个系统定位问题的时候,知识.经验是关键,数据是依据,工具是运用知识处理数据的手段.为了便于我们

JVM 线上故障排查基本操作

# 前言 对于后端程序员,特别是 Java 程序员来讲,排查线上问题是不可避免的.各种 CPU 飚高,内存溢出,频繁 GC 等等,这些都是令人头疼的问题.楼主同样也遇到过这些问题,那么,遇到这些问题该如何解决呢? 首先,出现问题,肯定要先定位问题所在,然后分析问题原因,再然后解决问题,最后进行总结,防止下次再次出现. 今天的文章,就如我们的题目一样,讲的是基本操作,也就是一些排查线上问题的基本方法.为什么这么说呢?因为线上问题千奇百怪,就算是身经百战的专家也会遇到棘手的问题,因此不可能在一篇文章

JVM 线上故障排查基本操作--内容问题排查

内存问题排查 说完了 CPU 的问题排查,再说说内存的排查,通常,内存的问题就是 GC 的问题,因为 Java 的内存由 GC 管理.有2种情况,一种是内存溢出了,一种是内存没有溢出,但 GC 不健康. 内存溢出的情况可以通过加上 -XX:+HeapDumpOnOutOfMemoryError 参数,该参数作用是:在程序内存溢出时输出 dump 文件. 有了 dump 文件,就可以通过 dump 分析工具进行分析了,比如常用的MAT,Jprofile,jvisualvm 等工具都可以分析,这些工