自己整理的一些性能问题诊断的排查思路

1、线上线下用户效率低:
    1.1、应用服务器资源高
        1.1.1、应用服务器CPU高
            1.1.1.1、看windows中的process queue length或linux的avg load,确认是否硬件资源不足;
            1.1.1.2、取线程dump,查看runnable状态的工作线程和jvm的gc线程;
            1.1.1.3、取GC日志,查看是否gc操作频繁;
        1.1.2、应用服务器磁盘IO高
            1.1.2.1、确认程序是否不断生成新的html静态页面;
            1.1.2.2、内存使用,是否用到了虚拟内存;
            1.1.2.3、日志写入频繁;
        1.1.3、应用服务器内存使用高
            1.1.3.1、确认JVM堆内存、栈内存、线程数大小;
            1.1.3.2、确认应用是否是虚拟机;               
    1.2、数据库服务器资源高
        1.2.1、数据库服务器CPU高
            1.2.1.1、看windows中的process queue length或linux的avg load,确认是否硬件资源不足;
            1.2.1.2、取ASH查看top sql;
            1.2.1.3、取AWR报告;
        1.2.2、数据库服务器磁盘IO高
            1.2.2.1、确认磁盘配置、转数、是否raid、raid几;
            1.2.2.2、确认SWAP使用
        1.2.3、数据库服务器内存使用高
            1.2.3.1、数据库的内存配置
            1.2.3.2、
     1.2、资源使用低
        1.2.1、取线程dump,查看block状态的工作线程和jvm的gc线程
        1.2.2、取awr报告,查看等待事件

2、线上用户使用正常,线下效率低;
     多为某类资源达到上限导致:
     检查连接数(是否有线程池)、前端连接数、应用服务连接数、操作系统文件句柄数、TCP连接数(默认一般最大2000)、可用内存等。

时间: 2024-10-16 12:02:17

自己整理的一些性能问题诊断的排查思路的相关文章

如何对应用服务性能问题诊断(Tomcat、Weblogic中间件)

在我们web项目中,我们常见的web应用服务器有Tomcat.Weblogic.WebSphere.它们是互联网应用系统的基础架构软件,也叫"中间件",负责处理动态在页面请求,并为应用提供了名字.事务.安全.消息.数据访问等,此外,它们还是提供应该构建的开发.部署.运行及管理功能. 当我们对项目做性能测试时,我们如何更好地监控它们,并诊断出性能问题呢?下以是我对Tomcat和Weblogic的一些性能监控分析方法: 1.  Tomcat性能监控分析 Tomcat是一个免费的开放源代码的

51CTO学习笔记--Linux运维故障排查思路与系统调优技巧视频课程(高俊峰)

51CTO学习笔记--Linux运维故障排查思路与系统调优技巧视频课程 第一课 Linux运维经验分享与思路 1.一般把主机名,写到hosts下    127.0.0.1    hostname,因为很多应用要解析到本地.oracle没有这个解析可能启动不了. 2.注释掉UUID以及MAC地址,需要绑定网卡的时候,这个可能会有影响. 3.磁盘满了无法启动,  var下木有空间,无法创创建PID等文件,导致文件无法启动,按e   进入single  然后b  重启进入单用户模式. 4.ssh登陆系

AD常见故障排查思路

AD常见故障 活动目录在域环境中起着非常关键的作用,它与各种应用联系紧密,如域用户登录.访问域内共享资源.部署组策略等都需要通过活动目录.活动目录不仅内部的众多功能模块联系密切,而且网络的连通性,网络协议和安全策略等有关,所以处理活动目录时必须综合考虑. 在实际应用中,可能会遇到以下几种AD故障类型. 域连接失败:将计算机加入到域的时候,提示找不到域. 域无法登录:客户端登录域的时候始终提示用户名或密码不正确,或登录域后,无法正常访问网络共享. 域登录缓慢:客户端在登录域的时候非常缓慢,严重影响

Linux系统之运行状态分析及问题排查思路

〇.一件事儿 以下分析是站在Java工程师的角度来分析的. 一.CPU分析 分析CPU的繁忙程度,两个指标:系统负载和CPU利用率 1.系统负载分析 系统负载:在Linux系统中表示,一段时间内正在执行进程数和CPU运行队列中就绪等待进程数,以及非常重要的休眠但不可中断的进程数的平均值(具体load值的计算方式,有兴趣可以自行深究,这里不深究).说白了就是,系统负载与R(Linux系统之进程状态)和D(Linux系统之进程状态)状态的进程有关,这两个状态的进程越多,负载越高. 查看系统负载,见t

linux开机获取不到IP排查思路

最近发现linux主机重启老是获取不到IP,每次都要手动dhclient eth0一下,很麻烦. 想了下,可能有问题 于是乎,就有这个排查思路: 1.查看开机时是否将网卡连接上来: 2.在虚拟机内使用命令查看,是否开机启动network服务,主要看3,5两个级别,最好开启: 3. 另外还需要看下网卡配置文件,是否配置正确,主要看 ONBOOT:开机启动网卡.这一项要是yes BOOTPROTO:网络分配方式,静态,这里需要小写,例如dhcp(dhcp自动获取),static(以静态IP方式存在)

原创Couldn't read packet: Connection reset by peer 错误排查思路(推荐)

作为一个运维 不是你懂多少知识才是你的价值 你有幸能遇到多少错误才是你的最大的价值 知识 你有我有大家有  错误我有你没有 这便是我的价值 我遇到一个错误 蛮难遇到的一个错误 所以想分享给大家 下面我在模拟机演示给大家 用 root权限 避免你们说是因为权限的错误 2017年9月5日 我在切换sftp时候遇到一个错误(端口号是22 说写端口号的闭嘴) [[email protected] ssh]# sftp [email protected] Connecting to 10.0.0.31..

windows入侵排查思路

0x00 前言 当企业发生黑客入侵.系统崩溃或其它影响业务正常运行的安全事件时,急需第一时间进行处理,使企业的网络信息系统在最短时间内恢复正常工作,进一步查找入侵来源,还原入侵事故过程,同时给出解决方案与防范措施,为企业挽回或减少经济损失. 常见的应急响应事件分类: web入侵:网页挂马.主页篡改.Webshell 系统入侵:病毒木马.勒索软件.远控后门 网络攻击:DDOS攻击.DNS劫持.ARP欺骗 针对常见的攻击事件,结合工作中应急响应事件分析和解决的方法,总结了一些Window服务器入侵排

windows应急响应入侵排查思路

0x00 前言 ? 当企业发生黑客入侵.系统崩溃或其它影响业务正常运行的安全事件时,急需第一时间进行处理,使企业的网络信息系统在最短时间内恢复正常工作,进一步查找入侵来源,还原入侵事故过程,同时给出解决方案与防范措施,为企业挽回或减少经济损失. 常见的应急响应事件分类: web入侵:网页挂马.主页篡改.Webshell 系统入侵:病毒木马.勒索软件.远控后门 网络攻击:DDOS攻击.DNS劫持.ARP欺骗 针对常见的攻击事件,结合工作中应急响应事件分析和解决的方法,总结了一些Window服务器入

Linux应急响应入侵排查思路

0x00 前言 ? 当企业发生黑客入侵.系统崩溃或其它影响业务正常运行的安全事件时,急需第一时间进行处理,使企业的网络信息系统在最短时间内恢复正常工作,进一步查找入侵来源,还原入侵事故过程,同时给出解决方案与防范措施,为企业挽回或减少经济损失. 针对常见的攻击事件,结合工作中应急响应事件分析和解决的方法,总结了一些Linux服务器入侵排查的思路. 0x01 入侵排查思路 一.账号安全 基本使用: 1.用户信息文件/etc/passwdroot:x:0:0:root:/root:/bin/bash