网站故障-排查步骤

作为一家中型网站的运维工程师,真实遇到网站GG了,寻求理想排查步骤,自己心得,附加网友观点

网站挂了,

1、ping我的网站主站IP,可能是禁ping,不通,可能是机房网络问题,那么就去ping机房的网关!

2、机房网络如果没问题的话,那我会去看访问是什么情况,服务器异常或者是nginx报错的话,

那我     会排查一下硬件,我的网站是用简单的nginx负载+对外防火墙的,那我就看看access。log,

统计一下这阶段可疑IP以及行为,如果有攻击,先拉黑可疑黑名单

3、tracert,我会看看我访问网站路由问题,可不可能跨域问题,联通网络访问挂了?还是电信?看看DNS是不是被劫持了

4、这时候我再看下服务器,我的网站程序是tomcat运行的,看看tomcat进程是否僵死,看看日志情况,一般来说,

只要负载(lvs的排查lvs---有点不会),没得问题,一般不会http请求堆积在一个server上,那可能负载权重问题

,或者说我的tomcat(或者其他web容器,内存设定问题)

5、对了,可以试试单点登录一台节点看看,遇到内部程序转发的。内部curl看看,

或者使用httprequest看看post和get访问的放回那个状态码  200是OK

大神解说:方案最佳:

【高级】 帝都——大师兄 2016/8/2 21:54:06

我会先看看监控,因为监控上基本上你这些检测,我都做了。

通过监控数据,先缩小排查范围。针对性去找故障点,排查。你这一套下来,估计业务中断也有一段时间了。

【高级】 帝都——大师兄 2016/8/2 21:55:54

快速响应,先把影响降低到最小。这是你应该做的。

【高级】 帝都——大师兄 2016/8/2 21:56:09

问题可以先放后,先把业务恢复上来。

【高级】 帝都——大师兄 2016/8/2 21:56:23

业务是关键,问题可以慢慢查。

【高级】 帝都——大师兄 2016/8/2 21:56:41

因为有日志,和监控数据所以可以慢慢分析具体哪里导致的业务中断。

【高级】 帝都——大师兄

整个工作在你接手时,就应该预先考虑到,网站挂掉后,如何可以立刻恢复上来,大公司更是用户无感知的恢复。小公司因为各种限制,可能会稍微有点影响。

【高级】 帝都——大师兄 2016/8/2 21:59:55

等到网站挂掉,你在去各种查问题,你已经晚了。

【高级】 帝都——大师兄 2016/8/2 22:00:56

个人观点,仅供参考。

时间: 2024-12-25 11:58:51

网站故障-排查步骤的相关文章

网站故障排查几个简单步骤

1.top命令查看cpu消耗多少(id%的值和%cpu要是一直是几百就是问题了.%wa要是大于30%也是压力大了).还有看负载的3个值(和cpu线程是1比1关系.要是值大于线程书,那么也是压力过大.) top命令要是发现cpu消耗过多,可以知道是哪几个进程了. 2.查看硬盘使用情况.有时候监控不好可能会被日志文件撑死.df -h (即时清理无用的,否则一满什么问题都会出现) 3.查看内存使用情况.free -m 4. 查看12.6% wa IO等待所占用的CPU时间的百分比,高过30%时IO压力

一个网站故障排查的、代码更新的简便脚本

故障排错脚本 由于近来公司的服务器经常会出点小问题,基于各种原因要去排错.这里我用python写了一个脚本,主要四调用os模块操作.有一个是要统计mysql最大连接数的.因为好像python不支持"show processlist",所以自己写了一个模块mysqlconn.py.放在/python目录下.这个模块的作用主要是执行"sh /python/mysqlconn.sh".这个脚本.然后脚本会生成一个叫mysqlconn.txt文件放到:/python/mys

CentOS服务器上搭建Gitlab安装步骤、中文汉化详细步骤、日常管理以及异常故障排查

一, 服务器快速搭建gitlab方法 可以参考gitlab中文社区 的教程 centos7安装gitlab:https://www.gitlab.cc/downloads/#centos7 centos6安装gitlab:https://www.gitlab.cc/downloads/#centos6 如下方法按照官网来操作,手工安装过于麻烦.当前测试平台为小鸟云的三个月centos 7测试机. 1. 安装配置依赖项 如想使用Postfix来发送邮件,在安装期间请选择'Internet Site

云计算之路-阿里云上-寒流来袭:2014年12月23日21:45-23:15网站故障

1个多小时间的网站故障给大家带来很大的麻烦,在这里我们表示深深的歉意!希望大家能够谅解! 这两天上海的气温在回升,而杭州的云上却突然袭来一股寒流. 12月23日晚上,阿里云进行了一次RDS的发布,在这次发布中自动地修改了我们的数据库连接数限制,谁也不知道,然后... 21:45:52左右开始,日志中出现大量执行时间超过5秒的请求. 然后出现超过10秒.20秒...甚至超过100秒的请求. 21:46:50左右,开始出现数据库连接错误: System.Data.SqlClient.SqlExcep

ceph 集群报 mds cluster is degraded 故障排查

ceph 集群版本: ceph -vceph version 10.2.7 (50e863e0f4bc8f4b9e31156de690d765af245185) ceph -w 查看服务状态: mds cluster is degraded      monmap e1: 3 mons at {ceph-6-11=172.16.6.11:6789/0,ceph-6-12=172.16.6.12:6789/0,ceph-6-13=172.16.6.13:6789/0}             el

Windows 故障排查,RPC服务不可用

请查看如下网站 http://social.technet.microsoft.com/wiki/contents/articles/4494.windows-server-troubleshooting-the-rpc-server-is-unavailable.aspx#The_RPC_Server Windows 故障排查,RPC服务不可用

SQL Server 2008性能故障排查(三)——I/O

原文:SQL Server 2008性能故障排查(三)--I/O 接着上一章:CPU瓶颈 I/O瓶颈(I/O Bottlenecks): SQLServer的性能严重依赖I/O子系统.除非你的数据库完全加载到物理内存中,否则SQLServer会不断地把数据库文件从缓存池中搬进搬出,这会引起大量的I/O传输.同样地,日志记录在事务被声明为已提交前必须写入磁盘.最后,SQLServer基于许多原因使用tempdb,比如存储临时结果.排序和保持行版本.所以一个好的I/O子系统是SQLServer性能关

SQL Server 2008性能故障排查(二)——CPU

原文:SQL Server 2008性能故障排查(二)--CPU 承接上一篇:SQL Server 2008性能故障排查(一)--概论 说明一下,CSDN的博客编辑非常不人性化,我在word里面都排好了版,贴上来就乱得不成样了.建议CSDN改进这部分.也请大家关注内容不要关注排版.同时在翻译的过程中本人也整理了一次思路,所以还似乎非常愿意翻译,虽然有点自娱自乐,但是分享给大家也是件好事 CPU 瓶颈: CPU瓶颈可能因为某个负载所需的硬件资源不足而引起.但是过多的CPU使用通常可以通过查询优化(

VS2012+Win7网站发布详细步骤

VS2012+Win7网站发布详细步骤 本机环境: 本文分三个部分介绍Web项目发布的常规方法,大神级别可以略过,主要是为了方便一些初学者. 第一部分:VS2012把项目发布到文件系统. 第二部分:IIS配置发布好的项目. 第三部分:常见问题处理. 第一部分:VS2012把项目发布到文件系统. 1.打开你的VS2012网站项目,右键点击项目->菜单中选择“重新生成”一下网站项目:再次点击右键->发布: 2.弹出网站发布设置面板,点击<新建..>,创建新的发布配置文件: 输入自己定义