排错思路

1.服务器遇到故障如何排除?

http://blog.jobbole.com/36375/

必须先搞清楚故障的具体情况:

o    故障的表现是什么?无响应?报错?

o    故障是什么时候发现的?

o    故障是否可重现?

o    有没有出现的规律(比如每小时出现一次)

o    最后一次对整个平台进行更新的内容是什么(代码、服务器等)?

o    故障影响的特定用户群是什么样的(已登录的, 退出的, 某个地域的…)?

o    基础架构(物理的、逻辑的)的文档是否能找到?

o    是否有监控平台可用? (比如Munin、Zabbix、 Nagios、 … 什么都可以)

o    是否有日志可以查看?(日志管理工具比如Loggly、ELK、 Graylog…)

w 、last、 history查看有哪些用户在线,做过哪些操作。

ps查看有哪些进程、分辨出哪些该有的和不该有的。

netstat查看相关端口。

free、 uptime 、top查看一下cpu、内存。

日志!



2.服务器宕机了怎么办?

针对服务器可能发生的宕机情况,我们肯定要先设立应急预案。

财力允许的情况下,最好是为每一台服务器配备物理冗余。同步更新数据,故障发生及时切换。

故障发生后,第一位是恢复业务,第二位是排查。

首先,启动服务器,看是否能够登录,如果可以,可以通过如下方式进行检查。

a、是否是应用程序导致内存溢出或者泄露,out of memory导致;

b、是否是进程过多或者不断创建,耗尽资源导致;

c、是否是数据库程序死锁,连接数过多导致;

d、是否是应用程序异常导致;

e、是否是流量负载过大导致;

f、是否是遭受黑客入侵攻击导致;

g、是否是误操作导致;

可以通过查看系统日志来查看是否有异常登录现象的发生。当然了,如果连登录都无法完成,或者通过如上的处理方法都没能处理,那么,您就联系客服人员进行排查。当然了,了解具体问题所在,也就不成问题了。



3、web访问慢的,如何定位问题解决?

·        是否普遍较慢?检测先环节:单个浏览器的问题?电脑问题?电信运行商?

·        查看服务器的同时连接数,是不是同时连接人数太多,已经超过服务器的正常负载。

·        查看服务器的TCP连接情况,是不是被DDOS了。

·        查看服务器的内存使用量,是不是某个应用出现问题,造成内存泄漏了。

·        通过iostat、vmsta查看cpu的io,磁盘的读写速率。

·        查看各种日志。

·        数据库的链接情况。

·        程序本身。

层层检测,步步排查

时间: 2025-01-09 06:23:51

排错思路的相关文章

rsync服务端排错思路

rsync服务端排错思路 查看rsync服务配置文件路径是否正确,正确的默认路径为/etc/rsyncd.conf 查看配置文件里host allow,host deny,允许的ip网段是否是允许客户端访问的ip网段 查看配置文件中path参数里的路径是否存在,权限是否正确(正常应为配置文件中的UID参数对应的属主和组) 查看rsync服务是否启动,查看命令为:ps -ef|grep rsync.端口是否存在netstat -lnt|grep 873 查看iptables防火墙和selinux是

NFS使用mount挂载无法挂载出问题后的排错思路(七)

NFS使用mount挂载无法挂载出问题后的排错思路 首先确认NFS服务端配置和服务是OK的, 在服务端使用showmount -e localhost  检查 [[email protected] ~]# showmount -e localhost Export list for localhost: /data/r_shared 192.168.221.1/24 /data/w_shared 192.168.221.1/24 2.确认NFS客户端showmount是否OK [[email p

rsync优缺点以及排错思路

rsync的优缺点 优点: 1.优点 可以使用增量进行备份,支持socket,几种(支持推拉,都是以客户端为参照) 2.远程shell同道还可以加密(ssh)传输,socket,需要加密传输,可以利用VPN服务或者ipsec服务. 3.绝大多数都是使用内网进行备份使用. 缺点: 1.大量小文件的时候,比对时间较长,有时候,同步过程中,rsync进程可能会停止或者僵死,如果小文件非常多就直接使用压缩包进行传输即可. 2.同步大文件的时候会出现中断的,未完成同步前是隐藏文件,可以通过续传(--par

SSH排错思路

SSH排错思路: 1.检查ifconfig的配置 2.检查ssh的rpm包 3.检查CRT连接虚拟机时候选择V2版本 4.检查selinux,是否setenforce 0 5.检查iptables 6.检查/etc/ssh/sshd/sshd_config: 1.第66行 PasswordAuthentication yes 2.第70行 ChallengeResponseAuthentication no 3.第81行 GSSAPIAuthentication yes 4.第83行 GSSAP

企业级网络拓扑排错思路。

排错思路: 在实际情况中,网络不通可以先从路由排查,也可以先从PC机开始,离哪里近先从哪里开始 (如果是经常性问题可以根据实际情况锁定问题) ============================================================================================= 在现实情况下大部分情况是问题是同事在工作中无法正常登陆网络向我们求助,这个时候我们一般会先从PC端开始查找问题. 开始对PC-1 进行检查  : 显示ip是:192.16

Office365 用户同步排错思路

今天同事找我帮忙看看为啥有个用户的邮件无法同步到Office365上.他的需求是用户A离开了公司,为了继续接收邮件,他已经在A上面删除了旧的邮箱信息,,然后把A的邮件作为一个新的smtp地址放在了B用户上,但是B的这个新地址就是无法同步上Office365. 豆子花了不少时间来拍错,最后发现其实根本的原因在于用户A在删除Proxyaddress和Mail之前已经disable了,然后在A上面的任何改动都不会同步到Office365,因此Office365上面会自动切断这个用户的登录,但是mail

硬件常见问题及排错思路。

经常接触服务器.存储和网络硬件设备,下面对常见的硬件故障总结下: 服务器: 长出现故障的备件:硬盘,电源,内存,网卡,主板,CPU等.一般无法定位故障的时候采用最小化测试,如果最小化测试可以.再慢慢加备件来测试,还会通过替换备件进行测试.服务器一般有管理接口或者管理软件,可查看日志进行故障分析和排错. 存储: 常见故障的备件:硬盘,控制器.一般有管理口和管理软件,更换控制器一般要做主备切换操作.更换硬盘有的存储还要做硬盘管理,有的是自动的. 网络设备: 这个出问题的概率比较小,最常见的是SFP接

企业内——局域网——内网排错思路及方法

首先遇到局域网链路故障从外部设备进行排错:PC机-->线路-->交换机进入PC机界面PC0 PC1 经过检查发现子网划分不对:改为相同子网网段.子网掩码都改为:255.255.255.0 下面开始检查交换机switch0 在用户界面查看当前运行配置: SW1#show running-config spanning-tree mode pvst!interface FastEthernet0/1!interface FastEthernet0/23 switchport trunk allow

(转)局域网的某个机器无法上网,的排错思路

原文:http://www.cnblogs.com/wang-xd/p/6507279.html 背景:基本检查思路基于Windows32客户端上执行 一. 若是大面积上网出现问题的思路 1.路由器.ISP.核心交换机.ARP病毒欺骗网关 .网关地址被占用.DNS问题 2.核心交换机是否正常,交换机环路 二. 单个机器无法上网,别人都可以上网的解决思路 1 .ping www.baidu.com 高速有没有修通 如果通,但是还不能上网:可能是浏览器问题,或中毒等问题 2 .如果ping www.

蓝鲸-监控 排错思路

1.现象和报错 1.[10.253.124.21] paas_agent() paas_agent FATAL Exited too quickly (process log may have details) 2.看paas_agent的日志 : no such host] 2019/06/06 14:09:41 http.go:183: 证书验证失败:Post https://license.service.consul:8443/certificate: dial tcp: lookup