linux运维系统故障排查思路及常见故障处理

一 linux系统故障的一般处理思路

报错信息--->查阅日志文件--->分析定位问题--->解决问题。

二 linux系统无法启动原因及解决

系统无法启动的原因很多,常见的有下面几种情况:

1 文件系统被破坏,常常因断电和非法关机引起文件系统结构不一致。修复方法是用fsck命名强制修复,进入单用户模式或者交互界面,按提示进入修改模式中,卸载对应的问题磁盘,然后用fsck命令修复,无法恢复的数据会存放在lost+found下。umount /dev/sda3    fsck.ext4 -y /dev/sda3

2 系统配置/etc/fstab错误或丢失而无法启动。当启动时候出现 starting system logger后停止了,就要想办法恢复/etc/fstab文件,利用linux rescue修复模式登录系统,从而获取挂载点和分区信息,重构/etc/fstab文件。

3 系统内核文件丢失,内核升级错误,引导程序出错,硬件故障等都会引起无法启动

三 linux网络故障处理思路流程

1 检查权限是否打开,iptables,selinux

2 服务是否正常,用Telnet或netstat检查服务是否正常开启

3 检查本机网络是否正常,ping自身IP、同网段主机、网关

4 检查DNS解析是否正常,/etc/hosts和/etc/resolv.conf

5 检测网卡ip设置,route检查路由是否正确

6 检查网路硬件,网卡、路由器、集线器、网线、交换机(lsmod、ifconfig、ip)

四 Read-only file system 错误解决

思路:

网站程序问题

磁盘问题

排查网站程序,看报错信息和服务日志错误,以及系统日志,来定位问题所在 Read-only file system 多数就是磁盘问题,出现上面错误的时候,磁盘对应目录是无法写入的,那么就要进行修复了,文件系统修复命令fsck

首先查看是否有用户正在使用该磁盘,fuser -m /dev/sda1,如果有就停止对应端口程序

接着卸载文件系统  umount  /www/data

然后修复文件系统  fsck -V -a /dev/sda1

最后恢复挂载  mount /dev/sda1 /www/data

五 Argument list too long 错误解决

当删除一个目录中的大量文件时,可能会出现这种报错,这是由于linux系统对传递参数的限制,可以用getconf ARG_MAX查看这个数值,

重新编译内核参数可以永久解决问题,但是编译内核有风险,还是用下面方法保险

既然不能一下清除大量文件,那么分批删除或者查找或者循环删除就可以了,可以用下面命令清理

rm [a-n]* -rf

rm [o-z]* -rf

find /www/data -type f -print -exec rm -f  {} \;

六 inode耗尽故障

当iNode耗尽后,磁盘虽然有剩余空间,但也会出现 no space left 的报错

用 df -i 命令可以查看所有分区对应inode的使用情况

用 ls -i nginx.log   能查看对应文件的inode编号。详细信息用 stat nginx.log 查看

针对inode耗尽的情况,清理删除那些无用的文件就可以了,尤其是那些碎小的文件

七 删除文件后空间不释放问题

文件系统的数据分为两个部分:数据部分和指针部分,当有进程正在使用某个文件是,执行删除命令,空间是不会释放的,删除的是数据文件部分,指针部分并未删除,所以空间并不释放。

用 lsof |grep delete    查看已删除的文件,找到对应文件 执行清空命令  echo " " > /tmp/nginx.log  空间就会得到释放

八 “too many open files”错误

服务出现报错异常  too many open files

用 ulimit -n  查看文件描述符 65535 是最大值

检查普通用户的值  cat /etc/security/limits.conf |grep www

如果普通用户的值不是65535  那么给普通用户添加这个限制

www soft nofile 65535

www hard nofile 65535

如果上面的普通用户的值显示65535  而依旧出现这个错,就要考虑添加limit值的时间是否早于应用最后一次启动的时间,应用时间早的话,直接重启应用就可以了

原文地址:http://blog.51cto.com/superleedo/2093886

时间: 2024-07-29 21:37:58

linux运维系统故障排查思路及常见故障处理的相关文章

51CTO学习笔记--Linux运维故障排查思路与系统调优技巧视频课程(高俊峰)

51CTO学习笔记--Linux运维故障排查思路与系统调优技巧视频课程 第一课 Linux运维经验分享与思路 1.一般把主机名,写到hosts下    127.0.0.1    hostname,因为很多应用要解析到本地.oracle没有这个解析可能启动不了. 2.注释掉UUID以及MAC地址,需要绑定网卡的时候,这个可能会有影响. 3.磁盘满了无法启动,  var下木有空间,无法创创建PID等文件,导致文件无法启动,按e   进入single  然后b  重启进入单用户模式. 4.ssh登陆系

Linux运维故障排查思路

linux系统故障 网络问题 linux系统无响应 linux系统无法启动 linux系统故障处理思路 1.重视报错信息,一般情况下此提示基本定位了问题的所在 2.查阅日志文件,系统日志和应用日志 3.分析.定位问题 4.动手解决 网络问题处理思路 1.网络硬件问题.网线.网卡.路由器.交换机等是否正常工作. 2.网卡驱动是否正常加载.网卡ip设置是否正确,系统路由是否正确. 3.检查局域网之间的通信是否正常. 4.检查dns是否设定正确.可从/etc/resolv.conf./etc/host

Linux系统运维故障排查思路

一些处理问题的一般思路   1)重视报错提示信息,每当错误出现,都会给出错误提示信息,一般情况下,这个提示基本定位了问题的所在,因此一定要重视这个报错信息,如果对这些错误信息视而不见,问题永远都得不到解决.   2)查询日志文件.有时候报错信息只是给出了问题的表面现象,要想更深入的了解问题,必须查看想应的日志文件,二日志文件有分为系统日志文件(/var/log),和应用程序日志文件,结合这两个日志文件,一般就能定位问题所在.   3)分析定位问题.这个过程是比较复杂的,根据报错信息,结合日志文件

Linux运维常见故障排查和处理的33个技巧汇总

作为linux运维,多多少少会碰见这样那样的问题或故障,从中总结经验,查找问题,汇总并分析故障的原因,这是一个Linux运维工程师良好的习惯.每一次技术的突破,都经历着苦闷,伴随着快乐,可我们还是执着的继续努力,从中也积累了更多的经验,这就是实践给予我们的丰厚回报. 下面汇总了我做项目过程可能出现的故障及解决方法,看看是否与你有共鸣,并对你有帮助? 第一:常见问题解决集锦   1.shell脚本不执行    问题:某天研发某同事找我说帮他看看他写的shell脚本,死活不执行,报错.我看了下,脚本

6 个 Linux 运维典型问题,大牛的分析解决思路在这里

作为一名合格的 Linux 运维工程师,一定要有一套清晰.明确的解决故障思路,当问题出现时,才能迅速定位.解决问题,这里给出一个处理问题的一般思路: 重视报错提示信息:每个错误的出现,都是给出错误提示信息,一般情况下这个提示基本定位了问题的所在,因此一定要重视这个报错信息,如果对这些错误信息视而不见,问题永远得不到解决. 查阅日志文件:有时候报错信息只是给出了问题的表面现象,要想更深入的了解问题,必须查看相应的日志文件,而日志文件又分为系统日志文件(/var/log)和应用的日志文件,结合这两个

Linux运维常见基础面试练习题(1)

Linux运维常见基础面试练习题(1) 1 创建目录/data/oldboy,并且在该目录下创建文件oldboy.txt,然后在文件oldbot.txt里写入内容"inet addr:10.0.0.8 Bcast:10.0.0.225 Mask:255.255.255.0"不包含引号 方法一 [[email protected] /]# mkdir /data/oldboy -p [[email protected] /]# cd /data/oldboy/ [[email prote

Linux运维常见基础面试练习题(2)

Linux运维常见基础面试练习题(2) 11 如何查看占用端口8080的进程. 方法一 [[email protected] data]# ps -ef|grep 8080 root       3886   3804  0 17:11 pts/1    00:00:00 grep 8080 [[email protected] data]# 12 Linux所有服务的启动脚本都存放在(/etc/rc.d/init.d )目录中. A /etc/rc.d/init.d  B /etc/init.

Linux运维常见基础面试练习题(4)- 提升

Linux运维常见基础面试练习题(4)- 提升 1 (ZZ)命令是在vi编辑器中执行存盘退出 A :q    B ZZ    C :q!   D :WQ 2 用虚拟机安装了一台Linux系统,突然想克隆一台服务器,克隆后发现无法上网,如何解决? 1 删除linux网卡 eth0的uuid  Mac地址 2 清空 /etc/udev/rules.d/70-persistent-net.rules 3 reboot 3 常用网络检测命令及参数列举说明 1  ping 2  telnet 3  net

Linux运维常见基础面试练习题(3)

Linux运维常见基础面试练习题(3) 38 简述raid0.1.5的特点和优点. raid  0  需要硬盘 1块以上  容量n块数量之和  性能最高  冗余没有 raid  1  必须两块硬盘  容量是%50   性能 读不变 写较低  冗余 %100 raid  5  最少 4块  容量n块数量之和  性能 读写较低    冗余 %100 39 简要介绍:常用磁盘阵列方案及优缺点 raid  0  需要硬盘 1块以上  容量n块数量之和  性能最高  冗余没有 raid  1  必须两块硬