Linux运维故障排查思路

linux系统故障

网络问题

linux系统无响应

linux系统无法启动

linux系统故障处理思路

1.重视报错信息,一般情况下此提示基本定位了问题的所在

2.查阅日志文件,系统日志和应用日志

3.分析、定位问题

4.动手解决

网络问题处理思路

1.网络硬件问题。网线、网卡、路由器、交换机等是否正常工作。

2.网卡驱动是否正常加载、网卡ip设置是否正确,系统路由是否正确。

3.检查局域网之间的通信是否正常。

4.检查dns是否设定正确。可从/etc/resolv.conf、/etc/host文件来确认。

5.服务是否打开。

6.访问权限是否打开。iptables、selinux

linux系统无响应

1.系统硬件问题

2.外围硬件问题,网络设备,网络参数方面查找解决。

3.软件问题,系统bug,软件bug,升级内核,修复程序bug,更新驱动等方面解决。

4.系统设置问题,参数设置不当。

Linux系统无法启动

常见系统故障,比如突然断电,配置更新,软件升级,内核升级等都有可能造成无法正常启动。常见的情况如:

1.文件系统破坏,一般是linux的根分区文件系统遭到破坏,一般由系统突然断点或者非法关机引起。

2.文件系统配置不当,比如/etc/fstab文件、/etc/inittab文件等配置文件错误或者丢失,一般是执行配置更新时人为导致的。

3.linux内核文件丢失或者崩溃。一般由内核升级错误或者内核存在bug引起。

4.系统引导程序问题。比如grub丢失或者损坏,一般由人为修改错误或者文件系统故障。

5.系统硬件故障。主板、电源、硬盘等出现问题。

原文地址:https://www.cnblogs.com/whych/p/9313420.html

时间: 2024-07-29 21:38:07

Linux运维故障排查思路的相关文章

51CTO学习笔记--Linux运维故障排查思路与系统调优技巧视频课程(高俊峰)

51CTO学习笔记--Linux运维故障排查思路与系统调优技巧视频课程 第一课 Linux运维经验分享与思路 1.一般把主机名,写到hosts下    127.0.0.1    hostname,因为很多应用要解析到本地.oracle没有这个解析可能启动不了. 2.注释掉UUID以及MAC地址,需要绑定网卡的时候,这个可能会有影响. 3.磁盘满了无法启动,  var下木有空间,无法创创建PID等文件,导致文件无法启动,按e   进入single  然后b  重启进入单用户模式. 4.ssh登陆系

linux运维系统故障排查思路及常见故障处理

一 linux系统故障的一般处理思路 报错信息--->查阅日志文件--->分析定位问题--->解决问题. 二 linux系统无法启动原因及解决 系统无法启动的原因很多,常见的有下面几种情况: 1 文件系统被破坏,常常因断电和非法关机引起文件系统结构不一致.修复方法是用fsck命名强制修复,进入单用户模式或者交互界面,按提示进入修改模式中,卸载对应的问题磁盘,然后用fsck命令修复,无法恢复的数据会存放在lost+found下.umount /dev/sda3    fsck.ext4 -

Linux系统运维故障排查思路

一些处理问题的一般思路   1)重视报错提示信息,每当错误出现,都会给出错误提示信息,一般情况下,这个提示基本定位了问题的所在,因此一定要重视这个报错信息,如果对这些错误信息视而不见,问题永远都得不到解决.   2)查询日志文件.有时候报错信息只是给出了问题的表面现象,要想更深入的了解问题,必须查看想应的日志文件,二日志文件有分为系统日志文件(/var/log),和应用程序日志文件,结合这两个日志文件,一般就能定位问题所在.   3)分析定位问题.这个过程是比较复杂的,根据报错信息,结合日志文件

linux运维故障

dmidecode -t processor | grep Socket (物理cpu个数) dmidecode | grep Size | grep MB | awk '{a+=$2}END{print a}' (物理内存大小MB) dmidecode | grep Size | grep MB | wc -l (物理内存个数) ps -eo pid,lstart,etime | grep 26871 (进程运行时间) 26871 Thu Sep 26 17:08:55 2013 00:19

Linux运维常见故障排查和处理的33个技巧汇总

作为linux运维,多多少少会碰见这样那样的问题或故障,从中总结经验,查找问题,汇总并分析故障的原因,这是一个Linux运维工程师良好的习惯.每一次技术的突破,都经历着苦闷,伴随着快乐,可我们还是执着的继续努力,从中也积累了更多的经验,这就是实践给予我们的丰厚回报. 下面汇总了我做项目过程可能出现的故障及解决方法,看看是否与你有共鸣,并对你有帮助? 第一:常见问题解决集锦   1.shell脚本不执行    问题:某天研发某同事找我说帮他看看他写的shell脚本,死活不执行,报错.我看了下,脚本

论运维之故障排查思路与方法

运维故障思路剖析: 1.出了问题冷静分析,仔细听通告者描述的问题,勿要慌张理清思路 2.根据描述问题查看相应的服务有没有端口.后台是否有运行的程序.防火墙的策略.网络问题.报错日志 3.如若有些开源软件需要连接至数据库,在看数据库的端口.后台运行的程序,是否能登录 4.一般到了这一步就是疑难问题啦!仔细分析报错日志的提示方向,范围想的广一些,若一些网页访问不到, 表面上没报类似于404,403之类的错误,而是直接访问错误,排除host绑定,nginx代理问题后,就要把故障定位到数据库啦! 因为应

6 个 Linux 运维典型问题,大牛的分析解决思路在这里

作为一名合格的 Linux 运维工程师,一定要有一套清晰.明确的解决故障思路,当问题出现时,才能迅速定位.解决问题,这里给出一个处理问题的一般思路: 重视报错提示信息:每个错误的出现,都是给出错误提示信息,一般情况下这个提示基本定位了问题的所在,因此一定要重视这个报错信息,如果对这些错误信息视而不见,问题永远得不到解决. 查阅日志文件:有时候报错信息只是给出了问题的表面现象,要想更深入的了解问题,必须查看相应的日志文件,而日志文件又分为系统日志文件(/var/log)和应用的日志文件,结合这两个

linux运维升级路线

运维工程师是从一个呆逼进化为苦逼再成长为牛逼的过程,前提在于你要能忍能干能拼,还要具有敏锐的嗅觉感知前方潮流变化.如:今年大数据,人工智能比较火--(相对表示就是 Python 比较火) 之前写过运维基础篇,发现对很多人收益挺大,接下来也写下关于这4年多的运维实践经验,从事了2年多游戏运维,1年多安全运维,1年大数据运维,相关行业信息不能算非常精通,但是熟悉和熟练还是相对可以的. 初级篇 linux运维人员常用工具拓扑详见: 1.rsync工具 很多地方经常会用到rsync工具,实施几台服务器的

如何迅速掌握并提高linux运维技能

之前曾经写过一篇如何学习Linux的文章,得到了很多反馈,大家都在分享自己的学习经验和体会,并且也提出了不少意见和建议.学习这个事情其实是说起来容易,做起来就很难,虽然给大家提高了很多学习linux的思路和方法,但是很多时候,学习的过程是个锻炼和总结的过程,需要自己去体会和领悟,而这个领悟跟钻研的深度有关,所以,对linux技术点钻研较深的朋友,可能收获的知识就多一些,提高也就快一些,而相反,不太喜欢钻研的朋友们,技能提高就稍微慢一点,因此,我们说虽然有了统一的学习方法,但是由于每个人的领悟力不