运维人员处理服务器故障的方法总结

运维人员处理服务器故障的方法总结

一、尽可能搞清楚问题的前因后果

二、查看有谁在线

who

last

三、查看之前执行了什么命令

history

四、查看现在在运行的进程是什么

pstree -a

ps aux

五、查看监听的网络服务

netstat -nxlp

netstat -ntlp

netstat -nulp

六、查看CPU 和内存

free -m

uptime

top

htop

七、查看硬件

lspci

dmidecode

ethtool

八、查看IO 性能

iostat -kx 2

vmstat 2 10

mpstat 2 10

dstat --top-io --top-bio #可以看到谁在进行 IO

九、查看挂载点和文件系统

mount

cat /etc/fstab

vgs

pvs

lvs

df -h

lsof +D /

时间： 2024-12-14 03:55:40

运维人员处理服务器故障的方法总结的相关文章

服务器数量太多，运维人员如何来监控

生产服务器: 操作系统:Windows Server 2008 发生在真实服务器上的现象如下: (服务器图1) 如果服务器数量太大,我们的运维人员能提前发现,及时发现吗? 如果使用开源Cacti监控系统就不一样了,自动报警发出警告信息给我们的运维人员,以便及时维护. (阈值图2) (监控图形3) C盘满了,其实是垃圾文件占了大量磁盘空间,服务器被攻击了. 上图超过了阈值,颜色变了,下图Cacti监控系统发出了警告信息给运维管理人员. 运维人员收到信息之后,及时登录服务器分析原因,找出问题,处理问

编写一个BAT脚本协助运维人员遇到问题时候调测数据库是否有效连接成功的操作攻略

简单摘要: 1.内网系统出现故障需要排查 2.运维人员不熟悉数据库操作,没法通过连接数据库和执行SQL语句的方式排查数据库及数据是否正常 3.解决方案:编写一个bat脚本,运维人员双击运行即可. 原文链接: http://www.lookdaima.com/WebForms/WebPages/Blanks/Pm/Docs/DocItemDetail.aspx?id=d861e977-87d1-4ac0-ab63-91dacb9ccc9e 背景说明: 车辆管理系统涉及2台服务器: 101:数据

Linux运维人员需要掌握一门编程语言吗？

最近经常有同行的朋友或者Linux初学者问我:运维人员是否需要学一门语言,那么该学哪种语言呢? 对于这个问题,我分两个方面回答: 首选,在大数据.云计算发展迅猛的今天,系统运维人员如果不懂一点开发语言的话,确实会举步维艰,因为在运维工作中,业务系统的繁多,线上服务器规模很大时,只能通过写脚本的方式(自动化也是脚本一种哦)自动化完成,不然,如此重复和繁琐的工作,靠人力是无法负担的,所以,学习一门可以让运维工作批量完成的语言,就显得很重要了. 那么应该学习一门什么语言呢? 对于Linux系统运维人员

【运维者说】程序员玩跨界，错在运维人员

在很多交流场合,我们或多或少能听到有小伙伴抱怨运维岗位工作没有得到老板或者公司同事的认可,这怪谁呢?私以为只能怪运维岗位的各位同行,为什么这么讲呢?我这个攒了很久的大招,今天终于可以释放出来了. 恰逢看到田逸老师写的博客<程序员,请不要抢系统管理员的饭碗>以及文章下面各位同仁的评论内容,很多小伙伴基本上是从一个系统管理员的角度出发说出了安全问题的原因是程序员不应该这么做而这么做了,那程序员应该怎么做,他们知道吗?从这篇博客中描述的安全问题出发,田逸老师作为系统管理人员排查问题的思路非常清晰,对

【IT运维监控】讨论哪种运维监控工具才是IT运维人员的最爱？

选择运维工具的几大要素:一是看我哪些指标需要监控,二是看我监控到什么三是看这种运维监控工具能监控到什么程度有可能,这几个问题IT运维人员自己都没有弄的很明白,那么我们先看一下整个运维行业目前的现状: 目前来说,传统企业的IT运维大部分还是用户在使用过程中发现故障,然后通知运维人员,再邮运维人员确定是什么问题,采用哪种方式可以解决.大部分的运维人员目前还是充当的只是一个救火员的身份,没有起到真正的IT运维监控的作用.运维人员的大部分时间和经历都花在了处理简单而重复的问题上,导致同事及领导的不满

评 -- 运维人员将失业，你嗅到危机了吗？

Reboot运维开发千人群(365534424)即将爆满,欢迎加入我一直在强调一个事实,就是随着大规模集群和云计算的普及,运维人员一定是最先被挑战的.最先被技术的发展,特别是运维自动化技术的发展所逼迫要选择的.选择很简单,要么淘汰,要么转型和升级.这个话我其实在我参加的很多技术交流.公开的大会上,都在讲.正好看到一个文章.先转后评. 云计算技术,IAAS和PAAS,正好是现在主流运维在做的事情.IAAS和PAAS的普及,将会带来运维工作的集中化.云公司把这些事情都做了.而云公司,则出现大规模集

5分钟学会处理服务器故障的方法

运维人员在处理服务器故障时,总会碰到了各种不同规模的性能很差的系统和基础设备(大型系统居多,比如CNN或者世界银行的系统).要是再赶上修复时间紧.奇葩的技术平台.缺少信息和文档等服务器故障,问题出现的原因很少可以一下就想到.下面我们基本上都会从以下步骤入手: 一.尽可能搞清楚问题的前因后果不要一下子就扎到服务器前面,你需要先搞明白对这台服务器有多少已知的情况,还有故障的具体情况.不然你很可能就是在无的放矢. 必须搞清楚的问题有: 故障的表现是什么?无响应?报错? 故障是什么时候发现的? 故障是

运维人员日常工作（转自老男孩）

1)运维人员要谨记的6个字: 运维人员做事需遵循:简单.易用.高效 (2)运维人员服务的3大宗旨: 1.企业数据安全保障. 2.7*24小时业务持续提供服务. 3.不断提升用户感受.体验. (3)初中级运维的日常涉及工作: 1.评估产品需求及发展需求,设计网站架构 2.选择IDC公司.云产品,CDN等产品 3.采购服务器.安装系统.配置服务.服务器IDC上架 4.调试网络.优化系统及服务. 5.上线代码.配合研发搭建环境.调试.测试代码 6.监控硬件.软件及各种业务应用 7.配置收集日志和,根据

安全运维之：服务器遭受攻击后的一般处理过程

安全总是相对的,再安全的服务器也有可能遭受到攻击.作为一个安全运维人员,要把握的原则是:尽量做好系统安全防护,修复所有已知的危险行为,同时,在系统遭受攻击后能够迅速有效地处理攻击行为,最大限度地降低攻击对系统产生的影响. 一.处理服务器遭受攻击的一般思路系统遭受攻击并不可怕,可怕的是面对攻击束手无策,下面就详细介绍下在服务器遭受攻击后的一般处理思路. 1.切断网络所有的攻击都来自于网络,因此,在得知系统正遭受黑客的攻击后,首先要做的就是断开服务器的网络连接,这样除了能切断攻击源之外,也能保护