Linux服务器 -- 故障篇

故障一、

今天早上来的第一件事,就是检查昨天晚上刚刚重新安装的一台64位的CentOS
5.5服务器,那台服务器是四块硬盘作的二个RAID1,一个专用于OS,一个用于data,

在安装系统的过程中,为了不损失数据,data分区我碰也碰过,今天用root进系统后,我用mount /dev/mapper/ddf1_datap1
/data进行挂载,很顺利的挂载上去了,结果进去用ll命令一看,我靠,文件全出错了,都不正常了,吓我一跳,data分区里有的数据很重要,特别是mysql数据库,我问了下同事,同事也不是太清楚什么回事,我突然想起,这个是不是没正确挂载的原因,所以将其写进/etc/fstab里,如

/dev/mapper/ddf1_datap1 /data ext3 defaults 0 0

大家别小看defaults选项,这个默认会作许多事情的,reboot后一切正常,虚惊一场,特此记录工作心得,希望也给大家带来帮助;最后是将所有的数据备份后再仔细的fsck一遍,确认无误再进行挂载。

故障二、

故障描述:我们的jail母机192.168.21.36,因root的shell设置成的bash,而其依赖的库文件libintl.so.8发生丢失,导致了root不能登陆,具体报障如下:

/libexec/ld-elf.so.1: Shared object "libintl.so.8" not found, required by "bash"
Connection to 192.168.21.36 closed.

解决方法如下:

1.用单用户模式进入系统;

2.扫描磁盘(此步非做不可,而且是安全的)

fsck -y

3.将文件系统重新挂载

mount -a

4.将root的默认shell切换到sh

chsh -s sh

重启后一切正常

故障三、

在某台工作机上,不小心删除了GRUB所在的分区怎么办?今天闲来无事,不小心删除了grub所在的分区/dev/hdb8,因为装的是windows2003和Centos5.3双系统,搞得连windows也进不了,想想看这已经是第二次犯错了。因为我的工作机上没有光驱和软驱(以前本着经济的原则配置的),上次是借别人的光驱,难道这次又要借,不行,我一定要自己想办法搞定了。花了不少时间把我的台电酷闪8G的优盘量产成了USB-CDROM+USB-HDD双启动的优盘,工作机居然不支持,晕。天寒地冻的,难道真要出门,忽然想起了,工作站支持网络引导,呵呵,那就应该有办法了。请出心爱的网刻软件MaxDOS_71PXE_G115.exe,以下为实验步骤截图:

搞定后原以为万事大吉了,发现一启动还是回到了gub报错状态,呵呵,看来还要想心思;不选择"克隆结束后重启计算机",这样就能回到Dos界面下,选择一款MBR修复软件,diskgen或spfdisk即可;或直接fdisk/mbr;其实还有个办法也可行:在“grub>”提示符后输入:“rootnoverify
(hd0,0)”
回车将第一块硬盘(hd0)的第一个分区(0)设为根分区/root设备,但不加载文件系统;在“grub>”提示符后输入:“chainloader +1”
回车,将启动引导权转交给当前分区的首扇区(Windows系统所在分区的首扇区)。

其实,这只是一个很简单的、常遇见的grub错误,只要有dos引导盘即可,但关键是我的工作机比较老,即无光驱、软驱,连U盘引导也不支持,如果网络引导也不支持的话,可以用第二种办法尝试(或者强大的Linux命令dd)。修复后重启,故障排除;将以上步骤记录下,方便下次犯错时能迅速排障和重温习下网络Ghost。

故障四、

有台同事在处理Linux服务器时,他移走了一块硬盘,然后就直接启动红帽RHEL5,发现进了Emergency模式,焦急中他连忙跑过来找我;我第一句就是问他:你改动了硬件没,他说他移走了硬盘后就直接启动了,不是跟windows2003一样嘛,有什么问题?我都无语了,没办法
,耐心跟他讲解 linux下/etc/fatab的作 用及语法,最后告诉他可以在Emergency模式下输入root密码进入此模式,然后用mount –o
remount,rw /将/分区设置成可读写,编辑/etc/fatab,将移除的硬盘用#号屏蔽掉后重启服务器,故障解除。

故障五、

FreeBSD下的某台jail虚拟机,可能发生了程序错误形成了死循环,在不停的写某个文件,导致/usr占满,此时Nagios狂报警;这时候
需要快速将其抓取出来,这时候可以先新建 一个测试文件 touch test ,然后 用命令find / -newer
test,为了证明其通用性,我特的选择了FreeBSD服务器

……

以上仅仅只是我遇到的形形***的各种Linux/unix服务器故障之一二而已,我总结了下平时Linux/unix应该注意的事项:

①服务器中最容易坏掉的是风扇,如果是电信机房要注意检查;如果是自己内网服务器机房,平时注意将温度控制在19度以下即可;

②DELL的机器的RAID卡放电和充电都是正常现象,如果有Nagios报警也是正常的;

③有时间就多巡视下机房,检查下服务器的硬盘灯指示情况;

④注意网线不要松脱 了,不然你使用Heartbeat的服务器就很麻烦了;

⑤平时如果有时间和机会,可以作一些关于Keepalived和Heartbeat的模拟故障实验,保证其高可用性。

⑥虚心学习网络相关方面的知识和疑难问题,有时绝大多数的问题是网络方面引起来的;另外,电信一般会封掉80端口的,就不要在这些问题上纠结了。

遇到服务器故障时,一定要胆大心细,谨慎操作,因为有时是线上环境,稍有不慎就灰飞烟灭了,多总结多思考,这样才能成长得更快。

参考: http://os.51cto.com/art/201009/225054.htm

时间: 2024-10-16 05:00:46

Linux服务器 -- 故障篇的相关文章

Linux服务器 -- 网络篇

希望大家看完此文后,能很清楚明白你的服务器的网络情况,能很轻松的配置其网络环境.Linux服务器在装完系统,配置其网络环境是每一个system administrator的职能. 一.服务器的网络配置 在服务器的网络配置时,喜欢图形的朋友可用setup或system-config-network来配置. 网卡配置文件为/etc/sysconfig/network-scripts/ifcfg-eth0,设置完毕后直接用service network restart生效 [[email protec

Linux服务器 -- 日志篇

志对于安全来说,非常重要,它记录了系统每天发生的各种各样的事情,你可以通过他来检查错误发生的原因,或者受到攻击时攻击者留下的痕迹.日志主要的功能有:审计和监测.他还可以实时的监测系统状态,监测和追踪侵入者等等.正因为如此,抚琴煮酒特的将它整理成一篇比重跟硬件篇.网络篇并列的文章,作为<明明白白你的Linux服务器>系列的第三篇,希望大家能从中学习到对自己有用的东西. 一.配置syslog(gyl4802959同学撰写) 目前,linux依旧使用syslogd作为日志监控进程,对其进行必要的配置

Linux服务器 -- 硬件篇

身为系统管理员,如何做到时刻对自己服务器的各方面状态性能等信息都有足够的了解? 你如何能很清楚你目前的Linux服务器(10-100台)的状态性能等信息 ? 一.如何查看服务器的CPU 判断依据: 1.具有相同core id的cpu是同一个core的超线程.(Physical id and core idare not necessarily consecutive but they are unique. Any cpu with the same coreid are hyperthread

NAT(未验证,后续见Linux服务器架构篇)

通常小型企业或是学校单位大多数仅有一条对外的联机,然后全公司内的计算机全部通过这条联机连到因特网上,此时我们更需使用IP分享器来让这一条对外联机分享给所有公司内部员工使用,那么Linux能不能达到此一IP分享的功能呢?当然可以,就是透过NAT服务即可达到这项任务. 这种环境中,由于Linux作为一个内外分离的实体,因此网络流量会比较大一点,此时Linux主机的网络卡就需要比较好些的配置.其他的CPU.RAM.硬盘等的影响就小很多.事实上,单利用Linux作为NAT主机来分享IP是很不明智的,因为

Linux随笔-鸟哥Linux服务器篇学习总结(全)

鸟哥Linux服务器篇学习总结 作者:Danbo 时间:2015-7-17 在runlevel3启动级别下默认启动网络挂载(autofs)机制,我们可以通过命令将其关闭:chkconfig autofs off 或者 /etc/init.d/autofs stop将其关闭. 查询启动在网络监听的服务:netstat -lntup[[email protected] ~]# netstat -lnutpActive Internet connections (only servers)Proto

Linux服务器部署系列之八—Sendmail篇

Sendmail是目前Linux系统下面用得最广的邮件系统之一,虽然它存在一些不足,不过,目前还是有不少公司在使用它.对它的学习,也能让我们更深的了解邮件系统的运作.下面我们就来看看sendmail邮件服务器的部署. 本文将从以下几个方面讲解Sendmail邮件系统: 1.Sendmail安装: 2.Sendmail基本配置: 3.Openwebmail安装和配置: 4.配置Mailscanner+clamav过滤病毒: 5.配置SpamAssassin+mimedefang过滤垃圾邮件. 本文

Linux服务器丢包故障的解决思路及引申的TCP/IP协议栈理论

我们使用Linux作为服务器操作系统时,为了达到高并发处理能力,充分利用机器性能,经常会进行一些内核参数的调整优化,但不合理的调整常常也会引起意想不到的其他问题,本文就一次Linux服务器丢包故障的处理过程,结合Linux内核参数说明和TCP/IP协议栈相关的理论,介绍一些常见的丢包故障定位方法和解决思路. 问题现象 本次故障的反馈现象是:从办公网访问公网服务器不稳定,服务器某些端口访问经常超时,但Ping测试显示客户端与服务器的链路始终是稳定低延迟的. 通过在服务器端抓包,发现还有几个特点:

Linux服务器部署系列之七—OpenLDAP篇

LDAP(轻量级目录访问服务),通过配置这个服务,我们也可以在linux下面使用目录的形式管理用户,就像windows下面的AD一样,方便我们管理.下面我们就一起来配置openldap服务.本文运行环境:CentOS 5. 软件需求: db-4.7.25.tar.gz(http://www.oracle.com/technology/global/cn/software/products/berkeley-db/index.html) openldap-stable-20090411.tgz (

linux初学者-系统启动故障篇

linux初学者-系统启动故障篇 在系统的操作中,有时会不小心误删或者操作失误使得系统启动不起来,下文将列举几种常见的系统启动失败的情况及解决的办法. 1.删除或者覆盖mbr的446个字节 mbr的446个字节指定了系统启动时/boot分区在磁盘中的为至,所以mbr这446个字节如果被删除或者被覆盖,就会导致系统找不到/boot分区而开不了机. 例如下图,用"dd if=/dev/zero of=/dev/vda bs=446 count=1"覆盖掉前446个字节.重启系统发现无法启动