普通电脑运行Linux系统负载过重会导致宕机

生产环境:

硬件设备:普通电脑承担Linux服务器

操作系统:CentOS6.8

问题描述:7月16日发现无法访问Linux服务器,当时分析有可能出现两种情况:

1.普通电脑硬件故障,很有可能是长时间运行导致硬件故障,严重的来说是硬件烧坏了;

2.Linux系统运行当中出现问题。

通过种种原因分析排除了4种情况:

1.如果是断电了,但其他服务器运行正常;

2.如果是断网了,但其他服务器可以正常访问;

3.如果是web服务导致无法访问,但一般情况也来远程连接,可是无法远程连接;

4.通过理论上和长时间运行证明Linux系统运行是稳定的,1年之间无需重新启动系统。

7月30日,请门卫重新启动电源后,还是发现无法访问和远程连接Linux服务器。

7月31日,迫不及待了,不能等了,问题在哪,什么原因,心理好纠结。今天上午抽时间跑到单位,进入中心机房发现显示器屏幕显示如下图:

出现以上这种原因,是7月30日请门卫重启了一下电源导致重启电脑,原因是放假前需要使用键盘而拔下了,但可以在BIOS上进行设置,避免上述情况出现:

进入到 Standard CMOS Setup(标准系统参数设置)里面有个Halt on(暂停执行),它有几个选择,其中All But Keyborad是让BIOS检测到除了键盘之外的任何错误使系统暂停,等候处理。选择这个后,进入系统时,就不可以不用插键盘啦。

   说明:如果是有许多专业服务器,我们并不需要每台服务器配备显示器、键盘和鼠标,有时候仅初始化配置需要用一下就可以了,一般配一个推车(有显示器、鼠标和键盘),大公司都是批量配置、维护和升级。

但是导致无法访问和远程连接Linux服务器,并不是没有接入键盘的原因导致的。远程连接Linux服务器看系统日志,进一步分析原因:

[[email protected]~]# last >>last.txt  #显示用户登录的信息,并写入到last.txt文件

[[email protected]~]# sz last.txt    #sz上传到客户端电脑分析用户登录情况

root     pts/2        115.151.215.151  Sun Jul 31 12:28   still logged in

root     pts/0        115.151.215.151  Sun Jul 31 11:26 - 11:38  (00:11)

root     pts/0        115.151.215.151  Sun Jul 31 10:59 - 11:24  (00:25)

reboot   system boot  2.6.32-642.el6.xSun Jul 31 09:53 - 12:56  (03:02)

root     tty1                          Sun Jul 31 09:50 -down   (00:02)

reboot   system boot  2.6.32-642.el6.xSun Jul 31 09:47 - 09:52  (00:04)

sky      pts/1        117.40.239.12    Fri Jul 8 08:11 - 08:13  (00:01)

sky      pts/0        117.40.239.12    Thu Jun 30 08:25 - 11:10  (02:45)

root     pts/0        218.65.68.126    Wed Jun 29 23:08 - 23:09  (00:00)

root     pts/1        218.65.68.126    Wed Jun 29 23:06 - 23:08  (00:01)

root     pts/1        218.65.68.126    Wed Jun 29 23:02 - 23:05  (00:02)

reboot   system boot  2.6.32-642.el6.xWed Jun 29 23:00 - 09:52 (31+10:51)

root     pts/1        218.65.68.126    Wed Jun 29 21:07 - down   (01:52)

reboot   system boot  2.6.32-642.el6.xWed Jun 29 21:07 - 22:59  (01:52)

root     pts/0        218.65.68.126    Wed Jun 29 20:27 - down   (00:38)

sky      pts/0        218.65.68.126    Wed Jun 29 17:24 - 19:19  (01:54)

sky      pts/1        218.65.68.126    Tue Jun 28 17:08 - 17:47  (00:39)

reboot   system boot  2.6.32-642.el6.xTue Jun 28 15:04 - 21:06 (1+06:01)

root     pts/0        117.40.239.12    Tue Jun 28 15:03 - down   (00:00)

root     pts/0        117.40.239.12    Tue Jun 28 10:47 - 11:25  (00:37)

root     pts/1        117.40.239.12    Tue Jun 28 10:09 - 10:47  (00:38)

reboot   system boot  2.6.32-642.el6.xTue Jun 28 10:07 - 15:04  (04:56)

…………………………………………………………………………………………..

解释:说明7月8日——7月31日之间,没有任何用户可以访问Linux服务器。

[[email protected]~]# last reboot >> last_reboot.txt

#最近重启系统的记录

[[email protected]~]# sz last_reboot.txt

reboot   system boot 2.6.32-642.el6.x Sun Jul 31 09:53 -13:11  (03:17)

reboot   system boot 2.6.32-642.el6.x Sun Jul 31 09:47 -09:52  (00:04)

reboot   system boot 2.6.32-642.el6.x Wed Jun 29 23:00 -09:52 (31+10:51)

reboot   system boot 2.6.32-642.el6.x Wed Jun 29 21:07 -22:59  (01:52)

reboot   system boot 2.6.32-642.el6.x Tue Jun 28 15:04 -21:06 (1+06:01)

.....................................................................................................................................

解释:6月30日——7月30之间,系统管理员没有对系统做reboot操作,同时在这里可以证明,与没有接入键盘导致外界无法连接是没有任何关联的。

[[email protected] ~]#cat  /var/log/boot.log   #该文件记录了系统在引导过程中发生的事件,就是Linux系统开机自检过程显示的信息

G               Welcome to CentOS

Starting udev:G                                          [  OK  ]

Setting hostnamesky9896:                                 [  OK  ]

Checkingfilesystems

/dev/sda2: clean,186576/3219456 files, 5377035/12861440 blocks

/dev/sda1: clean,50/25688 files, 83291/102400 blocks

/dev/sda5: clean,32097/11911168 files, 1235336/47643904 blocks [  OK  ]

Remounting rootfilesystem in read-write mode:            [  OK  ]

Mounting localfilesystems:                               [  OK  ]

Enabling/etc/fstab swaps:                                 [  OK  ]

Enteringnon-interactive startup

ip6tables:Applying firewall rules:                       [  OK  ]

iptables: Applyingfirewall rules:                        [  OK  ]

Bringing uploopback interface:                            [ OK  ]

Bringing upinterface eth0:  Determining if ipaddress 117.40.239.9 is already in use for device eth0...

[  OK  ]

Bringing upinterface eth1.back:  Device eth1 doesnot seem to be present, delaying initialization.

[FAILED]

Startingauditd:                                          [  OK  ]

Startingportreserve:                                      [  OK  ]

Starting systemlogger:                                   [  OK  ]

Starting systemmessage bus:                              [  OK  ]

InitializingOpenCT smart card terminals:                 [  OK  ]

Startingcups:                                            [  OK  ]

Mountingfilesystems:                                      [  OK  ]

Starting HALdaemon:                                      [  OK  ]

Retrigger failedudev events                              [  OK  ]

Starting PC/SCsmart card daemon (pcscd):                  [ OK  ]

insmod: errorinserting ‘/etc/safedog/KernelSafedog/sddev.ko‘: -1 Invalid module format

Startingsnmpd:                                           [  OK  ]

Startingsnmptrapd:                                        [  OK  ]

Startingsshd:                                            [  OK  ]

Startingxinetd:                                          [  OK  ]

ntpdate:Synchronizing with time server:                   [FAILED]

Startingntpd:                                            [  OK  ]

Starting vsftpdfor vsftpd:                               [  OK  ]

Startingmysqld:                                          [  OK  ]

Startingsendmail:                                         [  OK  ]

Startingsm-client:                                        [  OK  ]

Startinghttpd:                                           [  OK  ]

Startingcrond:                                           [  OK  ]

Starting atd:                                             [  OK  ]

Starting jexecservicesUsing CATALINA_BASE:  /usr/local/tomcat

UsingCATALINA_HOME:   /usr/local/tomcat

UsingCATALINA_TMPDIR: /usr/local/tomcat/temp

UsingJRE_HOME:        /usr

UsingCLASSPATH:      /usr/local/tomcat/bin/bootstrap.jar:/usr/local/tomcat/bin/tomcat-juli.jar

Tomcat started.

/etc/rc3.d/S99local:line 9: /usr/local/apache2/bin/apachectl: No such file or directory

/etc/rc3.d/S99local:line 10: /applicaction/nginx/sbin/nginx: No such file or directory

[[email protected]~]# cat  /var/log/cron   #只产生7月31日的数据

[[email protected]~]# cat  /var/log/maillog   #只产生7月31日的数据

通过上述数据分析得知:7月8日—7月30日该时间段,Linux服务器岩机了,没有产生运行日志文件,可是为什么7月8日之前的相关运行日志文件找不到,为什么?难道自动覆盖了吗?请看到该文章的专业技术人员帮忙解答,先谢谢了。

下面是远程连接产生的另外一个问题:这种情况出现过两次

回家远程连接Linux服务器操作一段时间后,出现无法连接的情况:

连接N次,无法连接,隔了20分钟以上,又可以正常远程连接。

有些作者解释,估计是以下原因:

1.  SSH连接数大多;

2.  没有正常退出SSH;

3.  SSH配置和验文件;

通过实现Linux服务器分析,以上原因都不可能,最终隔了20分钟以上,又可以远程连接。

时间: 2024-10-15 00:47:21

普通电脑运行Linux系统负载过重会导致宕机的相关文章

虚拟机中2台Linux系统、2台客户机实现通信,并且可以以主机名ping通

实现目标:虚拟机中2台Linux系统.2台客户机实现通信,并且可以以主机名ping通 实验准备:1.在虚拟机中2台linux系统.一台win7.一台win2008 2.linuxA和linuxB作为2台路由器,win7和win2008作为2端的客户机 3.2台linux都加装一个网卡设备 导言:此实验用到思科路由交换技术. 我们所要实现的实验的访问路径如下: 客户机win7----->LINUX A----->LINUX B----->客户机win2008 并且实现通过ping主机名也可

在4K屏下以超过VMWare默认的最高分辨率运行Linux系统

前言 4K 屏,有其优点也有其弊端.优点就是分辨率高,字体和图标看起来如丝一般顺滑:缺点就是字体和图标小,费眼睛.解决这个缺点的方法也很简单粗暴,就是将系统的显示比例放大.在高分屏不很普及的时候,无论是操作系统的放大,还是应用软件的适配,总有那么一些不很完美.但是随着高分屏的普及,操作系统和应用软件也会与时俱进,显示界面越来越漂亮. 有时候为了方便,我也会在虚拟机中运行 Linux.我使用的软件是VMWare Workstation,一直都很顺手.在虚拟机中,Linux 最大可设置的分辨率为 2

wins和linux 系统不同编码格式导致的.py执行问题: bad interpreter: No such or file directory

我在win7上用IDLE编写了一个python文件(MyTopo.py),但是用putty传到VM中的ubuntu系统中,用 ./MyTopo方式执行. 显示: /bin/sh^M: bad interpreter: No such  file or directory . 但是用 python MyTopo.py执行方式就可以正确执行. 百思不得其解,后来在网上查到了原因: 这是不同系统编码格式的不同所引起的问题,在windows系统中编辑的.py文件中有linux系统无法识别的字符, 所以在

数据库修改字段导致宕机

170614 23:28:56 [ERROR] Slave SQL: Error 'Got error 64 'Temp file write failure' from InnoDB' on query. Default database: 'loandb'. Query: 'ALTER TABLE 'trd_loanapply DROP COLUMN LAP_SIGNRATE , Internal MariaDB error code: 1296 170614 23:28:56 [Warni

linux 系统修改lv 导致挂载问题

因为lv的名字乌龙导致的开机无法挂载/home,进入修复模式 /etc/fstab # # /etc/fstab # Created by anaconda on Fri Oct 19 02:49:22 2018 # # Accessible filesystems, by reference, are maintained under '/dev/disk' # See man pages fstab(5), findfs(8), mount(8) and/or blkid(8) for mo

Linux 系统 fstab错误导致系统无法启动的修复

fstab错误的修复 vim /etc/fstab/dev/sda6 /mnt xfs defaults 0 0重启后系统无法启动,等待一段时间后输入root的密码可进入单用户模式,修改fstab后可正常启动. 如果不能写入,需要重新以读写模式挂载根.mount -o remount,rw /

Linux系统中怎么查看本机IP

方法一: 方法二:

AZURE云上 mkfs.ext4 /dev/sdc 导致宕机问题解决纪实

1.mkfs.ext4后down机 Azure上新建的vm,准备安装oracle数据库,但是挂载的磁盘,初始化后,直接down机了,如下图,失去连接,xshell窗口直接断开退出了.看下面图片 021.png 尝试过一下办法: (1)      azure管理界面,重启vm,再来一遍,还是down机. (2)      删除这台vm,重建一台新的vm,还是一样只要执行mkfs.ext4 /dev/sdc直接down机. (3)      在别的区建vm,不在东区建在北区建,还是一样. 2.问题分

weblogic out of space in CodeCache for adapters导致宕机

weblogic会莫名的宕机,宕机日志跟以往的不同: Caused By: java.lang.VirtualMachineError: out of space in CodeCache for adapters at org.codehaus.groovy.runtime.callsite.AbstractCallSite.callCurrent(AbstractCallSite.java:141) at net.sf.jasperreports.engine.fill.JREvaluato