服务器的一次故障解决

  今早还在路上,接到值班电话,说一台服务器报警,报警信息为根分区磁盘空间满了,我直觉就是nginx的日志占用了空间,让其上服务器确认,好容易等他登陆到服务器上,查看,结果正常了。然后看到领导在微信群里说他清理了磁盘空间。

  到了公司以后,登陆上该服务器发现空间释放了,但还是占用了80%,还是不正常,先用df命令查看磁盘情况,占用80%,后面用du去核对实际大小,发现跟df的结果对不上,差很多,然后用lsof |grep deleted发现很多nginx的进程还在调用已经删除的文件,看来领导只删了文件,但nginx的引用并未启用新的,还在用老的文件描述符,导致系统并未真正释放空间。然后为了不中断服务使用命令lsof | grep deleted|awk ‘{print $2}‘|xargs kill杀掉了那些子进程,不过过一会儿还是有新的生成,空间还是释放不彻底。

  同时经过追踪发现,nginx的error log在疯狂的增长,进去一看,有很多的too many open files的错误,这是文件句柄用光了的意思啊,ulimit -a,open files是65535,不小了,查看了同时链接,1w+,看来这个数字已经不能满足nginx需要了,cat /proc/sys/fs/file-max,系统最大300多w,于是再次调高了/etc/security/limit.conf里面的限制,重启了nginx以后,一切恢复正常(包括文件描述符占用,不知道nginx的reload能不能释放,回头做个试验吧),error log已经没有了,其他地方的访问也已经正常,目前服务器同时连接数保持在1w零几百左右。见图:

ps:刚去试验了一下,删除nginx的日志文件以后,使用reload命令能够释放并重新生成日志文件.

时间: 2024-10-08 17:09:48

服务器的一次故障解决的相关文章

VPS服务器升级原则及故障解决方法

随着信息化建设的飞速发展,很多企业意识到自己的服务器已经不能满足自己发展的需要了.某公司服务器会经常出现宕机等情况,其原因是服务器不能承担更多的用户访问数量.还有处理器因为过于陈旧会出现资源占用率过高的情况.而且旧机器成本更高,所以需要对VPS服务器进行升级.我们需要注意升级的原则以及故障解决方法. 一.服务器升级原则 1. 服务器升级的目的是解决系统某一方面的瓶颈,但是升级的结果不能造成新的系统瓶颈. 升级时应该考虑针对的是服务器哪一方面的瓶颈,但是从应用来说,不能因为简单的升级某一部件,而造

(转)625某电商网站数据库宕机故障解决实录(上)

625某电商网站数据库特大故障解决实录(上) 原文:http://oldboy.blog.51cto.com/2561410/1431161 这是一次,惊心动魄的企业级电商网站数据库在线故障解决实录,故障解决的过程遇到了很多问题,思想的碰撞,解决方案的决策,及实际操作的问题困扰,老男孩尽量原汁原味的描述恢复的全部过程及思想思维过程!老男孩教育版权所有,本内容禁止商业用途. 目录: 625某电商网站数据库特大故障解决实录... 1 1接到电商客户报警... 1 1.1与客户初步沟通... 1 1.

Slave_SQL_Running: No mysql同步故障解决方法

Slave_SQL_Running: No mysql同步故障解决 今天检查数据库发现一台MySQL Slave未和主机同步,查看Slave状态:mysql> show slave status\GSlave_IO_Running: YesSlave_SQL_Running: NoLast_Errno: 1062....Seconds_Behind_Master:NULL原因:1.程序可能在slave上进行了写操作 2.也可能是slave机器重起后,事务回滚造成的. 解决办法I:1.首先停掉Sl

mysql的三个故障解决小结

mysql使用过程中经常会遇到的三个故障,在此小结一下. 1.MySQl服务无法启动 我们在使用mysql的过程中,常会遇到MySQl服务无法启动,具体报错信息:Starting MySQL ERROR.The server quit without updating PID file (/[FAILED]l/mysql/) 对这样的错误,网上的分析解释有很多,有人分析把skip-federated这个参数屏蔽就可以了,也有人认为删除mysql-bin.index这个文件就可以启动服务.或者检查

625某电商网站数据库宕机故障解决实录(上)

博客编辑器越来越用不好了,伙伴们将就看,需要排版更好的文档请加Q群246054962. 625某电商网站数据库特大故障解决实录(上) 这是一次,惊心动魄的企业级电商网站数据库在线故障解决实录,故障解决的过程遇到了很多问题,思想的碰撞,解决方案的决策,及实际操作的问题困扰,老男孩尽量原汁原味的描述恢复的全部过程及思想思维过程!老男孩教育版权所有,本内容禁止商业用途. 目录: 625某电商网站数据库特大故障解决实录... 1 1接到电商客户报警... 1 1.1与客户初步沟通... 1 1.2深入沟

ansible 故障解决

Ansible 服务器无法链接到客户端! [[email protected] ansible]# ansible 192.168.10.13  -m ping -k SSH password: 192.168.10.13 | FAILED! => {     "changed": false,     "failed": true,     "module_stderr": "",     "module_s

PXE+Kickstart无人值守安装CentOS 7出现DHCP故障解决报告

部署DHCP服务器 在安装dhcp.x86_64 后,用命令systemctlstatus dhcpd 命令查看dhcp服务运行状态发现failed. 报错信息为如下图: Not configured to listen on any interfaces! 经分析可能是配置文件错误.查阅文档后添加配置命令如下图:依旧出现同样的错误,故而不是此处原因. 有同行提示说是不是网卡信息配置错误,仔细查看配置信息后,发现启动类型的static写成了staic.如下图: 修改后重启网卡和dhcp服务 sy

NFS服务的简介及常见故障解决方法

NFS服务的简介及常见故障解决方法 1.NFS基本介绍 (1)NFS简介 NFS 是Network File System的缩写,即网络文件系统.一种使用于分散式文件系统的协定,由Sun公司开发,于1984年向外公布.功能是让客户端通过网络访问不同主机上磁盘里的数据,主要用在类Unix系统上实现文件共享的一种方法.NFS在文件传送或信息传送过程中依赖于RPC协议. (2)NFS服务需要安装的软件 nfs-utils-* :包括基本的NFS命令与监控程序 rpcbind-* :支持安全NFS RP

Juniper SRX220防火墙CPU达到100%的故障解决办法

Juniper SRX220防火墙CPU达到100%的故障解决办法 一.背景 2016年5月21日设备巡检时发现广东机构的防火墙SRX220的CPU高达100%,但是设备还能管理,但是卡顿明显,业 务还没有中断. 二.解决办法 1.查看设备的告警信息,没有告警. 2.查看带宽监控查看设备端口流量,均不高. 3.查看设备系统进程. 4.查看设备的日志信息. 5.与厂商工程师沟通,初步判断是由于NTP服务的开启导致该端口被利用,发生在了NTP攻击. 6.关闭NTP配置,设备远程管理不再卡顿,但是CP