今早还在路上,接到值班电话,说一台服务器报警,报警信息为根分区磁盘空间满了,我直觉就是nginx的日志占用了空间,让其上服务器确认,好容易等他登陆到服务器上,查看,结果正常了。然后看到领导在微信群里说他清理了磁盘空间。
到了公司以后,登陆上该服务器发现空间释放了,但还是占用了80%,还是不正常,先用df命令查看磁盘情况,占用80%,后面用du去核对实际大小,发现跟df的结果对不上,差很多,然后用lsof |grep deleted发现很多nginx的进程还在调用已经删除的文件,看来领导只删了文件,但nginx的引用并未启用新的,还在用老的文件描述符,导致系统并未真正释放空间。然后为了不中断服务使用命令lsof | grep deleted|awk ‘{print $2}‘|xargs kill杀掉了那些子进程,不过过一会儿还是有新的生成,空间还是释放不彻底。
同时经过追踪发现,nginx的error log在疯狂的增长,进去一看,有很多的too many open files的错误,这是文件句柄用光了的意思啊,ulimit -a,open files是65535,不小了,查看了同时链接,1w+,看来这个数字已经不能满足nginx需要了,cat /proc/sys/fs/file-max,系统最大300多w,于是再次调高了/etc/security/limit.conf里面的限制,重启了nginx以后,一切恢复正常(包括文件描述符占用,不知道nginx的reload能不能释放,回头做个试验吧),error log已经没有了,其他地方的访问也已经正常,目前服务器同时连接数保持在1w零几百左右。见图:
ps:刚去试验了一下,删除nginx的日志文件以后,使用reload命令能够释放并重新生成日志文件.