服务器的一次故障解决

　　今早还在路上，接到值班电话，说一台服务器报警，报警信息为根分区磁盘空间满了，我直觉就是nginx的日志占用了空间，让其上服务器确认，好容易等他登陆到服务器上，查看，结果正常了。然后看到领导在微信群里说他清理了磁盘空间。

　　到了公司以后，登陆上该服务器发现空间释放了，但还是占用了80%，还是不正常，先用df命令查看磁盘情况，占用80%，后面用du去核对实际大小，发现跟df的结果对不上，差很多，然后用lsof |grep deleted发现很多nginx的进程还在调用已经删除的文件，看来领导只删了文件，但nginx的引用并未启用新的，还在用老的文件描述符，导致系统并未真正释放空间。然后为了不中断服务使用命令lsof | grep deleted|awk ‘{print $2}‘|xargs kill杀掉了那些子进程，不过过一会儿还是有新的生成，空间还是释放不彻底。

　　同时经过追踪发现，nginx的error log在疯狂的增长，进去一看，有很多的too many open files的错误，这是文件句柄用光了的意思啊，ulimit -a，open files是65535，不小了，查看了同时链接，1w+，看来这个数字已经不能满足nginx需要了，cat /proc/sys/fs/file-max,系统最大300多w，于是再次调高了/etc/security/limit.conf里面的限制，重启了nginx以后，一切恢复正常(包括文件描述符占用，不知道nginx的reload能不能释放，回头做个试验吧)，error log已经没有了，其他地方的访问也已经正常，目前服务器同时连接数保持在1w零几百左右。见图：

ps：刚去试验了一下，删除nginx的日志文件以后，使用reload命令能够释放并重新生成日志文件.

时间： 2024-10-08 17:09:48

服务器的一次故障解决的相关文章

VPS服务器升级原则及故障解决方法

随着信息化建设的飞速发展,很多企业意识到自己的服务器已经不能满足自己发展的需要了.某公司服务器会经常出现宕机等情况,其原因是服务器不能承担更多的用户访问数量.还有处理器因为过于陈旧会出现资源占用率过高的情况.而且旧机器成本更高,所以需要对VPS服务器进行升级.我们需要注意升级的原则以及故障解决方法. 一.服务器升级原则 1. 服务器升级的目的是解决系统某一方面的瓶颈,但是升级的结果不能造成新的系统瓶颈. 升级时应该考虑针对的是服务器哪一方面的瓶颈,但是从应用来说,不能因为简单的升级某一部件,而造

(转）625某电商网站数据库宕机故障解决实录（上）

625某电商网站数据库特大故障解决实录(上) 原文:http://oldboy.blog.51cto.com/2561410/1431161 这是一次,惊心动魄的企业级电商网站数据库在线故障解决实录,故障解决的过程遇到了很多问题,思想的碰撞,解决方案的决策,及实际操作的问题困扰,老男孩尽量原汁原味的描述恢复的全部过程及思想思维过程!老男孩教育版权所有,本内容禁止商业用途. 目录: 625某电商网站数据库特大故障解决实录... 1 1接到电商客户报警... 1 1.1与客户初步沟通... 1 1.

Slave_SQL_Running: No mysql同步故障解决方法

Slave_SQL_Running: No mysql同步故障解决今天检查数据库发现一台MySQL Slave未和主机同步,查看Slave状态:mysql> show slave status\GSlave_IO_Running: YesSlave_SQL_Running: NoLast_Errno: 1062....Seconds_Behind_Master:NULL原因:1.程序可能在slave上进行了写操作 2.也可能是slave机器重起后,事务回滚造成的. 解决办法I:1.首先停掉Sl

mysql的三个故障解决小结

mysql使用过程中经常会遇到的三个故障,在此小结一下. 1.MySQl服务无法启动我们在使用mysql的过程中,常会遇到MySQl服务无法启动,具体报错信息:Starting MySQL ERROR.The server quit without updating PID file (/[FAILED]l/mysql/) 对这样的错误,网上的分析解释有很多,有人分析把skip-federated这个参数屏蔽就可以了,也有人认为删除mysql-bin.index这个文件就可以启动服务.或者检查

625某电商网站数据库宕机故障解决实录（上）

博客编辑器越来越用不好了,伙伴们将就看,需要排版更好的文档请加Q群246054962. 625某电商网站数据库特大故障解决实录(上) 这是一次,惊心动魄的企业级电商网站数据库在线故障解决实录,故障解决的过程遇到了很多问题,思想的碰撞,解决方案的决策,及实际操作的问题困扰,老男孩尽量原汁原味的描述恢复的全部过程及思想思维过程!老男孩教育版权所有,本内容禁止商业用途. 目录: 625某电商网站数据库特大故障解决实录... 1 1接到电商客户报警... 1 1.1与客户初步沟通... 1 1.2深入沟

ansible 故障解决

Ansible 服务器无法链接到客户端! [[email protected] ansible]# ansible 192.168.10.13 -m ping -k SSH password: 192.168.10.13 | FAILED! => { "changed": false, "failed": true, "module_stderr": "", "module_s

PXE+Kickstart无人值守安装CentOS 7出现DHCP故障解决报告

部署DHCP服务器在安装dhcp.x86_64 后,用命令systemctlstatus dhcpd 命令查看dhcp服务运行状态发现failed. 报错信息为如下图: Not configured to listen on any interfaces! 经分析可能是配置文件错误.查阅文档后添加配置命令如下图:依旧出现同样的错误,故而不是此处原因. 有同行提示说是不是网卡信息配置错误,仔细查看配置信息后,发现启动类型的static写成了staic.如下图: 修改后重启网卡和dhcp服务 sy

NFS服务的简介及常见故障解决方法

NFS服务的简介及常见故障解决方法 1.NFS基本介绍 (1)NFS简介 NFS 是Network File System的缩写,即网络文件系统.一种使用于分散式文件系统的协定,由Sun公司开发,于1984年向外公布.功能是让客户端通过网络访问不同主机上磁盘里的数据,主要用在类Unix系统上实现文件共享的一种方法.NFS在文件传送或信息传送过程中依赖于RPC协议. (2)NFS服务需要安装的软件 nfs-utils-* :包括基本的NFS命令与监控程序 rpcbind-* :支持安全NFS RP

Juniper SRX220防火墙CPU达到100%的故障解决办法

Juniper SRX220防火墙CPU达到100%的故障解决办法一.背景 2016年5月21日设备巡检时发现广东机构的防火墙SRX220的CPU高达100%,但是设备还能管理,但是卡顿明显,业务还没有中断. 二.解决办法 1.查看设备的告警信息,没有告警. 2.查看带宽监控查看设备端口流量,均不高. 3.查看设备系统进程. 4.查看设备的日志信息. 5.与厂商工程师沟通,初步判断是由于NTP服务的开启导致该端口被利用,发生在了NTP攻击. 6.关闭NTP配置,设备远程管理不再卡顿,但是CP

猜你喜欢

让Tomcat支持引用软连接资源

默认情况下想通过在Tomcat下建立软连接来使tomcat上的应用引用该资源是不行的.会出现类似错误: java.lang.IllegalStateException: ContainerBase.a ...

（寒假集训）Mooo Moo （完全背包）

Mooo Moo 时间限制: 1 Sec 内存限制: 64 MB提交: 5 解决: 4[提交][状态][讨论版] 题目描述 Farmer John has completely forgotten ...

几大开发模型区别与联系

开发模型分别有瀑布模型,快速原型模型,增量模型,螺旋模型. 瀑布模型,是一种分工很细,力求每个环节都做到最好,前一个环节没做完不进入下一阶段的一种开发模型.就好比建房子,从设计图开始,确定后打地基, ...

周筠老师的过早退出是一切失败的根源对我的启示

老师曾经在课堂上推荐了我们许多人,让我们浏览阅读他们的博文,于是我今天抽空看了周筠老师的其中一篇文章,标题为<过早退出是一切失败的根源>.说实话,这篇文章这实在对我的震撼很大. 1.不要过 ...

解锁Scott过程中出现的问题及解决办法

一.conn sys/sys as sysdba; //以DBA的身份登录出现以下错误经查协议适配器错误的问题的原因有三个监听服务没有起起来.windows平台个一如下操作:开始---程序-- ...

<转>关闭程序崩溃时 windows 正在检查该问题的解决方案

本文转自:http://www.cnblogs.com/dabaopku/archive/2011/07/04/2097029.html 尤其是使用visual studio开发程序 ,自己特意thr ...

ubuntu下Eclipse英文乱码解决方法

1 首先检查Eclipse的WorkSpace下字符编码Windows>Perference>General>WorkSpace>左下角,设置为GBK(若没有GBK选项,可百度 ...

Combination Sum-Leetcode

先贴代码,容后补内容 public class Solution { public List<List<Integer>> combinationSum(int[] candi ...

JS 判断手机操作系统代码

还是利用UA, 返回值: ios, android, unknown function getMobileType () { var ua = window.navigator.userAgent.t ...

Visual Studio For MacOS 踩坑记(二)

Visual Studio For MacOS安装安卓SDK. 系统默认安装了安卓6.0 API23的SDK. 但是我需要安卓7.0的,API24. 遂安装. SDK可以下载成功,但是用Visu ...

JTextArea设置滚动条

应将JTextArea置于JScrollPanel中若要使只有垂直滚动条而没有水平滚动条,使用JTextArea.setLineWrap(true),自动换行. 以下摘自[url]http://zh ...

erw

CONFIG_INIT_ENV_ARG_LIMIT=32 # # General setup # CONFIG_LOCALVERSION="" # CONFIG_LOCALVERS ...

js做全选，用一个checkbox复选框做多个checkbox复选框的全选按钮，有一个复选框未被选择时，全选按钮的checked就为false

用一个checkbox复选框做多个checkbox复选框的全选按钮,有一个复选框未被选择时,全选按钮的checked就为false,当所有checkbox都被选中时,全选按钮也被选中. 详解: 有两种 ...

EasyUI 兼容 IE6 方法总结

1.combobox 如果单选,multiple必须也设置为true.这个ie7如果没设置,会保持多选状态,算是一个bug. 2.combobox 最好用js来渲染,而不是一开始就class=“eas ...

数据备份的OSS接口

最近在做一个新的项目,从RDS备份到OSS,进行数据备份以及后续的还原.这边对阿里云的OSS数据上传接口进行说明,先做下笔记先简单介绍下OSS: ①Object 在OSS中,用户操作的基本数据单元是O ...

阿里在线笔试总结

今年阿里校招首次使用线上笔试,20道单选(40mins)+3道附加题(80mins),一共2个小时. 20道单选包括由于网络协议.操作系统.C++.数学逻辑题.数据结构和算法几个方面的题,其中数学和逻 ...

《信息安全系统设计基础》第11周学习总结

20145336张子扬 <信息安全系统设计基础>第11周学习总结学习目标了解异常及其种类理解进程和并发的概念掌握进程创建和控制的系统调用及函数使用:fork,exec,wait,w ...

Java中this和super的用法总结

这几天看到类在继承时会用到this和super,这里就做了一点总结,与各位共同交流,有错误请各位指正~ this this是自身的一个对象,代表对象本身,可以理解为:指向对象本身的一个指针. this ...

TabActivity 返回键 onBackPressed 监听 dispatchKeyEvent 监听

TabActivity 返回键 onBackPressed 监听 dispatchKeyEvent 监听早上碰到TabActivity 返回键的监听事件,出现各种问题.瞎忙了一早上,最后googl ...

a标签伪类的顺序

在一次开发项目中,我用a链接来做效果,测试的时候发现,a:hover被点击后的效果就不再了!我百度才知道,原来在css写a链接也是有顺序之分的. 顺序应该是: a:link a标签还未被访问的状态: ...

专题

随机推荐

© 2024 憋错料 | info#biecuoliao.com | 10 q. 0.019 s.