RAC环境产生大量ons进程，导致用户进程资源耗尽，用户切换提示Resource temporarily unavailable

基本要素（时间、用户、问题）

用户才实施了LINUX5.8+11.2.0.4的RAC环境，使用一段时间后，当切换的grid用户的时候，提示Resource temporarily unavailable，如下：

[[email protected] bin]# su- grid

su: cannot set userid: Resource temporarily unavailable

但是我们在切换其他用户如oracle用户的时候，却能够正常切换，并且CRS集群使用正常，客户端的连接和用户的使用暂时也没有影响，用户在第一次出现这种情况的时候，采用重启服务器的方式，暂时解决了问题，但是没过多久，又再次出现，因此用户需要彻底解决这个问题，避免出现其他安全隐患，影响正常的业务应用。

问题分析

步骤一：检测操作系统资源限制配置

一般出现这种情况，首先就应该考虑我们在实施过程中操作系统中关于grid用户资源限制的参数设置得可能存在问题，在实施RAC的过程中，对用户的资源限制有2个地方/etc/security/limits.conf和/etc/profile，首先就应该检测下这2个配置文件的内容，如下：

[[email protected] ~]# cat/etc/security/limits.conf

grid soft nproc 16384

grid hard nproc 65536

grid soft nofile 2047

grid hard nofile 65536

oracle soft nproc 16384

oracle hard nproc65536

oracle soft nofile 2047

oracle hard nofile65536

[[email protected] ~]# cat/etc/profile

if [ $USER ="oracle" ] || [ $USER = "grid" ]; then

if[ $SHELL = "/bin/ksh" ]; then

ulimit-p 16384

ulimit-n 65536

else

ulimit-u 16384 -n 65536

umask022

这里的nproc就是对用户能够使用的最大进程数的控制，其中soft是软限制，用户可以超过这个设置的值，但一定不能超过hard的值。一般soft比hard小，hard是硬限制，/etc/security/limits.conf中的格式如下，这里以fszize这个参数为例：

我们这里的grid soft nproc 16384和grid hard nproc 65536就表示grid用户最多能启用65536个进程，其中达到16384就发出警告，接下来我们就应该查看下用户的进程数，如下

[[email protected] ~]# ps –Ugrid |wc –l

156

[[email protected] ~]# ps –aux|wc –l

659

我这里查看下了进程不多，没有超过告警值，不应该提示Resource temporarily unavailable的错误啊，我这里怀疑是我用的命令参数可能有问题，通过百度PS的命令介绍，换了个参数执行如下：

[[email protected] ~]# ps –eL|wc–l

17730

这次我们可以看到明显的进程异常，一个节点中居然存在16530个进程，而这里的-e是显示所有用户的进程，我们之前的-aux明显过滤掉了一些进程，这是因为

-a 　显示所有终端机下执行的程序

-e 　显示所有程序

前者只显示了终端上的所有执行程序，并没有显示所有程序，后者才是完整的显示了当前环境中的所有进程，接下来我们需要认真的排查这些非常规的进程，通过罗列，发现大量的ONS进程，如下：

通过命令汇总一下，总共有16530个ons进程，

[[email protected] ~]# ps –eL|grepons |wc –l

16530

这下终于找到了问题的根本原因，接下来我们就需要对该问题进行处理。

步骤二：ONS进程分析

ONS (Oracle Notification Services)官方解释如下A publish andsubscribe service for communicating information about all FAN events其主要负责RAC节点间的通讯，是一个很重要的服务进程，为什么会出现大量的ONS进程呢？ONS has Thousand Processes/Threads and Still Increasing (文档 ID 1547703.1)给出了原因

APPLIES TO:

OracleDatabase - Enterprise Edition - Version 11.2.0.1 and later

Information in thisdocument applies to any platform.

SYMPTOMS

The number of ONS processes/threads continuously increases.

oracle 9470 17663 7447 0 7599 07:11? 00:00:00 /orahome/app/grid/opmn/bin/ons-d

oracle 9470 17663 8920 0 7599 07:12? 00:00:00 /orahome/app/grid/opmn/bin/ons -d

oracle 9470 17663 10425 0 7599 07:13? 00:00:00 /orahome/app/grid/opmn/bin/ons -d

The output ofcommand - "onsctl debug"

IPADDRESS PORT TIME SEQUENCE FLAGS

--------------------------------------- ------------- -------- --------

127.0.0.1 6200 511c7ccb 00000001 00000008

Listener:

TYPE BINDADDRESS PORT SOCKET

-------- -------------------------------------------- ------

Local 127.0.0.1 6100 5

Remote any 6200 6

Remote any 6200 -

Connection Topology: (1)

IP PORT VERS TIME

--------------------------------------- ---------- --------

127.0.0.1 6200 4 511c7cdd=

** 127.0.0.1 6200

Server connections:

ID CONNECTIONADDRESS PORT FLAGS SENDQ REF WSAQ

-------- -------------------------------------------- ------ ----- --- ----

6 127.0.0.1 6200090026 00000 001

Client connections:

ID CONNECTIONADDRESS PORT FLAGS SENDQ REF SUB W

-------- -------------------------------------------- ------ ----- --- --- -

1 internal 0 01008a 00000 001 002

2 127.0.0.1 610001001a 00000 001 001

5 127.0.0.1 610001001a 00000 001 000

request 127.0.0.1 6100 03201a 00000 001 000

CAUSE

Misconfigured /etc/hostsfor loopback interface

-------------------------------------------------------------------

127.0.0.1 emsdb01 localhost.localdomainlocalhost

-------------------------------------------------------------------

SOLUTION

Change loopbackinterface to the following:

-------------------------------------------------------------------

127.0.0.1 localhost.localdomainlocalhost

-------------------------------------------------------------------

解决过程

步骤一：查看/etc/hosts文件

我们查看/etc/hosts文件，发现果然在127.0.0.1这一行，保留了主机名称，看来还是我们的实施人员实施过程不细致导致，去掉光标那列的主机名，如下

[[email protected] ~]# cat/etc/hosts

127.0.0.1 rac01 localhost.localdomainlocalhost

192.168.4.23 rac01

192.168.4.24 rac02

192.168.4.27 rac01-vip

192.168.4.28 rac02-vip

192.168.4.30 scan-rac

2个节点都调整完成后，按顺序重启下节点，再用onsctl debug命令执行结果如下

ADDRESS PORT TIME SEQUENCE FLAGS

--------------------------------------- ------------- -------- --------

127.0.0.1 6200 511c7ccb 00000001 00000008

Listener:

TYPE BINDADDRESS PORT SOCKET

-------- -------------------------------------------- ------

Local 127.0.0.1 6100 5

Remote any 6200 6

Remote any 6200 -

Connection Topology: (1)

IP PORT VERS TIME

--------------------------------------- ---------- --------

127.0.0.1 6200 4 511c7cdd=

192.168.4.23 6200

192.168.4.24 6200

Server connections:

ID CONNECTIONADDRESS PORT FLAGS SENDQ REF WSAQ

-------- -------------------------------------------- ------ ----- --- ----

6 127.0.0.1 6200090026 00000 001

Client connections:

ID CONNECTIONADDRESS PORT FLAGS SENDQ REF SUB W

-------- -------------------------------------------- ------ ----- --- --- -

1 internal 0 01008a 00000 001 002

2 127.0.0.1 610001001a 00000 001 001

5 127.0.0.1 610001001a 00000 001 000

request 127.0.0.1 6100 03201a 00000 001 000

我们看到与之前相比，节点的IP已经正确的显示了，然后我们再查询ons的进程，已经减少到2个左右，问题彻底解决。

[[email protected] ~]# ps –eL|grepons |wc –l

关键知识点

1.PS查看进程命令，注意有-和没得-的区别，例如我们要查看所有进程，应该是ps aux而如果用了ps –aux就不能显示所有进程，因为：

参数说明：

-a 显示所有终端机下执行的进程，除了阶段作业领导者之外。

a 显示现行终端机下的所有进程，包括其他用户的进程。

-e 　显示所有进程。

e 　列出进程时，显示每个进程所使用的环境变量。

2.11gr2 RAC实施的时候，一定要记得把hosts文件中127.0.0.1这列的主机名去掉，不然会导致大量的ons进程。

时间： 2024-10-13 13:08:59

RAC环境产生大量ons进程，导致用户进程资源耗尽，用户切换提示Resource temporarily unavailable

基本要素（时间、用户、问题）

问题分析

步骤一：检测操作系统资源限制配置

步骤二：ONS进程分析

APPLIES TO:

SYMPTOMS

CAUSE

SOLUTION

解决过程

步骤一：查看/etc/hosts文件

关键知识点

RAC环境产生大量ons进程，导致用户进程资源耗尽，用户切换提示Resource temporarily unavailable的相关文章

su切换用户报错cannot set user id: Resource temporarily unavailable

修改linux用户的可以打开的最大文件数和进程数(fork: retry: Resource temporarily unavailable)

Linux报错-bash: fork: retry: Resource temporarily unavailable和进程描述符之间的关系

Resource temporarily unavailable用户的连接数设置的太小

TIME_WAIT状态的连接过多导致系统端口资源耗尽问题(2)

生产上数据库大量的latch free 导致的CPU资源耗尽的问题的解决

UNIX环境编程学习笔记（19）——进程管理之fork 函数的深入学习

进程控制(2): 进程操作

在windows 2003 sp2 或者 2008 rac环境中，可能会由于默认的SNP（ Scalable Networking Pack）特性会导致实例驱逐或者节点驱逐