Dell监控OMSA监控

Nagiso 客户端要求必须在dell服务器上安装 OMSA(Openmanage Server Administrator)

 
Nagios客户端安装OMSA (可参考http://linux.dell.com/repo/hardware/OMSA_7.4.0/)

 
1、增加dell的yum库 ( 可以访问 http://linux.dell.com/repo/hardware 查看最新版本 )
 wget -q -O - http://linux.dell.com/repo/hardware/OMSA_7.4.0/bootstrap.cgi | bash

 
2、安装srvadmin
 yum install srvadmin-all -y

 
3、启动srvadmin
/opt/dell/srvadmin/sbin/srvadmin-services.sh start

Nagios 服务端配置
 
1、dell官方OMSA监控脚本下载(下载至Nagios 服务器 /usr/local/nagios/libexec下,并赋nagios执行权限)
 wget  http://folk.uio.no/trondham/software/check_openmanage-3.7.11/check_openmanage
 
 另,由于check_openmanage为perl脚本,故需perl解释器 需安装 perl-Net-SNMP
yum install perl-Net-SNMP  
 
2、以下是手动执行脚本获取硬件状态
 
#电压
./check_openmanage -H 192.168.1.100  --only voltage
VOLTAGE OK - 20 voltage probes checked

 
#cpu
./check_openmanage -H 192.168.1.100  --only cpu
PROCESSORS OK - 1 processors checked

 
#风扇转速
./check_openmanage -H 192.168.1.100  --only fans
FANS OK - 12 fan probes checked

#存储
./check_openmanage -H 192.168.1.100  --only storage
STORAGE OK - 3 physical drives, 1 logical drives

 
#内存
./check_openmanage -H 192.168.1.100  --only memory
MEMORY OK - 2 memory modules, 32768 MB total memory

 
#电池
./check_openmanage -H 192.168.1.100  --only batteries
BATTERIES OK - 1 batteries checked

 
check_openmanage 脚本更多详细用法请参考:
http://folk.uio.no/trondham/software/check_openmanage.html
如果以上无报错时,便可配置到Nagios 中了,配置方法网上较多,在这里就不多说了

#卸载openManage Server Administrator
yum erase $(rpm -qa | grep srvadmin)

故障处理

1.当系统日志出现
 Server Administrator (Shared Library): Data Engine EventID: 0  A semaphore set has to be created but the system limit for the maximum number of semaphore sets has been exceeded 
 出现这个东西的时候表示你的监控已经不能用了。
 大概意思是说:由于系统最大信号数量的限制,Data Engine未能成功开启。
 这需要修改系统内核对于 semaphore sets 的设定。方法如下:
 
ipcs -l
   ------ Shared Memory Limits --------  
   max number of segments = 4096  
   max seg size (kbytes) = 67108864  
   max total shared memory (kbytes) = 17179869184  
   min seg size (bytes) = 1  
   ------ Semaphore Limits --------  
   max number of arrays = 128  
   max semaphores per array = 250  
   max semaphores system wide = 32000  
   max ops per semop call = 32  
   semaphore max value = 32767  
   ------ Messages: Limits --------  
   max queues system wide = 16  
   max size of message (bytes) = 65536  
   default max size of queue (bytes) = 65536
   
sysctl -a | grep shm  
   vm.hugetlb_shm_group = 0  
   kernel.shmmni = 4096  
   kernel.shmall = 4294967296  
   kernel.shmmax = 68719476736 
 
 
 解决办法
 调整
 max queues system wide
 max number of arrays
 
 sysctl -w kernel.msgmni=16384 
 sysctl -w kernel.sem="250 32000 100 1024" 
 ##################################################
 echo "kernel.msgmni=16384" >> /etc/sysctl.conf 
 echo "kernel.sem=\"250 32000 100 1024\"" >> /etc/sysctl.conf 
 
 再次查看
ipcs -l 

------ Shared Memory Limits --------
max number of segments = 4096
max seg size (kbytes) = 67108864
max total shared memory (kbytes) = 17179869184
min seg size (bytes) = 1

------ Semaphore Limits --------
max number of arrays = 1024
max semaphores per array = 250
max semaphores system wide = 32000
max ops per semop call = 100
semaphore max value = 32767

------ Messages: Limits --------
max queues system wide = 16384
max size of message (bytes) = 65536
default max size of queue (bytes) = 65536

重启
/opt/dell/srvadmin/sbin/srvadmin-services.sh restart

2

refused smux peer: oid SNMPv2-SMI::enterprises.674.10892.1, descr Systems Management SNMP MIB Plug-in Manager 
SNMP 被拒绝
/etc/init.d/snmpd restart 即可  如果你的配置是正确的

3

ipmi_si: Could not enable interrupts, failed set, using polled mode.  
不能中断,错误的设置,使用轮询的方式。

下面我们将用自己的办法监控机器的状态

Get_Dell_Server_Detail.py   搜集DELL硬件信息  保存到/tmp目录下
cat /data/program/nagios-client/libexec/Get_Dell_Server_Detail.py 
#!/usr/bin/python2.7
# -*- coding:utf-8 -*-

"""
The Dell Server Hardware Detail
author jastme
"""

import commands,os

try:
    if os.path.exists(‘/tmp/Dell_Hardware_Detail.txt‘):
        pass
except IOError:
    f=open(‘/tmp/Dell_Hardware_Detail.txt‘,‘w‘)
    f.close()

def DellServer():
    detail=commands.getoutput(‘/data/program/nagios-client/libexec/check_openmanage -s -d‘)
    ff=open(‘/tmp/Dell_Hardware_Detail.txt‘,‘w‘)
    ff.write(detail)
    ff.close()

if __name__ == ‘__main__‘:
    DellServer()
时间: 2024-10-16 17:41:37

Dell监控OMSA监控的相关文章

Dell 服务器硬件信息监控,自动生成服务器资产信息

在对服务器的硬件监控上,目前业界主要基于如下两种: 1.服务器自带的工具,比如HP的hpacucli,DELL的OMSA等 2.智能平台管理接口 (IPMI,全称Intelligent Platform Management Interface) 基于以上两种,通过nagios.zabbix或自研运维平台等包裹,进行预警操作. 由于公司使用的服务器全部为DELL PowerEdge系列的,这里将以如何对DELL PowerEdge系列服务器硬件进行监控这一实际案例为主. 一.OMSA 介绍 DE

zabbix自定义监控,监控网卡信息

上篇我记录了怎样自定义监控CPU<自定义监控项--监控CPU信息>,这里分享一下自定义监控网卡eth0,出战和入站流量. 自定义监控项,网卡信息 1.选择要监控的主机,按顺序打开Items ConfigurationèHostèItems 2.创建Item 3.配置Item信息 (1)监控网eth0进站流量 (2)选择应用集,Add添加保存Item (3)添加eth0进站流量监控项完成 4.通过克隆监控项配置eth0出站流量 (1)找到刚监控监控点击 (2)进入Item配置界面,下拉找到克隆.

自定义监控项--监控CPU信息

自定义监控项--监控CPU信息 1.服务端安装zabbix-get安装 Zabbix-Get 是Zabbix 中的一个程序,用于Zabbix-Server 到Zabbix-Agent 的数据获取,通常可以用来检测验证Agent 的配置是否正确. [email protected]:~# apt-get install zabbix-get Reading package lists... Done Building dependency tree Reading state informatio

免费网站监控服务阿里云监控,DNSPod监控,监控宝,360云监控使用对比

网站会因为各种原因而导致宕机,具体表现为服务器没有响应,用户打不开网页,域名解析出错,搜索引擎抓取页面失败,返回各种HTTP错误代码.网站宕机可能带来搜索引擎的惩罚,网站服务器不稳定与百度关系文章中就是一个生动的例子. 为了最大限度地避免损失,我们需要在网站宕机后尽快得到提醒,同时在最短的时间恢复网站的正常运行.这就是作为草根个人站长的悲剧,起早贪黑地更新网站内容,没想到一个十五长假过去了,网站宕机了好几天,回来一看site百度网站消失了. 本篇文章就来分享一下国内四个免费的网站监控服务:阿里云

Zabbix日志监控之监控Windows用户登录

Zabbix监控Windows用户登录是通过对Windows日志的监控来实现.在登录审核失败或者登录成功时发出告警.     告警邮件示例: 下面给出监控思路和步骤: 一.分析登录日志 打开事件查看器,依次选择"Windows日志"->"安全".     1.登录成功的日志 通常一个登录成功的日志有四条: 其中事件ID为4624的日志里包含登录账户名.登录源IP和端口等.     2.账户登录失败的日志 账户登录失败会产生一条事件ID为4625的日志,日志里也

使用云监控实现GPU云服务器的GPU监控和报警(下)-云监控插件监控

摘要: 目录 使用云监控实现GPU云服务器的GPU监控和报警(上) - 自定义监控 使用云监控实现GPU云服务器的GPU监控和报警(下)-云监控插件监控 1 背景 上一篇文章我们介绍了如何使用阿里云云监控服务提供的自定义监控功能,利用自定义监控提供的API或者SDK,通过自定义脚本可以将GP. 1 背景上一篇文章我们介绍了如何使用阿里云云监控服务提供的自定义监控功能,利用自定义监控提供的API或者SDK,通过自定义脚本可以将GPU云主机内采集的GPU数据上报,在云监控控制台上添加相应的GPU监控

DELL SAS6i 磁盘监控部署

一.安装: #安装源 wget -q -O - http://linux.dell.com/repo/hardware/OMSA_7.1.1/bootstrap.cgi | bash #如果出现软件冲突,则执行 yum remove tog-pegasus tog-pegasus-libs -y rpm -e Lib_Utils-1.00-08.noarch MegaCli-8.00.29-1.i386 rpm -e Lib_Utils-1.00-09.noarch MegaCli-8.02.2

使用jdk自带的visualVM监控远程监控was

1.登录was控制台https://172.16.87.221:9043/ibm/console/unsecureLogon.jsp 服务器--服务器类型--Java 和进程管理---进程定义---Java 虚拟机 通用JVM参数:-Djavax.management.builder.initial= -Dcom.sun.management.jmxremote 2.修改/opt/IBM/WebSphere/AppServer/java/jre/lib/management/management

nagios 添加自定义监控项目监控mysql数据库死锁

nagios 添加自定义监控项目 ++++++++++++++++++++++++++++++++++++++++++++++++++++++++++ 系统环境:CentOS Linux release 7.2.1511 (Core) nagios 版本: 2.15 这里配合pt-dead-logger插件了,运行了这个插件,有死锁就会在test.deadlocks表写入死锁的信息 这里通过检测这个表是否增加了行数来发报警 nagios客户端自定义脚本: ###这里为了省事,直接把数据库的用户,