服务器硬件监控之OMSA

前一周上架服务器,本来准备把针对服务器的硬件监控这一部分总结下成文,结果过个端午给过忘了。。。今天就又整理了下,在这里分享给51博友,也算是对自己前段工作的一个总结。

在对服务器的硬件监控上,目前业界主要基于如下两种:

       1、服务器自带的工具,比如HP的hpacucli,DELL的OMSA等

       2、智能平台管理接口 (IPMI,全称Intelligent Platform Management Interface)

基于以上两种,通过nagios、zabbix或自研运维平台等包裹,进行预警操作。

由于博主公司使用的服务器全部为DELL PowerEdge系列的,因此博主这里将以如何对DELL PowerEdge系列服务器硬件进行监控这一实际案例为主。

一、OMSA 介绍

DELL OMSA的全称为Dell Openmanage Server Administrator,它是戴尔公司基于自主研发力量开发的IT系统管理解决方案,通过与业内领先的系统管理解决方案供应商密切配合,在深入了解用户对系统管理需求的基础上,OMSA系统管理方案可以全面解决系统管理人员最关心的系统部署、系统监控和系统变更三大系统管理问题。它通过提供以下两种方式来对本地和远程的服务器进行管理和监控。

       1、基于Web浏览器的集成图形用户界面(GUI)

       2、操作系统的命令行界面(CLI)工具

大家可能对DELL的IDRAC更熟悉一点,OMSA其实就是 IDRAC企业版的开源社区版。这里列出IDRAC和OMSA的web界面,两者看着非常相似,功能上也是非常相似。

IDRAC:

OMSA:

二、OMSA 部署

下面介绍如何安装使用OMSA。由于我们公司主要使用的是红帽系列的产品,因此这里列举RHEL6和CentOS6部署方式。

RHEL 6.X 平台安装 OMSA:

在RHEL6上部署OMSA,由于DELL售后那边发给我过资料,这里我就不在重复写了,贴上DELL售后的资料,非常的详尽。

最新版本的OMSA 8.1下载链接:http://downloads.dell.com/FOLDER02876154M/1/OM-SrvAdmin-Dell-Web-LX-8.1.0-1518.RHEL6.x86_64_A00.tar.gz

安装链接:http://zh.community.dell.com/techcenter/systems-management/w/wiki/561.omsalinux

CentOS 6.X 平台安装 OMSA

CentOS 6.x系列的,其实也可以使用和RHEL6一样的方式安装,只不过需要修改脚本里面的一些东西。我们可以使用dell官方提供的yum源,直接使用yum来在CentOS上安装OMSA。

下面附上安装步骤:

1、安装dell的yum源

[[email protected] ~]# wget -q -O - http://linux.dell.com/repo/hardware/latest/bootstrap.cgi | bash

2、安装必要的2个包

[[email protected] ~]# yum -y install OpenIPMI srvadmin-all

3、启动服务

[[email protected] ~]# /opt/dell/srvadmin/sbin/srvadmin-services.sh start

4、设置开机自启动

[[email protected] ~]# /opt/dell/srvadmin/sbin/srvadmin-services.sh enable
racsvc          0:off   1:off   2:on    3:on    4:on    5:on    6:off
dataeng         0:off   1:off   2:on    3:on    4:on    5:on    6:off
dsm_om_shrsvc   0:off   1:off   2:on    3:on    4:on    5:on    6:off
dsm_om_connsvc  0:off   1:off   2:off   3:on    4:off   5:on    6:off
ipmi            0:off   1:off   2:on    3:on    4:on    5:on    6:off

5、通过web访问OMSA界面

使用浏览器访问https://ip_address:1311打开OMSA的web页面。这里注意,一定要使用https去访问,否则页面会打不开。

注意 : 这里的用户名和密码使用的是系统的用户名密码,这地方和IDRAC是不一样的。

这样子,OMSA就安装好了,web管理页面也可以使用了。

精简OMSA组件:

虽然 OMSA 的web端功能很强大,但是在工作当中,我们的主要目的并非是使用它的web端,更多时间只是想使用它提供的一些命令行工具来获取服务器主要组件的相关信息,比如CPU、内存、硬盘、陈列和主板温度之类的健康状况。因此,我们没有必要安装OMSA的web端。

下面就是卸载OMSA的web端相关的包:

[[email protected] ~]# yum remove -y srvadmin-tomcat srvadmin-jre srvadmin-smweb

删除相关的无用内容:

[[email protected] ~]# rm -rf /opt/dell/srvadmin/lib64/openmanage/apache-tomcat

上述操作执行完毕之后,OMSA的web端也就基本清理干净了,这里列出系统中安装的和OMSA相关的包:

[[email protected] ~]# rpm -qa|grep srvadmin
srvadmin-omcommon-8.1.0-4.92.1.el6.x86_64
srvadmin-xmlsup-8.1.0-4.91.1.el6.x86_64
srvadmin-storelib-8.1.0-4.139.1.el6.x86_64
srvadmin-storage-cli-8.1.0-4.138.2.el6.x86_64
srvadmin-racdrsc-8.1.0-4.4.7.el6.x86_64
srvadmin-storage-snmp-8.1.0-4.138.2.el6.x86_64
srvadmin-storageservices-cli-8.1.0-4.3.1.el6.x86_64
srvadmin-oslog-8.1.0-4.85.1.el6.x86_64
srvadmin-isvc-snmp-8.1.0-4.38.1.el6.x86_64
srvadmin-rac4-8.1.0-4.1.127.el6.x86_64
srvadmin-server-cli-8.1.0-4.3.1.el6.x86_64
srvadmin-omilcore-8.1.0-4.85.1.el6.x86_64
srvadmin-racadm4-8.1.0-4.1.127.el6.x86_64
srvadmin-deng-8.1.0-4.8.1.el6.x86_64
srvadmin-hapi-8.1.0-4.10.2.el6.x86_64
srvadmin-ominst-8.1.0-4.94.3.el6.x86_64
srvadmin-omacore-8.1.0-4.94.3.el6.x86_64
srvadmin-storelib-sysfs-8.1.0-4.1.1.el6.x86_64
srvadmin-nvme-8.1.0-4.139.1.el6.x86_64
srvadmin-storage-8.1.0-4.138.2.el6.x86_64
srvadmin-sysfsutils-8.1.0-4.1.1.el6.x86_64
srvadmin-deng-snmp-8.1.0-4.8.1.el6.x86_64
srvadmin-racadm5-8.1.0-4.1.128.el6.x86_64
srvadmin-idracadm-8.1.0-4.4.7.el6.x86_64
srvadmin-racsvc-8.1.0-4.1.127.el6.x86_64
srvadmin-idrac-ivmcli-8.1.0-4.6.3.el6.x86_64
srvadmin-idrac-8.1.0-4.4.7.el6.x86_64
srvadmin-storageservices-snmp-8.1.0-4.3.1.el6.x86_64
srvadmin-rac4-populator-8.1.0-4.1.127.el6.x86_64
srvadmin-cm-8.1.0-4.1.249.el6.x86_64
srvadmin-server-snmp-8.1.0-4.3.1.el6.x86_64
srvadmin-itunnelprovider-8.1.0-4.27.1.el6.x86_64
srvadmin-omacs-8.1.0-4.92.1.el6.x86_64
srvadmin-isvc-8.1.0-4.38.1.el6.x86_64
srvadmin-smcommon-8.1.0-4.138.2.el6.x86_64
srvadmin-realssd-8.1.0-4.139.1.el6.x86_64
srvadmin-rac-components-8.1.0-4.4.7.el6.x86_64
srvadmin-argtable2-8.1.0-4.5.1.el6.x86_64
srvadmin-rac5-8.1.0-4.1.128.el6.x86_64
srvadmin-idrac-snmp-8.1.0-4.4.7.el6.x86_64
srvadmin-idrac-vmcli-8.1.0-4.5.1.el6.x86_64
srvadmin-storageservices-8.1.0-4.3.1.el6.x86_64
srvadmin-base-8.1.0-4.3.1.el6.x86_64
srvadmin-standardAgent-8.1.0-4.3.1.el6.x86_64

三、OMSA 使用指南

由于 OMSA 的 web 端已经被我们卸载掉了。因此我们目前想要看到服务器的相关硬件信息就需要使用命令行的方式获取了。那么,这里就介绍如何使用命令获取服务器硬件信息。

OMSA自带了一些工具来提供给我们命令行的查询和设置接口,这里主要介绍两个,一个是omreport,另一个是omconfig。omreport是用来查询服务器各种硬件状态,omconfig是用来设置硬件的一些属性的。

我在这里仅列出这两个命令的常用几个命令,更多的命令详情大家可以去如下两个网站查询:

       1、http://www.sxszjzx.com/~t096/manual/sc/Dosa/CLI/report.htm
       2、http://topics-cdn.dell.com/pdf/dell-opnmang-srvr-admin-v8.1_User‘s%20Guide_en-us.pdf

命令指南:

/opt/dell/srvadmin/bin/omreport chassis                     # 显示所有主要组件的常规状态 
/opt/dell/srvadmin/bin/omreport chassis memory              # 显示内存信息
/opt/dell/srvadmin/sbin/omreport  chassis temps             # 显示系统主要组件的温度
/opt/dell/srvadmin/bin/omreport storage adisk controller=0  # 查看磁盘陈列中的硬盘状态
/opt/dell/srvadmin/bin/omreport storage pdisk controller=0  # 查看物理磁盘信息
/opt/dell/srvadmin/bin/omreport storage vdisk controller=0  # 查看虚拟硬盘的状态
/opt/dell/srvadmin/bin/omreport storage controller          # 查看控制器(即RAID卡)的属性
/opt/dell/srvadmin/bin/omreport storage channel controller=0    # 查看通道的属性
/opt/dell/srvadmin/bin/omreport storage enclosure controller=0  # 查看enclosure的属性
/opt/dell/srvadmin/bin/omreport storage battery                 # 查看电池属性
/opt/dell/srvadmin/bin/omconfig storage controller action=setrebuildrate controller=0 rate=100            # 调整rebuild的速度
/opt/dell/srvadmin/bin/omconfig  storage vdisk  action=changepolicy controller=0 vdisk=0 readpolicy=ara   # 修改raid的读策略
/opt/dell/srvadmin/bin/omconfig  storage vdisk  action=changepolicy controller=0 vdisk=0 writepolicy=fwb  # 修改raid的写策略

命令范例:

1、查看系统主要组件的温度

[[email protected] ~]# /opt/dell/srvadmin/bin/omreport chassis temps
Temperature Probes Information

------------------------------------
Main System Chassis Temperatures: Ok
------------------------------------

Index                     : 0
Status                    : Ok
Probe Name                : System Board Inlet Temp
Reading                   : 26.0 C
Minimum Warning Threshold : 3.0 C
Maximum Warning Threshold : 42.0 C
Minimum Failure Threshold : -7.0 C
Maximum Failure Threshold : 47.0 C

Index                     : 1
Status                    : Ok
Probe Name                : System Board Exhaust Temp
Reading                   : 31.0 C
Minimum Warning Threshold : 8.0 C
Maximum Warning Threshold : 70.0 C
Minimum Failure Threshold : 3.0 C
Maximum Failure Threshold : 75.0 C

Index                     : 2
Status                    : Ok
Probe Name                : CPU1 Temp
Reading                   : 36.0 C
Minimum Warning Threshold : 8.0 C
Maximum Warning Threshold : 79.0 C
Minimum Failure Threshold : 3.0 C
Maximum Failure Threshold : 84.0 C

Index                     : 3
Status                    : Ok
Probe Name                : CPU2 Temp
Reading                   : 30.0 C
Minimum Warning Threshold : 8.0 C
Maximum Warning Threshold : 79.0 C
Minimum Failure Threshold : 3.0 C
Maximum Failure Threshold : 84.0 C

2、查看虚拟硬盘的状态

[[email protected] ~]# /opt/dell/srvadmin/bin/omreport storage vdisk controller=0 
List of Virtual Disks on Controller PERC H310 Mini (Embedded)

Controller PERC H310 Mini (Embedded)
ID                                : 0
Status                            : Ok
Name                              : cislunar_space
State                             : Ready
Hot Spare Policy violated         : Not Assigned
Encrypted                         : Not Applicable
Layout                            : RAID-10
Size                              : 836.63 GB (898319253504 bytes)
T10 Protection Information Status : No
Associated Fluid Cache State      : Not Applicable
Device Name                       : /dev/sda
Bus Protocol                      : SAS
Media                             : HDD
Read Policy                       : No Read Ahead
Write Policy                      : Write Through
Cache Policy                      : Not Applicable
Stripe Element Size               : 64 KB
Disk Cache Policy                 : Disabled

3、查看控制器(即RAID卡)的属性

[[email protected] ~]# /opt/dell/srvadmin/bin/omreport storage controller  
 Controller  PERC H310 Mini(Embedded)

Controller
ID                                            : 0
Status                                        : Non-Critical
Name                                          : PERC H310 Mini
Slot ID                                       : Embedded
State                                         : Degraded
Firmware Version                              : 20.12.1-0002
Minimum Required Firmware Version             : 20.13.1-0001
Driver Version                                : 06.700.06.00-rh1
Minimum Required Driver Version               : Not Applicable
Storport Driver Version                       : Not Applicable
Minimum Required Storport Driver Version      : Not Applicable
Number of Connectors                          : 2
Rebuild Rate                                  : 30%
BGI Rate                                      : 30%
Check Consistency Rate                        : 30%
Reconstruct Rate                              : 30%
Alarm State                                   : Not Applicable
Cluster Mode                                  : Not Applicable
SCSI Initiator ID                             : Not Applicable
Cache Memory Size                             : 0 MB
Patrol Read Mode                              : Auto
Patrol Read State                             : Stopped
Patrol Read Rate                              : 30%
Patrol Read Iterations                        : 0
Abort Check Consistency on Error              : Disabled
Allow Revertible Hot Spare and Replace Member : Enabled
Load Balance                                  : Not Applicable
Auto Replace Member on Predictive Failure     : Disabled
Redundant Path view                           : Not Applicable
CacheCade Capable                             : Not Applicable
Persistent Hot Spare                          : Disabled
Encryption Capable                            : Not Applicable
Encryption Key Present                        : Not Applicable
Encryption Mode                               : Not Applicable
Preserved Cache                               : Not Applicable
Spin Down Unconfigured Drives                 : Disabled
Spin Down Hot Spares                          : Disabled
Spin Down Configured Drives                   : Not Applicable
Automatic Disk Power Saving (Idle C)          : Not Applicable
T10 Protection Information Capable            : No

OK,本篇博文就到此,希望能对大家有所帮助!

剧透:

除了OMSA自带的工具,还有一个便捷查询的第三方工具 check_openmanage。不过由于check_openmanage内容蛮多的,我就又拆出来一篇博文,避免本篇文章太长,使读者没有看下去的兴致了。

时间: 2024-10-29 03:42:28

服务器硬件监控之OMSA的相关文章

【硬件】DELL服务器硬件监控及DELL系统管理工具OMSA介绍

1.1.1. DELL服务器硬件监控及DELL系统管理工具OMSA介绍 本文介绍采用使用Nagios和OMSA监控DELL服务器的硬件健康状态,Nagios监控的方式是NRPE模式,需要配置check_openmanage脚本和安装DELL的OMSA工具. 使用OpenManage和Nagios监控DELL服务器硬件部署手册: http://folk.uio.no/trondham/software/check_openmanage.html 1)        OMSA是什么 OMSA是Del

服务器硬件监控转载:

转载:http://nolinux.blog.51cto.com/4824967/1664664 前一周上架服务器,本来准备把针对服务器的硬件监控这一部分总结下成文,结果过个端午给过忘了...今天就又整理了下,在这里分享给51博友,也算是对自己前段工作的一个总结. 在对服务器的硬件监控上,目前业界主要基于如下两种:        1.服务器自带的工具,比如HP的hpacucli,DELL的OMSA等        2.智能平台管理接口 (IPMI,全称Intelligent Platform M

服务器硬件监控之Check_openmanage

昨天分享了下服务器硬件监控的知识,在文章的结尾提到了check_openmanage工具.本文就主要介绍这个工具在服务器硬件监控方面的作用. 一.check_openmanage介绍 check_openmanage 是一个 Nagios 的插件,它基于 OMSA 获取相关的报道信息,用来检测安装有 OpenManage Server Administrator (OMSA) 的戴尔服务器的运行状态,包括存储系统.电源.温度等信息. 官网:http://folk.uio.no/trondham/

Dell服务器硬件监控,使用omreport出现object not found 错误解决

一.监控告警 登录目标主机,查看dataeng服务 [[email protected]5-217 src]# systemctl status dataeng ● dataeng.service - LSB: Systems Management Data Engine Loaded: loaded (/etc/rc.d/init.d/dataeng; bad; vendor preset: disabled) Active: active (running) since 三 2019-08-

Hp && Dell服务器硬件监控

HP 安装HP工具: yum install hpssacli 1 查看控制器状态 raid卡型号等hpssacli ctrl all show status 2 查看硬盘类型.大小 raid级别.状态等等hpssacli ctrl all show config 3 查看所有控制器的详细信息hpssacli ctrl all show detail 4 查看slot 2 上面的控制器信息hpssacli ctrl slot=2 show detail 5 查看某个控制器(slot 2)下面的硬

nagios监控dell服务器硬件

之前讲过利用omsa来监控dell服务器,但是必须通过web来访问,这次我们结合nagios+check_openmanage来实现dell服务器的硬件监控. 首先我们来看下面这张图: 由上图看出有两种方式可以实现监控: 1.nagios服务器端check_nrpe调用被监控端的check_openmanage来实现,这种方式要在被监控端安装omsa和check_openmanage 2.nagios服务器端直接通过check_openmanage来远程监控,这种方式要在nagios服务器端安装

Zabbix通过SNMP监控HP服务器硬件信息

关于Zabbix监控服务器硬的件信息,Zabbix官方网站没有提到这方面的监控思路和方法.之前我写的博文中写过关于HP服务器硬件监控的文章,大致的思路是借助HP管理工具通过脚本的方式取出硬件的信息,然后以trapper的方式通过Zabbix监控,得到好多博友的支持,在此特别的感谢.    通过脚本的方式监控服务器硬件信息,有三个缺点1)通过agent的方式会超时,取不到值.2)通过trapper的方式需要每台机器添加crontab,部署起来麻烦.3)脚本通用型查,只适合Windows机器.4)

硬件层监控之Zabbix-snmp-trap企业级实战

监控对象: 服务器 存储 交换机 路由器 防洪墙 监控数据采集方法:   SNMP  trap 目前我监控以下的硬件信息: 1.cpu处理器状态 2.cpu省电模式状态(如果开启了省电模式,在压力大的时候,会很卡的) 3.raid状态(比如做了哪个raid模式,raid状态是否正常) 4.内存状态(可以查看当前服务器最大支持多少内存,当前多少内存,如果内存有问题,可以显示哪个位置内存故障) 5.机器温度状态(监控机器的温度是否超过阀值) 6.物理硬盘状态(监控物理硬盘是否有故障) 7.电源状态(

【IT运维监控】集团宕机引发对运维人员的思考 

前不久某大型集团官网和APP突然无法正常使用引发热议,不少人幸灾乐祸,也引发出了各种的谣言和段子,根本难以体会集团内部所受的压力,特别是作为一个大集团内部的运维人员所承受的各种压力和不安. 后 来,原支付宝运维团队负责人针对此事发表了一篇文章,让不少的运维人员深有感触,作为肩负运维监控使命的运维监控工具--PIGOSS BSM 也同样感同身受.面对层出不穷的运维安全隐患,当下运维人员急需一套高效的7*24小时都能担负监控任务的工具,为自身的运维工作减负,告别之前加班熬夜 但没有工作成绩的"怪现像