监控平台实施方案

撰写:田逸([email protected])

基本目标

? 监控有效性:监控能正确反应系统、应用运行状态,发生故障能及时告警;对重要对象进行监控,能定位到问题即可;不面面俱到,增加负担及复杂度。
? 平台可用性:监控平台本身也可能存在故障的风险,因此,需要建立起一套可用性保证机制。一是在硬件层面保证部分硬件失效时,监控服务不受影响;二是万一系统崩溃,能够重建平台并进行数据恢复。
? 信息安全性:网络隔离及用户授权。

方案设计

? 监控架构
监控分服务器端及被监控端,其中服务器端独立部署,而被监控端根据监控要求,有的监控项需要在被监控端安装插件,而有的不需要。按这个需求来分类,监控主机存活、服务端口或者web的url,不需要在安装插件;而诸如监控系统负载、磁盘空间使用、进程数等,属于主机资源监控的类型,则需要安装插件。

? 平台可用性架构
分两个层面,一个是硬件冗余,另一个是备份恢复机制。
(1) 硬件冗余:单台物理主机,保证电源及硬盘冗余及容错,降低down机几率。同时配置相同配置的物理主机,作为备份或者备用机。
(2) 应用层面底层采用虚拟化,监控平台运行与虚拟机,并自动对虚拟机进行异地(机)备份。系统崩溃时,重建系统,用虚拟机备份快速恢复数据。

技术实现

? 对象监控实现
监控平台安装在虚拟机上,安装好所需各种组建(web、数据库、php等),能通过web界面进行各种管理操作。监控系统采用业内知名的nagios,久经考验,且不存在法律及授权风险。在需要监控主机资源的系统上,安装与nagios配套的插件nrpe,舍弃繁复的snmp,即提高了安全性,又降低了资源的耗费。
? 可用性实现
底层用开源私有云工具proxmox虚拟化,在其上创建两个虚拟机,一个用于安装nagios监控,另一个用于安装nfs共享磁盘。两台物理主机,一个上边运行监控系统,而另一台共享出nfs磁盘空间,被挂接到监控系统上,做监控系统的虚拟机自动备份使用。
? 监控系统总览
主要项目包括:主机、主机组、服务、服务组、联系人、联系组、监控状态等等。

实施步骤

? 物理机上架,通电,连接网络线缆;开机,硬盘做好raid。
? 安装底层虚拟化环境,并保证网络连通。
? 配置虚拟机环境,并创建所需要的虚拟机。
? 安装虚拟机操作系统。
? 部署nagios监控、部署nfs共享存储。
? 被监控端安装插件,配置并启动守护进行。
? 添加监控项,并使之使之生效。
? 被监控端人为模拟故障,检查监控是否有效(故障告警、恢复)

工具列表

? 监控系统centreon2.8(封装过的nagios),从centreon官方下载,无需授权。
? 监控系统插件nagios-plugin,从nagios官方网站下载。
? 监控远程插件NRPE(nagios remote plugin executor),从nagios官方网站下载。
? 共享存储nfs,linux自带。
? 虚拟化管理平台proxmox,从其官方网站下载。
? 其它工具如apache、php、mysql等,从网上下载。

实施要求

? 监控服务器能访问到被监控端,无需通过第三方转发;
? 监控服务器能访问公网,以便能下载所需的软件和依赖,否则无法进行安装;
? 如需要从公网操作监控平台,最好可以分配公网ip;
? 被监控端需要开启tcp 5666端口,不能被防火墙所阻止;
? 需少数系统临时模拟故障发生,一遍测试监控的有效性;
? 需提供使用此监控人员的名单,以便进行合理授权;
? 为便于配置和后期维护,强烈建议开通远程登录权限(如***授权),这样能大大提高效率;
? 分配足够可使用的ip地址。

注意事项

? 部署监控服务器端时,确保ip设置唯一,不要与其它主机的ip产生冲突;
? 被监控端部署NRPE时,需征得相关人员同意;防火墙开放端口(如有启用)需得到支持后再往下进行;同时,不能因为安装引起业务中断。

附录:服务器配置要求
名称 规格型号 数量 备注
Cpu 志强2600系列 2颗 2台机器共四颗
内存 Ddr4 16G 64G 共8根
硬盘 Sas 15000转 600G 至少3块 共6块或者更多
电源 双电源 1 4个

更加体系化和实例化的proxmox超融合私有云实践系列文章,请移步本人专栏“人人都能玩的私有云神器-proxmox”,猛戳此处,片刻直达!

原文地址:http://blog.51cto.com/sery/2297627

时间: 2024-10-11 04:06:48

监控平台实施方案的相关文章

基于JT/T808协议的车辆监控平台架构方案

技术支持QQ:78772895 1.车载终端协议网关采用mina/netty+spring架构,独立于其他应用,主要负责维护接入终端的tcp链接.上行以及下行消息的解码.编码.流量控制,黑白名单等安全控制,网关同时支持交通部JT/T808-2011.JT/T808-2013两个版本全部的808协议,网关应用提供二次开发接口,支持以插件形式协议扩展而不需要改动任何原有代码.接入网关采用json消息通过MQ消息队列与业务平台进行交互,支持ActiveMQ和RabbitMQ,能够无缝接入各种异构系统.

JITStack统一监控平台与事态管理

事态管理(Event Management),原来称作事件管理,是ITIL运营管理体系中的一个主要流程之一.所谓Event(事态)是指对于配置项或IT服务有重要意义的状态变化.比如IT系统中的服务器.从启动状态变为关机状态.一个应用服务状态从Up到down的状态变化等等.Event一词还用于表示任何 IT 服务.配置项或监视工具创建通知.事态通常需要 IT 运营人员采取行动,并且通常导致事件记入日志.在ITIL V4中事态管理已经更新为监控与事态管理. 高效的IT服务运营有赖于对于基础设施.操作

Zabbix监控和分布式部署实施方案

最近在研究Zabbix监控,由于机房分布在多个城市,因此采用zabbix proxy做为监控方案,在每 个节点部署zabbix proxy,由zabbix proxy收集agentd数据,然后将采集到的数据主动推送给zabbix server,zabbix server将数据存入数据库,并在WEB前端显示. 1.Zabbix主要功能和优劣势说明 1.1 Zabbix主要功能: 1)Application monitoring 应用监控 数据库/SSH/Apache/Nginx等应用程序的监控.

江西畅行高速IT运维监控平台--PIGOSS BSM

案例所属行业:高速公路行业 项目实施时间:2014年 1.1    项目背景     江西畅行高速工程(以下简称"畅行高速")与高速公路周边系统的建设基于用户的消费账户支付系统和结算系统.既包括高速公路的收费,也包括高速公路周边的连锁超市的消费,互联网业务为江西畅行高速周边服务. 目前,江西畅行高速进行网络建设和核心生产平台应用系统的建设.随着江西畅行高速信息化应用的不断推广,核心生产平台的稳定运行对项目的影响越来越大.随 着更多江西畅行高速业务系统上线运行和日常办公对业务系统的日益依

【项目动态】PIGOSS BSM IT运维监控平台 北京万兴建筑集团有限公司

案例所属行业:企业集团 项目实施时间:2016年 1 项目背景 北京万兴建筑集团有限公司成立于1985年,是一个以房建.市政.装饰.地产开发为四大支柱产业的大型综合性建筑企业集团.万兴集团注册资本金3.06亿元,现有总资产10多亿元,企业拥有一大批高素质专业技术管理人才,其中中高级职称专业技术人员300余人,国家一级.二级 注册建造师200人.年开复工面积500万平方米左右,建安产值约50亿元左右.万兴集团还积极参与社会公益事业,累计捐款1000多万元. 为保障各项业务的稳定运行,需要对IT基础

交通部第五号令对gps监控平台运营商影响重大,进一步加强北斗部标标准推进工作

交通部下文件强制要求货车卡车客车年检上牌装北斗一体机的通知,让货车车主蒙圈了.根据国家交通部2014年5号令的规定,半挂牵引车以及载货汽车(总质量为12吨及以上)必须于2015年底以前全部安装符合要求的北斗定位车载终端,并接入交通部认可的"道路货运车辆平台",否则不予发放或者验审<道路运输证>. 近期,由交通运输部.公安部.国家安全生产监督管理总局发布的<道路运输车辆动态监督管理办法>(2014年第5号令)是道路运输行业的最新政策,对卫星导航产业而言无疑是一种兴

有容云:容器驱动的PaaS平台实现方案(下)

编者注: 本文基于上海容器大会现场演讲内容,立足于实战跟大家分享了新一代PaaS平台构建中遇到的问题.当下主流PaaS平台解析.企业交付经验及心得体会等.文章较长,分为上.下两个部分,本文为下篇. 前文阅读请点击:容器驱动的PaaS平台实现方案(上) 下面我花一点时间跟大家分享下比较干货的东西.比如说容器的网络,之前我们也听了一些专家谈到Flannel,Calico 等等,但是我不知道大家有没有注意到,国内外在谈容器网络的时候更多的时候会再谈Overlay网的构建,比如IPSec.VXLAN等等

远程教育实施方案交流之(一)——课件制作与课程录制篇

笔者结合现阶段最新技术和项目开展的各种影响因素,并综合考虑远程教育项目实施的成本控制.可行性分析.生产效率.实施商业模式,实施效果等方面将远程教育项目实施方案分成,1.课件制作与课程录制方案篇:2.远程教育平台建设及采购方案篇:3.视频云存储方案篇三篇文章和大家分享交流,不足之处希望大家留言,多多指正. 远程教育课程录制的方法随着信息科技的发展而不断变化. 2009年以前,大多采用的是三分屏方式,老师在左上角一个很小的视频,右中是课件的位置.这是由于当时视频服务器和网络带宽的限制,而视频文件不能

全新SaaS运维监控平台构建书

第一部分 引言 伴随的IT服务的发展,IT服务的概念也在发生着巨大的变化.IT运维服务已经由原来局限在用户自身环境下的IT服务,延伸到覆盖公用云.私有云.外包服务商等多纬度.全天候的SaaS运维模式, 从狭义理解,IT服务仅仅是为了解决信息系统出现的故障,在系统出现停顿的时候可以快速的恢复.而目前的IT服务已经包含了更多的内容,IT服务渗透在信息系统的整个生命周期之中.本文基于该理念,对IT服务系统的实现进行分析研究.文章基于网脊运维通SaaS(Software as aService)模式理念