大数据系统之监控系统(一)

一个稳定可靠的系统离不开监控,我们不仅监控服务是否存活,还要监控系统的运行状况。运行状况主要是对这些组件的核心metrics采集、抓取、分析和报警。

一、监控的数据

监控的日志数据一般包括:

v APP、PC、Web 等系统运行Log:采用Flume-NG搜集

v 用户日志 : 采用Flume-NG搜集

v 后端Server(SOA)日志:采用Flume-NG搜集

v 大数据组件的Metrics:JMX和HTTP

v MYSQL等数据库日志:CANAL

不同公司有不同的设计要求,这方面都不多说了。

二、组件运行时监控

  • 采集agent : Flume-NG
  • 消息系统 : Kafka
  • 数据库消息系统:MQ
  • 实时流处理 : Storm
  • 分布式日志存储:hbase
  • 分布式搜索 : Elasticsearch

这也是很多互联网日志解决方案的通用选型。但是,这些组件自身提供的监控方案以及他们支持的第三方监控工具,却各不相同:

  • Flume-NG : 支持http/jmx metrics,支持的监控工具:Ganglia
  • Kafka : 支持jmx metrics,支持的监控工具:Yahoo!
  • Storm : 支持jmx metrics,自带Storm UI
  • Elasticsearch : 支持http形式的status请求

从上面的结果来看,这显然不符合我们的期望,我们的几个关注点:

  • 监控统一化,或者说去异构化
  • 配置方便,随着系统稳定后,能够自由配置我们认为非常重要的监控指标
  • 统一的可视化,能在一个管控台上一目了然地看到我们希望看到的监控指标

总结一下,如上的这些组件在被监控能力上虽然各有差异,不过还是有一些共同点,那就是:

  • Jmx
  • http

这两种协议的metrics请求,各个组件都至少支持其中的一个,这也是很多互联网日志解决方案的通用选型。

三、元数据存储与设计

为了达到数据采集通用性和扩展性,让定时数据采集任务具有更好的适应性和自动化。这就需要对采集的数据规范化,需要进行元数据的设计和管理。

我们设计了一个层次化的组织结构,他们从上到下依次是:

v Meta Category

v Meta Type

v Meta Source

v Job Metadata

v Job Scheduler

  上面的这些数据都提供了在管控台进行配置管理的功能。为了提升定时任务的可扩展性和自管理性。我们选择用Zookeeper来存储任务的拓扑以及元数据信息。Zookeeper除了是很好的元数据管理工具,还是很主流的分布式协同工具。它的Event机制,使得我们对Job生命周期的自动化管理成为可能。我们通过对各个ZNode的children ZNode进行监听,来动态感知Job的变化,感知到节点的变化之后,我们就可以动态创建或者删除某个job。

时间: 2024-10-21 19:42:46

大数据系统之监控系统(一)的相关文章

大数据系统之监控系统(二)Flume的扩展

一些需求是原生Flume无法满足的,因此,基于开源的Flume我们增加了许多功能. EventDeserializer的缺陷 Flume的每一个source对应的deserializer必须实现接口EventDeserializer,该接口定义了readEvent/readEvents方法从各种日志源读取Event. flume主要支持两种反序列化器: (1)AvroEventDeserializer:解析Avro容器文件的反序列化器.对Avro文件的每条记录生成一个flume Event,并将

容器领域的十大监控系统对比(上)

容器监测环境有多种形态和大小.有些是开源的,而另一些则是商业性质的.有些可以借助平台一键部署(例如在Rancher容器管理平台的应用目录中一键部署这些监控应用),而另一些则需要手动配置.有些是通用的,有些是专门针对容器环境的.有些托管在公有云中,而另一些则需要在自己的集群主机上安装. 在本文中,我将对容器领域的10个监控解决方案进行全面的分析对比.监控解决方案的数量之多令人望而生畏.新的解决方案不断涌现,同时现有的解决方案不断发展.我没有深入研究每个解决方案,而是采取了high-level的对比

视频监控系统显示大屏幕用液晶拼接屏还是液晶监视器?

视频监控系统与我们的日常生活息息相关,在一些大型的企业.社区物业.商场.银行等场合都会安装视频监控录像设备,以确保我们的人身.财产安全,及时发现不法分子的活动,能做到提前发现与作为后期的证据使用.视频监控系统最重要的设备应该属于在监控室内的液晶显示大屏幕,目前专业用语视频监控系统显示大屏幕的设备有两种:一种是液晶拼接屏,另一种是液晶监视器.1.液晶拼接屏液晶拼接屏是一款专业的用于视频监控系统画面显示的大屏幕产品,相比液晶监视器来说,它通过拼接可以实现想要多大就有多大的显示屏幕.目前拼接屏单屏尺寸

机房环境监控系统知识大揭秘

机房环境监控系统是一个综合利用计算机网络技术.数据库技术.通信技术.自动控制技术.新型传感技术等构成的计算机网络,提供的一种以计算机技术为基础.基于集中管理监控模式的自动化.智能化和高效率的技术手段,系统监控对象主要是机房动力和环境设备等设备(如:配电.UPS.空调.温湿度.漏水.烟雾.视频.门禁.消防系统等). 机房环境监控的项目和内容 1.配电系统 主要对配电系统的三相相电压.相电流.线电压.线电流.有功.无功.频率.功率因数等参数和配电开关的状态监视进行监视.当一些重要参数超过危险界限后进

新零售大数据可视化分析系统搭建大数据系统解决方案

大数据可视化分析系统是什么?最贴切的例子就是,年底来了,各大软件都出了的年度账单.他们利用大数据分析系统,对每个用户进行了全面的分析,然后用文字的方式表达出来,以此方式又做了一次成功的营销. 其实每个行业都是需要大数据分析系统,不仅仅是可以做出年度账单,更多的是分析数据,发现问题,为公司做更好的规划.尤其是在新零售行业,无论是线上还是线下的销售每天都会产生大量数据,如何将这些大数据利用起来呢. 要知道营销的本质就是利用数据提高消费者购买转化率,促进成交总额的增长.通过融合线上线下的数据,生成消费

三种硬件平台运行Laxcus大数据系统的表现

从2.0版本开始,Laxcus大数据管理系统开始支持POWERPC.X86.ARM三种平台.其中X86和ARM又分为32位和64位两种,POWERPC是纯64位,所以实际上共有五种平台,操作系统统一使用Linux.下面就总结一下Laxcus在这些系统平台上的表现. POWERPC:现在Laxcus生产环境还没有这个平台,不是不部署,是能提供POWERPC集群平台的企业和公司,在国内没有,究其原因,是这个平台成本太高,没有企业和公司肯去负担这个成本,所以,运行POWERPC版本的Laxcus大数据

大数据系统和分析技术综述【程学旗】

本文结构 1 大数据处理与系统 1.1 批量数据处理系统 1.1.1 批量数据的特征与典型应用 1.1.2 代表性的处理系统 1.2 流式数据处理系统 1.2.1 流式数据的特征及典型应用 1.2.2 代表性的处理系统 1.3 交互式数据处理 1.3.1 交互式数据处理的特征与典型应用 1.3.2 代表性的处理系统 1.4 图数据处理系统 1.4.1 图数据的特征及典型应用 1.4.2 代表性图数据处理系统 1.5 小 结 2 大数据分析 2.1 深度学习 2.2 知识计算 2.3 社会计算 2

如何打造100亿SDK累计覆盖量的大数据系统

作为推送行业领导者,截止目前个推SDK累计安装覆盖量达100亿(含海外),接入应用超过43万,独立终端覆盖超过10亿 (含海外).个推系统每天会产生大量的日志和数据,面临许多数据处理方面的挑战. 首先数据存储方面,个推每天产生10TB以上的数据,并且累积数据已在PB级别.其次,作为推送技术服务商,个推有很多来自客户和公司各部门的数据分析和统计需求,例如:消息推送和数据报表.虽然部分数据分析工作是离线模式,但开源数据处理系统稳定性并不很高,保障数据分析服务的高可用性也是一个挑战.另外,推送业务并不

基于Android平台的i-jetty网站智能农业监控系统

基于android平台i-jetty网站的智能农业监控系统 摘要:传统的监控系统,一般是基于PC的有线通信传输,其有很多不足之处,如功耗较高.布线成本高.难度大,适应性差,可扩展性不强,增加新的通信线路需要再次布线施工,而且维护起来也比较麻烦,一旦线路出问题,需要繁琐的检查.而嵌入式Web监控系统是基于物联网技术,其无线通信技术具有成本低廉.适应性强.扩展性强.信息安全.使用维护简单等优点. 智能农业中,种植大棚是通过大棚内安装温湿度以及光照传感器,来对农作物的环境参数进行实时采集,由Web监控