明晚九点|一线互联网公司服务器监控系统架构分享

主题:一线互联网公司服务器监控系统架构

内容:

  • 自动运维的一点体会
  • 性能与可用性可扩展
  • 功能可扩展
  • 监控支撑业务扩展

主讲师:PC 老师

大学时期就负责学校官方网站的运维工作,实习期间加入豆瓣,有幸成为豆瓣 Top20 员工,从事 Python 开发及运维工作,后在 BAT 从事自动化运维,见证BAT 运维自动化从无到有。擅长系统底层、分布式系统开发,热衷于开源运动,给 memcached、[email protected] 等多个开源项目贡献过代码。

自动化运维的一点体会

不同公司的需求差异

  • 监控?
  • 配置管理?
  • 自动部署?
  • 调度系统?
  • Iaas / Paas?
  • or more?

不同规模、不同行业的公司存在需求差异

自动运维的几个基础

  • 一本清晰的账本 (准确的基础信息)
  • 一个靠谱的监控
  • 一个靠谱的任务执行系统

    自动运维的基础

靠谱的监控

  • 本质:对被监控对象的指标进行状态判定
    一台服务器上 nginx 服务的连接数
  • 需要支持网络层、服务器、服务、业务四层
  • 精准智能
  • 适应机器 的规模与增长速度
  • 高效、高可用性
  • 支持纷繁多样的服务

性能与可扩展

模块内性能

  • 通信
    长连接
    Epoll
  • 多进程/线程
    高并发
    并发度可调

    通信层剥离

  • 统一的高性能通信框架与通信协议
  • 业务开发简单清晰

    多进程工作模型

  • 单进程IO复用接收
  • 多进程(worker)并发处理

模块功能精简,便于组合

横向扩展

  • 任意环节支持横向扩展
  • 无状态、负载均衡
  • 可支持级联

    整体处理性能线性增长

  • 多路多点部署

高可用

去中心化

  • 无单点
  • 负载均衡
  • 横向扩展
  • 多点部署
  • 自动切换
  • 每个环节自动切换
  • WRR
  • 多路冗余
  • 无状态
  • Supervise保证存活

    数据传输可靠性

  • 传输过程中多次确认
    采集到汇聚
    转发到逻辑判断
    转发到存储
  • 外部状态监控
    传输起始端健康检查
    每个环节的外部监控
  • 内部判断

模块内扩展

模块间可扩展

  • 采集
  • 汇聚转发
  • 过滤
  • 报警
  • 离线存储
  • 挖掘分析
  • 展示

模块间可扩展性

七巧板搭配

  • 汇聚后的多路传输
  • 级联

    功能扩展简单

  • 存活监控
  • 端口监控
  • 集群

    核心模块高度复用

  • 模块之间联动反馈
  • 互联互通
  • 存活监控

    模块之间联动反馈

  • 互联互通
  • 存活监控

    功能扩展

  • 基础监控 => 自定义监控
  • 端口 =>语义监控
  • URL监控 => HTTP语义监控
  • URL监控 => 访问质量监控
  • 服务器指标监控 => 集群指标监控

监控支撑业务扩展

预算与成本分摊 ---offline

  • 结合基础信息管理
  • 资源使用与服务器选型

    资源管理 --- offline

  • 空闲资源挖掘
  • 资源统计分析与基础信息校正
  • 容量管理

    空闲资源利用 --- offline

  • 存储资源
  • 计算资源

    调度决策的基础 --- online

  • 报警触发简单任务执行
  • 关联报警挖掘
  • 与业务评估模型结合

自动运维平台的一个架构简图

详情:http://mp.weixin.qq.com/s/THG8WJeLWR3U47BoDLGlWg

原文地址:http://blog.51cto.com/51reboot/2059459

时间: 2024-10-09 00:51:57

明晚九点|一线互联网公司服务器监控系统架构分享的相关文章

0. 视频监控系统架构设计

0.视频监控系统架构设计 0.1.功能指标 (1)搭建共享文件夹 (2)实现Ubuntu的NAT上网和桥接上网 (3)搭建局域网 (4)搭建nfs服务器.tftp服务器 (5)将uboot.kernel.rootfs镜像文件下载到开发板中 (6)移植MPP,ORTP库和WiFi库 (7)编写应用程序实现RTP/RTCP传输视频流,实现有线传输和无线传输 0.2.架构搭建 该系统中主控 CPU 采用HI3518EV200作为核心,通过在HI3518E芯片上运行linux,构建嵌入式平台, 接收来自

200行代码打造超越一线互联网公司的换肤架构

本专栏专注分享大型Bat面试知识,后续会持续更新,喜欢的话麻烦点击一个关注 面试官: 网易云QQ的换肤是怎么做到的,你对换肤有了解吗?看过换肤的原理没? 心理分析:没有接触过换肤技术 第一次听到该名词肯定会很茫然.面试官考的是对资源加载,监听布局,有没有了解.本文从换肤实战一对一讲解.告诉你如何做以及实现.文章末尾带换肤项目源码 求职者: 从监听布局开始到 换肤原理,详细给面试官讲解换肤的原理 接下来我们一起分享这篇干货. Android的主题换肤 ,可插件化提供皮肤包,无需Activity的重

服务器监控系统cacti

前言:在企业网络运维过程中,管理员必须时刻关注服务器的运行状态,如CPU.内存.磁盘空间使用情况等.为了能够及时的发现问题,尽量减少故障的发生.当网络中的设备,服务器等数量较多时,可以部署一套监控系统来实时跟踪服务器,我们通常会借助一些软件来实现.今天就以Cacti套件为例,介绍服务器集中监测体系的构建和使用. 今天所讲的cacti服务器监控系统与windows操作系统中的"性能监视器"属于同一类,都是为了监控cpu占用,内存使用,运行进程数,磁盘空间,网卡流量等各种数据.但不同的是,

如何借助Monit搭建服务器监控系统?(1)

许多Linux管理员依赖一种集中式远程监控系统(比如Nagios或Cacti),检查网络基础设施的健康状况.虽然集中式监控系统为管理员在处理许多主机和设备时简化了工作,但专用的监控设备显然成了单一故障点;要是监控设备出现故障或者由于其他原因(比如硬件坏掉或网络停运)而联系不上,你就失去了可见性,无法了解整个基础设施的状况. 想为监控系统增添冗余机制,一个办法就是起码在网络上任何关键/核心服务器上安装独立的监控软件(作为一条退路).那样万一集中式监控系统坏掉,你仍能够通过备用的监控工具,保持可见性

每秒处理10万高并发订单的乐视集团支付系统架构分享

随着乐视硬件抢购的不断升级,乐视集团支付面临的请求压力百倍乃至千倍的暴增.作为商品购买的最后一环,保证用户快速稳定的完成支付尤为重要.所以在15年11月,我们对整个支付系统进行了全面的架构升级,使之具备了每秒稳定处理10万订单的能力.为乐视生态各种形式的抢购秒杀活动提供了强有力的支撑. 一.库分表 在redis,memcached等缓存系统盛行的互联网时代,构建一个支撑每秒十万只读的系统并不复杂,无非是通过一致性哈希扩展缓存节点,水平扩展web服务器等.支付系统要处理每秒十万笔订单,需要的是每秒

庖丁解牛(一):监控系统

好朋友"雪糕"是前Baidu的高工,当年我们一起参与构建了一个庞大的运维自动化系统Noah.转载一些他的关于监控系统的感悟,我也深有同感. 我们在后来也用Python写了个简易版:51reboot/rebootMon-4 · GitHub 最近借着出去分享的机会,画了张简化的监控系统架构图: 写在前面 我从事运维自动化相关的工作,也已经8年了.当初刚开始做的时候,运维开发(devops)这词还不火.很少人知道.国内对运维的理解,也就是机房.服务器.苦逼的7*24小时值班.甚至当时还流传

Nagios 监控系统架设全攻略

Nagios 全名为(Nagios Ain’t Goona Insist on Saintood),最初项目名字是 NetSaint.它是一款免费的开源 IT 基础设施监控系统,其功能强大,灵活性强,能有效监控 Windows .Linux.VMware 和 Unix 主机状态,交换机.路由器等网络设置等.一旦主机或服务状态出现异常时,会发出邮件或短信报警第一时间通知 IT 运营人员,在状态恢复后发出正常的邮件或短信通知.Nagios 结构简单,可维护性强,越来越受中小企业青睐,以及运维和管理人

庖丁解牛之监控系统(二)

欢迎大家加入运维开发讨论交流群来交流,群号 365534424 关于扩展性的定义 可伸缩性(可扩展性)是一种对软件系统计算处理能力的设计指标,高可伸缩性代表一种弹性,在系统扩展成长过程中,软件能够保证旺盛的生命力,通过很少的改动甚至只是硬件设备的添置,就能实现整个系统处理能力的线性增长,实现高吞吐量和低延迟高性能. 可伸缩性和纯粹性能调优有本质区别, 可伸缩性是高性能.低成本和可维护性等诸多因素的综合考量和平衡,可伸缩性讲究平滑线性的性能提升,更侧重于系统的水平伸缩,通过廉价的服务器实现分布式

服务器监控cacti

第九章:服务器监控系统cacti 防伪码:海阔天空 前言:在企业网络运维过程中,管理员必须时刻关注服务器的运行状态,如CPU.内存.磁盘空间使用情况等.为了能够及时的发现问题,尽量减少故障的发生.当网络中的设备,服务器等数量较多时,可以部署一套监控系统来实时跟踪服务器,我们通常会借助一些软件来实现.今天就以Cacti套件为例,介绍服务器集中监测体系的构建和使用. 今天所讲的cacti服务器监控系统与windows操作系统中的"性能监视器"属于同一类,都是为了监控cpu占用,内存使用,运