01-智能运维简介

要想了解智能运维,首先需要知道几点:

  • 运维是什么?
  • 运维干什么?
  • 为什么重视运维?

运维是什么?

要说运维,我先说说目前中国互联网的发展。

中国互联网的发展

  • 第一阶段:

    • 新浪、搜狐、网易等门户网站,解决了新闻信息的传播问题
  • 第二阶段:
    • 腾讯、阿里、百度等科技型,解决了社交、信息获取及电商等需求问题
  • 第三阶段:
    • 需要解决心理需求问题,直播、短视频、综艺、电视剧等
  • 第四阶段:
    • 区块链、自动驾驶、智能机器人等

我自己心里认为,运维的水平可以成为衡量一个公司(IT公司)技术实力的标准
(因为不管是系统还是机器,实现功能只是一部分,稳定性更加重要!)

从系统运行的各种环境,机房、网络、存储、物理机、虚拟机这些基础设施,再到数据库、中间件平台、云平台、大数据平台等,运维的侧重点不在于编程,而是对这类平台的使用和管理
(企业管理也是一样的,产品再好,管理不行,最终也是失败的。)

运维干什么?

运维工程师(Operation Engineer)

  • 工作范围:

    • 服务器购买、租用和上架等基本管理
    • 调整网络设备的配置管理和部署
    • 服务器操作系统安装调试
    • 测试环境和生产环境的初始化与维护
    • 代码部署和管理(Git和SVN等)
    • 设计和部署线上服务的监控和报警
    • 服务安全性检测(防止漏洞和攻击)
    • 数据库管理和调优
    • 公司IT设备的资产管理和分配
  • 大型公司中,可根据工作内容被细分为
    • 网站和业务服务运维
    • 系统运维
    • 网络运维
    • 数据库运维(DBA)
    • 运维开发(DevOps)
    • 运维安全
  • 优势:
    • 更容易诞生架构师
    • 知道如何优化服务
    • 如何使用资源利用最大化

为什么重视运维?

在业余的运维眼里,运维这个工作是什么特点?

  • 处于软件生产链最末端
  • 容易被“鄙视”
  • 远离业务部门
  • 老背锅

在专业的运维眼里,又是什么特点?(我不算专业的,我只是总结)

  • 可以从运维升格为技术运营
  • 可通过改善产品用户体验,从而提高DAU(Daily Active User)日活跃用户数量、营收和利润
  • 和其他业务部门建立广泛而又建设性的合作

运维发展

  • 人工 --遇到什么问题就解决什么问题,整理一堆的重复性高的资产台账
  • 工具 --提高运维工作的效率(用别人开发好的工具,直接敲命令或双击运行)
  • 自动化 --规范化、快速解决能力,需要一定的开发能力
  • 平台化 --自动化脚本和工具的整合,降低了运维成本、降低系统风险概率、提高可用性
  • 智能化 --建立在大数据和机器学习的技术上

运维的现状

  • 故障率高
  • 系统的复杂性高
  • 大数据的环境
  • 数据的采集
  • 数据存储
  • 数据的分析和建模 (数据不用来分析使用,存着来干嘛?)

最后我就总结一句:智能运维 AIOps


智能运维 AIOps (Algorithmic IT Operations)

利用大数据分析、机器学习等人工智能技术来自动化管理运维事务。Gartner公司提出来定义标准。

Gartner公司

  • 全球最具权威的IT研究与顾问咨询公司
  • 主要是迎合中型公司的需要
  • 它希望使自己的业务覆盖到IT行业的所有领域
  • 让自己成为每一位用户的一站式信息技术服务公司

智能运维干什么?

  • 实时监控
  • 实时报警
  • 异常检测
  • 故障根源分析
  • 趋势预测
  • 数据关联

智能运维的难题

  • 海量数据的存储、分析和处理

    • 实时数据和非实时数据
    • 格式化数据和非格式化数据
    • 需要索引的数据和只需要运算的数据
    • 全量数据和抽样数据
    • 可视化数据和告警数据
  • 多维度、多数据源(主要是分析故障和预测趋势)
    • 监控数据
    • 告警事件
    • 分析报表
    • 日志检索
  • 信息过载(告警数据过多)
    • 数据的聚合
    • 降低维度:聚类和分类
    • 标准化和归一化
  • 复杂业务模型下的故障定位
    • 日志标准化:包含内容、格式、自己的业务线、服务层级等
    • 全链路追踪
    • SLA规范化:例如用响应时间来约定性能指标、用慢速比来衡量系统健康度。

智能运维基础设设施

  • 开源数据采集技术 Filebeat、Logstash
  • 分布式消息队列 Kafka、Redis、RabbitMQ
  • 大数据存储技术
  • 大规模数据离线计算分析 ETL、Hadoop
  • 实时计算框架
  • 时序数据分析框架
  • 机器学习框架 TensorFlow

智能运维的技术

  • 数据聚合与关联技术
  • 数据异常点检测技术
  • 故障诊断和分析策略
  • 趋势预测算法

系统可用性(Availabiity)

Availability = MTBF/(MTBF + MTTR)

  • MTBF --平均故障间隔时间

    • 相邻两次故障之间的平均工作时间
    • 间隔时间越短说明系统可靠性越高
  • MTTR --平均修复时间
    • 故障修复所需要的平均时间
    • 越低说明故障修复越及时

运维在产品研发的主要职责

产品阶段 运维职责
设计阶段 稳定性评估、资源评估、资源申请和准备
开发阶段 环境部署、依赖库及包管理、操作系统维护、数据库准备等
测试阶段 测试环境部署、稳定性评估,从系统的稳定性和可运维性的角度提出开发需求
部署阶段 自动化部署、稳定性检验、可扩展部署等
线上阶段 实时监控、故障处理、容量管理
下线 资源回收、服务终止

运维涉及的常见技术和框架

功能描述 技术和框架
操作系统 Linux Ubuntu Window CentOS Redha
Web Server Nginx Tomcat Apache
网络工具 tcpcopy curl
监控和报警系统 Grafana zabbix cacti
自动部署 Ansible saltstack
配置管理及服务发现 Puppet Consul Zookeeper
负载均衡 LVS HAProxy Nginx
传输工具 Scribe Flume
集群管理工具 Zookeeper
数据库 MySQL Oracle SQLServer
缓存技术 Redis Memcache
消息队列 Kafka ZeroMQ RabbitMQ Redis
大数据平台 HDFS Spark Hive Storm
大数据存储 HBASE MongoDB LevelDB
时序数据 Druid OpenTSDB
容器 Docker LXC
虚拟化 Openstack XenServer KVM VMWare


(参考书籍彭东等编写的《智能运维--从0搭建大规模分布式AIOps系统》)

原文地址:https://www.cnblogs.com/liangjingfu/p/9382364.html

时间: 2024-11-09 00:40:56

01-智能运维简介的相关文章

直击传统运维痛点,京东金融智能运维初探!

随着互联网+时代的到来,京东金融业务规模不断扩大,业务场景也不断创新.但是,业务变化之快超乎想象,相应的 SOA  及微服务架构日趋深入,服务数量不断膨胀,线上环境日益复杂,服务依赖关系每天都在变化. ● 如何实时看清系统的容量水位,为容量评估和系统扩容提供客观依据? ● 当故障发生时,如何精确判断影响范围? ● 如何确定每一次交易过程中,每个系统处理耗时分别是多少? ● 每个系统在处理一笔交易时,分别在数据库.NoSQL.缓存.日志.RPC.业务逻辑上耗时多少? ● 如何快速确定系统的真正瓶颈

智能运维就是由 AI 代替运维人员?

听了有关AI运维之后有很多人感到比较焦虑,我所从事的运维或开发将来会不会被AI给替代掉呢? 现在新技术发展的特别快,各种语言.技术.理念让大家确实感到自顾不暇跟不上趟,但是有一点,在这里我要特别重申一下,AI在目前这个阶段还是一种辅助大家来进行判断和学习.定位处理问题的工具,就像无人驾驶,现在可以做到完全没有人驾驶吗?肯定不行,未来无人驾驶是完全可以替代人的,但它还有很长一段路要走.AI运维就像无人驾驶一样,未来前景很光明,但任重道远. 大部分的智能运维还没有完全落地,我所在的企业也是处在一个探

智能运维:www6662016com从0搭建AIOps系统18288006666

互联网刚兴起的时候,运维还只是一个简单的服务安装管理及监控工作,没人会想到人类在互联网上建立了如此庞大的业务生态.从衣食住行到教育金融,服务器的规模在急剧膨胀,从简单的人力可管控,逐渐进化到依赖自动化体系来管理,但是另一方面,仅依赖工具已经不能很好地解决运维场景的需求.智能运维是建立在运维基础上,通过一定策略和算法来进行智能化诊断决策,以更快.更准确.更高效地完成运维工作的技术体系.要实现智能运维的目标,需要有平台支撑,这也是DevOps很火的原因,很多运维工程师都掌握了开发工具和平台的本领,因

基于PaddlePaddle的新能源充电桩智能运维

随着大数据.人工智能.云计算技术的日渐成熟和飞速发展,传统的运维技术和解决方案已经不能满足需求,智能运维已成为运维的热点领域.同时,为了满足大流量.用户高质量体验和用户分布地域广的互联网应用场景,大型分布式系统的部署方式也成为了高效运维的必然之选.如何提升运维的能力和效率,是保障业务高可用所面临的最大挑战.本篇文章以百度基于PaddlePaddle的新能源充电桩为切入点,深入介绍智能运维在电力行业的实际应用. 以下为演讲实录. 电力行业运维过程中的痛点与机遇 众所周知,典型电力行业包括发电.输电

智能运维解决方案:TOC -IT技术运行中心

TOC--IT技术运行中心(Technoical Operation Center )是网利友联在多年运维经验基础上,全新打造的一套综合智能运维解决方案. 运维现状 运维行业经过几十年的发展,基本上每个用户的信息中心都已经建立了一套完整的运维体系,这其中不乏最重要几个部分:人.物.数.业务在变,运维目标也在时刻发生着变化.如今的运维体系现状是有团队.有工具.有数据.但是面向智能运维生态的发展趋势,面对大数据分析计算场景,缺少的是数据汇聚.数据融合.告警关联分析.数据统一展现等.总结起来就是整个运

智和网管平台国产化AIOps智能运维 建立自主可控网络安全体系

没有网络安全就没有国家安全,中国作为一个崛起中的大国,网络安全至关重要.新一届中央高度重视信息安全自主可控的发展,Gartner研究报告表明,2019年中国三分之二的数据中心.IT基础设施支出流向中国本土厂商,因此,如智和网管平台SugarNMS以国产化.高拓展性为核心的智能化运维软件成为行业的前沿力量. 自主知识产权 全面深入IT国产化 IT国产化体系复杂,产业链涉及网络基础设施.服务器.存储.数据库.中间件.操作系统等众多环节.现在,服务器.PC和网络安全国产化率较高,如服务器领域依靠华为.

海量日志分析与智能运维

以下文字版根据<大咖·来了>第3期<海量日志分析与智能运维>整理,回放链接:http://aix.51cto.com/activity/10011.html?dk=wz 一.AIOps 与智能日志中心 1.1AIOps 五等级 要说智能日志中心,首先要了解什么是智能运维.目前业界对智能运维的运用,主要分为如下五个等级. 一级是最容易的,只要你有个想法试试就行,到网管监控系统里,拿一个监控指标的曲线下来,就可以尝试异常检测. 一级还没有成熟的单点应用,当有了一个成熟的单点应用,就算是

Gartner中国智能运维市场指南发布,擎创再次成为AIOps代表供应商

近日,Gartner发布了<中国智能运维市场指南>(以下简称"<指南>"),擎创科技再次因为在智能运维领域产品的创新力及其成熟度,被Gartner提名为AIOps领域代表供应商.而在去年7月份,擎创就被Gartner评为中国AIOps领域重点推荐服务商. Gartner<指南>指出,在中国特有的生态环境系统下,全球性的IT巨头虽然进驻中国市场数十年,但是却难以在AIOps领域扩张.主要原因在于,这些全球性供应商提供的ITOM工具的许可证模式比较昂贵,

金融行业进入智能运维时代,PIGOSS BSM 鼎力保障业务安全

上海某集团拥有多个分支机构,并充分发挥混合业经营优势,建立了专业化.多功能的金融服务平台,该金融平台是经×××批准,以加强企业集团资金集中管理和提高资金使用效率为目的,为集团成员单位提供财务管理服务的非银行金融机构.公司以集团企业金融服务需求为导向,在传统存贷业务基础上,逐渐培育起资产管理.投资银行.租赁.保险等多种业务,并与其它金融机构紧密合作,不断创新产品.创新服务,努力为企业客户提供有效的个性化金融服务. 运维挑战 随着国内金融行业IT系统数据集中.业务集中,IT系统规模逐渐增大,关联关系