阿里巴巴研究员刘国华:阿里巴巴智能运维体系建设

摘要: 本文整理自刘国华在2018年开放数据中心峰会(Open Data Center Summit 2018)开幕式上的演讲。在演讲中,刘国华介绍了智能化给阿里巴巴未来基础设施带来的三大价值:数据驱动决策、全局优化和变革。

导语:在2018年开放数据中心峰会(Open Data Center Summit 2018)开幕式上阿里巴巴研究员刘国华发表了《阿里巴巴智能运维体系建设》的主题演讲。演讲中,刘国华介绍了智能化给阿里巴巴未来基础设施带来的三大价值:数据驱动决策、全局优化和变革。基于智能化,阿里巴巴重塑了运维体系。通过智能化建设,基础设施的交付效率提升了247%,需求预测准确率达到了每个月至少85%,物理机集群实现了100%全自动化运维。以下是他的演讲内容实录。

大家好,很荣幸可以跟大家分享一下阿里巴巴在智能化领域的建设。

在开始智能化运维之前,先跟大家分享一下过往两年内,阿里巴巴在专业领域- 里做的大量创新:

我们已经开始大规模使用液冷集群来支持高密度计算
我们在FPGA建设了统一的编译平台,可以提升研发效率接近30倍以上
网络端我们也开始做大量的创新,总的带宽从25G到100G到400G
这些创新支持了现有所有AI业务的发展,同时我们也把AI融入到基础设施领域,让AI重塑现有的基础设施。

智能化可以给未来的基础设施带来什么?
我们把智能化带来的价值分为三层:

最底层是数据驱动决策。当我们所有的专业领域业务、所有的数据逐步实现在线化,带来的第一层价值是保证演进是围绕着数据展开的。第二层价值是,逐步透明化可以帮我们发现基础设施层可以突破的技术点,每家公司的业务都是不同的,对底层也会有不同的诉求,这是最下层数据驱动决策层的价值。

第二层是全局优化。我们把所有的业务在线化、全面数字化之后,我们才有机会看到每个专业领域里核心的突破点在什么地方。我们都知道,数据中心内部会规划上架密度,怎样的上架密度是更合理的方式?传统的方式是先对服务器的功耗提出一个评估,然后对IDC机架做评估,而现在的方式是把优化变成实时动态的方式,来提升数据中心的利用率。

最后一层是变革。当我们把智能化的能力运用到平台,就有能力把特殊的点转化为极大的优势。以前所有的硬件故障发生的时候,所有的数据中心的运维模式都是属于被动式响应。当智能化后,使用预测算法,就可以提前预估到所有故障,将所有故障的响应方式从被动响应转化为主动服务。

阿里巴巴运维体系重塑
智能化建设最关键的三件事情:

第一, 要把基础设施全面数字化,让所有东西都变成可衡量的体系。
第二, 建设端到端、从业务到基础设施全链条的自动化平台,保证你的决策规划和响应速度。
第三, 建立TCO模型,实现很好的反馈机制,利用反馈不断优化我们的模型。

在智能化领域,我们采用的是横跨专业、机器学习以及优化算法的跨界思考逻辑,基于这样的思路,阿里巴巴重新规划建设了基础设施领域的三大平台——基础设施规划与交付平台、集群自动化运维平台和数据中心智能运营平台。
通过为这三大平台引入智能化,我们重新创造出了与原来三大功能平台不一样的业务形态。下面我将具体分享智能化时代里,我们对这3大平台的改进与思考。

一、 基础设施规划与交付平台

首先分享一下阿里巴巴的基础设施规划与交付平台。这个平台的主要职责从业务需求规划到基础设施规划,再到硬件研发、IDC建设、生产供应链以及OS交付、自动化交付平台。这个平台负责阿里巴巴所有基础设施的规划、建设与交付。最主要的两个职责:第一是提升整体交付效率;第二是保证在不断供的情况下实现成本最优。

我们在很多领域里引入算法后,做了很多大的改造。第一个改造是基于机器学习的方式,建立业务规划驱动。这种方式可以让业务具有更强的规划性,在平台可以快速把业务的规划转化成基础设施的规划,提升整体的基础设施交付链路。通过这种方式,我们提升的效率接近247%。

第二个改造是,在链路已经全面在线化的时候,引入智能预测/预警系统,可以实时感知到业务的任何变化,并且做出实时决策。通过这种方式来提升运营效率,保证全面响应完全是围绕业务的驱动去建设的。

第三个改造,我们为所有专业建设了供需模拟沙盘以及上架策略模拟,通过这种方式可以在线不断模拟以及优化阿里巴巴内部供应链的策略以及上架策略,实时反馈到在线系统,持续优化供应链。

我们在做需求预测,业务端的数据,包括前端的数据,比如阿里云的销售数据,以及下沉的基础设施的库存体系,结合机器学习的方式,解决需求预测的模式。目前我们的准确率最少会达到每个月85%左右。我们现在已经推动所有的业务按这种方式运作,从而让基础设施的建设具有极强的规划性。

二、集群自动化运维平台

集群自动化运维平台解决的核心问题是:

一、 怎样提升服务器规模化后的运维效率问题,以及基于业务视角的成本最优的解决方案。
二、 怎么保证业务的稳定性。基础设施下面的任何故障不会影响上面所有业务的发展。

但是,当你业务发展规模到一定阶段的时候,故障一定是不可避免的,我们怎么做?

第一,阿里巴巴集群运维平台建设了一个全自动化的运维方式,这种运维方式最大的优势在于,我们跟所有业务调度的方式,用了一种高标准的协议交互模式,可以把所有物理机的运维跟上层运维相互解耦,实现无人化的运维。阿里巴巴现在物理机集群已经100%运用全自动化运维方式,这是第一层在工程上的建设结果。

在智能化领域,我们还为所有的业务的提供基于业务视角的数据决策支撑的平台。平台最大的价值在于:第一,基于我们的数据平台,可以把我们所有基础设施的成本、利用率融入到业务调度里,实现成本最优化;第二,通过对不同类型业务的专业优化,来提升整体业务的成本竞争力。

第二,我们引入了一些算法去做智能异常检测,包含两部分:第一部分是我们在基础设施领域在硬件领域做了大量的故障预测,通过故障预测去提前发现故障;第二部分是业务变更预测,我们会把所有业务的变更通过这个平台进行预测,来看它变更后带来的业务的影响。通过这样预测的方式,结合刚才介绍的集群运维的主动服务能力,可以把集群运维的方式从原来被动的响应式逐步转到现在做的主动服务式的模式。我们在硬盘故障上的预测结果,在万分之八的误报率条件下,召回率比业界最新进展提升20%以上,我们还在做宕机、网络故障预测以内层故障预测,会坚持用这种方式逐步把我们运维的模式从原来被动响应转成主动服务。

三、数据中心智能运营平台

最后一个平台是阿里巴巴的数据中心运营平台,这个平台的目标是提升数据中心内部运营效率以及实现能耗最优。

怎么解决运维效率的问题?通过智能的方式建设一个自主运维平台,通过很多算法的决策来尽可能提升自主运维的成功率。目前为止,通过这种方式我们可以把阿里巴巴每个人运维的服务器台数提升接近60%。
我们会建设一个全局能耗平台来做全局动态节能体系,我们会在每个领域做深度能耗优化,把能耗的数字化逐步跟上层业务结合起来,提升机柜利用率。对于最核心的业务,我们最大可以提升接近20%的机柜密度。

同时我们在做专业领域的弹性机柜电力的创新,未来会把利用率提升更高,希望未来在数据中心可以把电力利用率和设计利用率相符。这是基于机器学习的算法做PUE的优化,目前通过深度学习的方式在现在的机房实测可以优化接近20%的PUE。未来数据中心的优化联动会全自动化,实现动态优化PUE。

除了刚才介绍的供应链、服务器、数据中心外,我们在应用层、监控、集群运维都会大量投入智能化,实现全方位的智能化建设。

我今天分享就到这里,谢谢大家!

作者介绍:

刘国华(花名索尼),阿里巴巴研究员,2007年加入淘宝网,2009年作为核心架构师负责淘宝网重构,奠定了淘宝网系统全面服务化的基础,2013年担任聚划算事业部CTO,建立了服务阿里零售业务的智能营销平台。2016年加入基础设施事业群,负责阿里巴巴集团运维体系建设;同时兼任研发效能事业部负责人。致力于数据中心运维、集群管理、应用运维、研发支撑等领域平台建设,实现阿里巴巴对基础设施统一管控和资源优化,建设自主演进的智慧化运维和效能体系,Towards a Self-driving Data Center

PPT下载前往:https://yq.aliyun.com/download/3010

原文链接

本文为云栖社区原创内容,未经允许不得转载。

原文地址:http://blog.51cto.com/14031893/2307396

时间: 2024-10-07 23:27:00

阿里巴巴研究员刘国华:阿里巴巴智能运维体系建设的相关文章

移动端运维体系建设

? 接入方式,长链接 1.私有协议 微信,手Q 2.hPp tunnel 陌陌 3.SPDY 淘宝 ? 智能浏览器 立体化监控 ? 立体化监控设计思路 ? 全局看问题,避免头疼医头,脚疼医脚 ? 大系统分层,化繁为简 ? 持续维护和更新,动态运营   CMDB   ? 何为CMDB 基础设施配置信息,为运营服务提供基础数据服务 整合是指能够充分利用来自其他数据源的信息,对CMDB中包含的记录源属性进行存取,将多个数据源合并至一个视图中,生成连同来自CMDB和其他数据源信息在内的报告: ? 常见的

蚂蚁金服互联网IT运维体系实践

摘要: 本文来自蚂蚁金服首席技术架构师,基础技术部负责人胡喜.从2010年支撑双十一最高交易峰值2万笔/分钟到2015年双十一的8.59万笔/秒,蚂蚁金服的技术架构和运维体系一直都在不断摸索和实践.本文就"互联网IT运维体系"这一主题,和朋友们分享蚂蚁金服在该领域的实践经验. 8月30-31日20:00-21:30,一场别开生面的技术大会-- "蚂蚁金服&阿里云在线金融技术峰会"将在线举办.本次将聚焦数据库.应用架构.移动开发.机器学习等热门领域,帮助金融业

运维体系研究

1. 概述 运维在IT领域中一个很宽泛的岗位,一般情况运维指的是互联网运维,随之互联技术的革新,对于运维体系也有了新的定义.新型运维和传统运维分界截然不同,本文将不过多的对新型运维和传统运维说明以基本运维展开对运维体系的深入研究.运维,这里指互联网运维,通常属于技术部门,与研发.测试.系统管理同为互联网产品技术支撑的4大部门,这个划分在国内和国外以及大小公司间都会多少有一些不同.(百度百科)运维的工作方向比较多,随着业务规模的不断发展,越成熟的互联网公司,运维岗位会划分得越细,如:系统运维工程师

小鸟云:云计算技术迎来IT运维体系大变革时代!

云计算的发展已经促使了企业数字化转型的发展,但云计算作为一个新兴技术,对隔行各业都会产生深重而彻底的影响,甚至能带来一次行业技术的大变革.在IT运维体系方面,云计算也带来一次大变革. 用户使用云计算的过程中,用户在云计算服务的运维管理集中体现在对云计算服务生命周期的管理.但从目前我国IT运维领域却仍没有完全适应云计算发展所带来的变化,IT运维领域迫切需要对以云计算为核心的下一代数据中心提供更好的运维支撑解决方案,云服务商也需要完善自身提供的服务,在促进IT运维体系变革进程中付出自己的一份力~ 小

浅析企业ERP系统运维体系的建立

 浅析企业ERP系统运维体系的建立 1 ERP系统的运维简介 ERP系统的运维是指ERP系统上线后的运行和维护保障.ERP系统上线既是系统建设的结束,同时又是一个新的起点,需要付出更多的时间和精力来开展系统维护工作,维持系统的正常运行,解决系统的错误以及用户的操作失误带来的问题.ERP系统的运维主要包括与ERP系统相关的硬件.软件.网络.系统.安全.数据.用户操作等多方面的工作.要确保所有这些方面的工作正常进行,不出问题,并不是件容易的事,需要付出艰苦的努力才能实现. 2 ERP运维经历的3

智能运维解决方案:TOC -IT技术运行中心

TOC--IT技术运行中心(Technoical Operation Center )是网利友联在多年运维经验基础上,全新打造的一套综合智能运维解决方案. 运维现状 运维行业经过几十年的发展,基本上每个用户的信息中心都已经建立了一套完整的运维体系,这其中不乏最重要几个部分:人.物.数.业务在变,运维目标也在时刻发生着变化.如今的运维体系现状是有团队.有工具.有数据.但是面向智能运维生态的发展趋势,面对大数据分析计算场景,缺少的是数据汇聚.数据融合.告警关联分析.数据统一展现等.总结起来就是整个运

荔枝FM架构师刘耀华:异地多活IDC机房架构 - 极客头条 - CSDN.NET

荔枝FM架构师刘耀华:异地多活IDC机房架构 - 极客头条 - CSDN.NET 荔枝FM架构师刘耀华:异地多活IDC机房架构 - 极客头条 - CSDN.NET 途牛谭俊青:多数据中心状态同步&两地三中心的理论 - 极客头条 - CSDN.NET Selenide:Selenium WebDriver驱动的自动化测试框架 - 资源 - 伯乐在线 沈剑:58同城数据库架构最佳实践 - 极客头条 - CSDN.NET

iOS 刘国斌,蓝懿刘国斌

5天以前来到蓝懿开始我的iOS学习生涯,获取知识的时候时间过得很快,5天已经过去了,从开始的时候对iOS这个概念都一知半解,到现在能自己摸索着试着写出一些简单的小游戏小项目,像简单版的计算器.打砖块,接水果,微信飞机大战等,并在里面加些自己的想法,虽然编写代码的过程中时常会有些错误,但才刚开始学习,出错在所难免,多多练习.思考,从错误中汲取知识才是最重要的,同时感觉自己这一周的时候收获很多. 对于学习知识或者一项技能,学习方法和心态是很重要,在学习当中应该保持一颗良好的心态.应该借鉴别人好的学习

蓝懿iOS培训日志1 全新的开始 刘国斌老师

8月中旬开始上课,几天下来感触很多,想为未来的自己留个回忆,同时和大家交个朋友交流一下,不定期更新. 我的培训之路真是,坎坷.几经周折才定下来.不过也应了那一句话,好事多磨.现在每天就是,上课,吃饭,睡觉.对现在这个机构的上课环境,师资,住宿环境都很满意.希望培训结束时,可以加一句:对自己的努力也很满意. 7月份去了千锋,因为不习惯呆在近一百人的班级,不喜欢环境(住宿,饮食)所以就走了,只呆了两天,老师讲的是基础,所以对于千锋老师讲的好坏不做评价.这就算我个人原因吧. 因为偶然同学介绍了一个老师