【华为云技术分享】技术探秘:华为云瑶光何以定方向

作为北斗第七星,瑶光自古就可用来判断四季更迭、引向定时。而作为全新发布的智能云操作系统,瑶光智慧云脑又是如何做到统领云上各类资源、实现租户需求与资源供应之间最佳匹配的呢?在华为云瑶光实验室、华为云算法创新实验室里,我们找到了答案。

#初识资源调度# 云OS:我太“南”了

依托虚拟化技术,我们得以将数据中心海量的计算、存储资源以云服务的形式对外提供。而随着数据中心规模扩展、边缘计算带来的算力延伸,承担着高效、精准资源调度的云操作系统面临着三大挑战:

第一个挑战是云计算的资源消耗/售卖模式带来的。云计算的资源申请通常随机到达、按需计费、用完即释放,无法依据恒定指标构建目标函数求解;

第二个挑战是华为云快速增长带来的。根据Frost & Sullivan对于中国公有云市场的调查研究结果显示,2019年Q3华为云IaaS市场份额排名上升至第三,成为增速最快的Top厂商。高速增长使得用户资源请求的分布随时间变化,而传统的研究多是针对稳定的请求分布来设计解决方案的;

第三个挑战是服务器本身架构带来的。不同服务器体系架构的不同组合方式会导致性能差异,所以这些不同架构设计就像装箱问题中箱子之间加了很多不同隔板,使得放置资源的同时还要考虑性能约束。

#致敬经典# 传统装箱模型为何行不通

装箱问题最早可以追溯到1831年高斯(Gauss)开始研究的布局问题,其本质与装箱一样,都是希望将尽可能多的货物装进箱中。云端虚拟机的部署是把具有多种资源需求的虚拟机向物理机分配的过程,如下图,云操作系统时刻收到虚拟机的资源创建请求,它需要决策将资源部署到哪台物理机上才能保证碎片率最低。

图1 当装箱算法遇到云上资源调度

从过程中可以发现,相比经典装箱问题,云上资源调度有了新的约束:

1、实时云环境下,虚拟机是动态、依次部署到物理机上的,事先虚拟机的创删申请和资源需求信息具有不确定性;

2、过高的物理机资源利用率可能会导致业务负载发生波动,故资源调度时要充分考虑物理机的资源和性能约束,并处理可能出现的性能突发诉求;

3、根据业务不同的在线/离线属性,调度过程也需考虑同物理机上不同虚拟机之间,因资源抢占可能发生的“扰邻”现象,并尽可能降低影响。

#成为智慧云脑# 瑶光的学习成长路径

沿着经典装箱问题思路,瑶光背后的专家们尝试了如FirstFit、BestFit等运筹学方法,以一台物理机为例,通过比对“请求资源量”和“可用资源量”的匹配程度,即其向量的余弦夹角值来判断对可用资源量的利用情况,如下图所示。

图2 利用余弦夹角方法求解调度

而站在资源池全局的角度看,当发生随机请求与资源池扩缩容时,目标函数也会随即改变。此时,瑶光引入了具有强大搜索能力的强化学习算法,通过预模拟来尝试各种策略,并反复强化最终收益最大的方案。强化学习以数据为基础,其思路我们可以通过迷宫游戏来理解:

图3 通过强化学习算法模拟求解最优调度

熊猫在寻找出口处竹子的过程中,“上下左右”每一步决策都可能“碰壁”、“通过”或“吃到竹子”,这些都算是不同经验值的“奖励”。通过反复的模拟,尝试在不同位置(即“状态”)选取不同行动(即“决策”)所分得的奖励,此时“状态State”与“奖励Reward”的关系就是资源池选择哪台机器来满足请求的决策依据

更进一步,不同体系架构的云服务器、不同租户间的QoS要求,意味着强化学习算法应对的环境在不停变化,就像上图不断复杂变换的迷宫。而强化学习训练用的历史数据不具有概括性与对抗性,这时瑶光开始基于历史数据完成自学习与进化,以应对快速规模发展下的资源调度问题。

图4 基于瑶光调度算法实现自学习调度策略调优

为了验证方案的可行性,瑶光实验室基于随机请求序列(基于华为云现网数据随机打散生成)对专家经验与模型数据双驱动的“瑶光资源调度算法”进行了仿真测试:

表1 仿真测试场景一


资源池规模


10000


主机规格


88U304G

232U896G


实例规格


华为云C6,S6和M6全系列flavor


请求序列


随机生成


实例生命周期


随机生成


结束条件


资源耗尽

表2 仿真测试场景二


主机规格


88U304G


实例规格


华为云C6,S6和M6全系列flavor


请求序列


随机生成


实例数量


100000


实例生命周期


随机生成


结束条件


请求序列发放完成

测试结果表明,采用瑶光资源调度算法后平均碎片率优化效果提升30%、同一仿真序列下节省服务器数量约6%、资源池碎片整理触发周期延长约50%

#瑶光TechTalk# 大咖齐聚,畅享前沿技术干货

华为云设立瑶光实验室的初衷就是解决云基础服务在创新过程中遇到的痛点,为客户打造“极优、极简”的云上操作体验,而计算资源碎片的优化就是其中重要的技术专项。从本月起,华为云将打造全新“瑶光TechTalk”系列技术专题,带你走进瑶光实验室,听业界大咖分享云计算背后的技术干货!本期直播将聚焦“流量洪峰与弹性扩容背后,华为云瑶光资源调度与智能算法”,2月26日(周三)19:00-20:00 华为云“瑶光TechTalk”直播间,敬请期待!
戳→报名

原文地址:https://www.cnblogs.com/huaweicloud/p/12384496.html

时间: 2024-10-10 20:41:51

【华为云技术分享】技术探秘:华为云瑶光何以定方向的相关文章

融云技术分享:解密融云IM产品的聊天消息ID生成策略

本文来自融云技术团队原创分享,原文发布于“融云全球互联网通信云”公众号,原题<如何实现分布式场景下唯一 ID 生成?>,即时通讯网收录时有部分改动. 1.引言 对于IM应用来说,消息ID(或称序列号)是个看似不起眼,但非常重要的东西之一. 消息ID的使用贯穿了IM技术逻辑的方方面面,比如: 1)聊天消息的顺序保证: 2)聊天消息QoS送达保证机制时的去重: 3)特定聊天消息的精确查找和匹配: 4)聊天消息的已读未读处理: 5)聊天消息的送达回执: 6)群聊消息的扩散读拉取标记: 7)... .

【华为云技术分享】漫谈LIteOS-物联网操作系统介绍

[摘要] 本文主要对于目前物联网操作系统的定义以及主要特点进行了分析,最后介绍了几个常见的物联网操作系统. 1简介 提到操作系统,可能首先想到的就是苹果操作系统,windows,Linux,Unix,Android,IOS等,显然目前比较为人熟知的操作系统基本都是一些手机或者电脑端的操作系统.而随着互联网技术的不断发展,硬件的体积越来越小,物联网技术也迎来了爆棚式的发展.物理网不同于 互联网的不同在于后者更关注的是人与人的互联,而前者是更加强调人与物,物与物的连接,从而实现万物互联(IOT).显

【我的物联网成长记3】如何开发物联网应用?【华为云技术分享】

[摘要] 物联网应用是设备管理.故障监测.数据分析的重要工具.本文介绍如何基于物联网平台开发应用,包括API.SDK和图形化开发三种方式. -------------------整体方案------------------- 物联网应用是企业和开发者进行设备管理.告警&故障监测.业务监控.数据分析的重要工具.物联网平台屏蔽了设备接入的复杂性和协议的差异性,解耦应用与设备,为上层应用提供统一格式的数据,简化终端厂商开发的同时,也让应用提供商聚焦于自身的业务开发.基于华为物联网平台的应用开发方案如下

【华为云技术分享】让电变“机灵”,华为云与开发者共同打造智慧用电

“天干物燥,小心火烛” 古有打更人提醒人们注意用火安全 “铸造智慧数字未来,守护人类用电安全” 今有开发者守护我们用电安全 自从智慧用电解决方案投入研发后,宁波智轩团队对“电”就产生了异常敏锐的触觉,他们的生活中似乎到处充满了用电安全的信息. 我们先来看一组数据: 1)2018年1到10月全国因电气引发的火灾7.4万起: 2)2019年1至9月全国因用电引起火灾约5.9万起,45.1%的较大火灾系电气原因引起. 于是他们想:“如果有这样一款系统可以让用电变得更‘机灵’,会不会让用电事故减少一点点

云上安全不容忽视,华为云技术硬实力织成“保护网”

在云计算时代,最值钱的莫过于数据.作为企业的核心资产,各行业对于云上数据信息安全都保持着高度重视.把数据放到云上是否足够安全,已经成为各个企业在上云时考虑最多的问题.近日,工业和信息化部网络安全管理局发布了<关于相关企业网络与信息安全检查结果的公示>.公示显示,工信部对7家电信企业在落实<网络安全法>.<通信网络安全防护办法>.<电信和互联网用户个人信息保护规定>等法律法规情况上进行了实地检查,检查结果表明这7家知名企业均存在问题,并被责令整改.此举可谓为各

华为云,有技术,有未来

华为云软件开发云可以让开发团队基于云服务的模式按需使用,随时随地在云端进行项目管理.代码托管.代码检查.编译构建.测试.部署.发布等,从而使软件开发更加简单高效,让开发者能够专注快速创新和应对永无止境的需求变化,大幅提升个人和团队的交付能力和效率,帮助软件企业提高竞争力. 具体来说,对于软件企业来说,华为云软件开发云给他们带来的优势可分为如下几个层面: 第一,提升开发效率.首先,通过代码检查.代码广场来提高员工技能和熟练程度:其次,为企业提供包含项目管理.代码托管.代码检查等十余大服务在内的技术

恒天云技术分享系列4 – OpenStack网络攻击与防御

恒天云技术分享系列:http://www.hengtianyun.com/download-show-id-13.html 云主机的网络结构本质上和传统的网络结构一致,区别大概有两点. 1.软网络管理设备(如nova-network,open switch)部分替代硬件网络设备 . 2.多虚拟服务器共享一个宿主机物理网卡(使用Trunk技术). 那么对于云服务器的安全,我们也可以采用传统的网络安全技术去防御.对于云主机,我们同时也需要做好宿主机的防火墙配置,以及安全设置. 1.对于虚拟机进行虚拟

【干货】2016年12月29日 阿里云内部技术分享

阿里云大数据助力东润环能高效利用云端资源http://click.aliyun.com/m/8857/从天津滨海新区大爆炸.危化品监管聊聊 IT人背负的社会责任感http://click.aliyun.com/m/8858/SQL Server幕后英雄 - 统计信息http://click.aliyun.com/m/8859/如何以更优雅的方式实现弹性架构http://click.aliyun.com/m/8860/如何利用工具提高React页面渲染性能http://click.aliyun.c

2016年12月27日 阿里云内部技术分享

Spark机器学习· 实时机器学习http://click.aliyun.com/m/8713/Redis与KV存储(RocksDB)融合之编码方式http://click.aliyun.com/m/8714/阿里技术总监郭东白:创新之歌该如何唱http://click.aliyun.com/m/8715/页面以及全站性能损耗计算http://click.aliyun.com/m/8716/三年0故障总结,提升代码质量的秘诀http://click.aliyun.com/m/8717/pytho