百分百发挥AI算力,华为发出最关键的一击


进入2019年,人们已经不再怀疑AI人工智能的重要性。Granter在2018年发布的预测认为,2022年人工智能驱动的商业价值将高达3.9万亿美元。此外,Gartner还认为2018年是人工智能技术爆发的一年,其增长曲线非常陡峭,到2020年之后的增长曲线将趋于平坦。这也就是说,2019年将是人工智能发挥作用的关键之年。

人工智能在企业中的落地,主要是基于企业的数据中心;而在计算、存储与网络这数据中心的三大难关中,网络是最后也是最难的难关。因为不论是计算还是存储,都主要通过X86服务器及软件的方式实现,业界已经在这两个领域取得了阶段性进展。但网络作为CT技术,并不是很多IT企业的长项,而网络的性能又严重制约着人工智能算力的发挥。

2019年1月9日,华为发布了业界首款面向AI时代的数据中心交换机CloudEngine 16800。华为网络产品线总裁胡克文表示:“万物互联的智能世界正加速到来,数据中心正成为5G、人工智能等新型基础设施的核心。华为率先将AI技术引入数据中心交换机,引领数据中心网络从云时代迈入AI时代。”

网络性能制约AI算力

为什么说网络性能制约着AI算力的百分之百发挥?这是因为网络是所有企业IT和数据中心的基础,而到了云与人工智能时代的软件定义网络基础架构时代,网络将起到更加关键性的作用。在Gartner的2019十大基础设施和运营的趋势预测中,也专门提到了网络的重要性。Gartner强调2019年及以后必须关注如何让网络更快,人工智能、边缘计算、5G等新业务都需要网络的敏捷性,而2019年将是打造网络敏捷性的关键一年。

胡克文在谈到AI受到数据中心网络的影响时,认为有三大挑战:丢包率、带宽以及故障定位。首先是丢包率,传统的以太网丢包率为0.1%,这意味着算力只能发挥50%,这是华为通过实际测试发现的问题。也就是说为了百分百发挥AI算力,AI时代的数据中心网络应该达到零丢包。

其次是大带宽,因为即使做到零丢包但网络带宽也在制约AI算力的发挥。未来的五年将出现数字洪流,而随着互联网流量的增长,将导致AI数据的集中以及更大规模的数据中心。这就要求更高的带宽,特别是服务器与服务器间的互访将更频繁。而数据中心服务器支持的带宽也已经从10G到25G再到100G,以超乎想象的速度发展,但即便是100G的数据中心网络也将无法支撑即将到来的数字洪流挑战。

第三是今天的数据中心中,计算网络、存储网络和数据网络已经三网合一了,这带来了极大的运维挑战。当遇到故障时,可能数据中心的技术人员花几天几夜都无法定位问题源。而当业务部门发现问题后,再找到网络技术人员时,留给网络技术人员解决问题的时间已经所剩无几。如果还要花费几天时间才能解决问题,那么网管的运维压力之大可想而知。

上述三个问题,是面向AI时代的数据中心网络核心挑战。胡克文表示,他过去一年见过很多客户,普遍的反馈是大家过去三年的关注都在云上,而当云的建设初具规模后却突然发现搞不定网络,特别是面对AI等新兴计算任务。“这个时候,我们在想未来的数据中心网络应该是什么样?”

数据中心网络迈入AI时代

华为发布的AI数据中心交换机CloudEngine 16800作为华为AI发展战略以及全栈全场景AI解决方案的一个重要组成部分,是业界首款内嵌AI芯片的数据中心交换机,支持高密400G接口、满足AI时代5倍的流量增长,还将支撑秒级故障识别和分钟级故障自动定位、使能自动驾驶网络。

首先是内嵌AI芯片。高性能数据中心集群对网络丢包异常敏感,华为CloudEngine 16800搭载了高能效AI芯片,通过实时学习训练能力和独创的iLossless智能无损交换算法,为以太网实现了无丢包机制以及流量模型的自适应自优化,从而构建一个零丢包、低时延的数据中心网络,让AI算力充分发挥,加速人工智能应用创新。

近两年,深度学习算法取得重大突破,数据处理效率随后就成为了人工智能规模商用的新瓶颈。为了不断提升AI的运行效率,业界已经把存储介质推进到了闪存盘且大幅降低了时延,并通过GPU甚至专用的AI芯片则将处理数据的能力提升了100倍以上。为了进一步降低网络传输中服务器端数据处理的时延,数据中心的网络协议由TCP/IP推进到了RDMA远程直接数据存取,也就是网络层和传输层处理都由服务器上的网卡硬件实现,而无须像TCP/IP协议那样占用CPU的处理资源。那么,当这些都解决了之后,网络通信时延就将成为短板。

在数据中心里,TCP/IP是唯一的通信协议,但当TCP/IP网络遇到RDMA网卡,就需要在转发设备本地引入智能处理,实现零丢包、低时延、高吞吐的无损数据中心网络。华为主要采取了单流局部调优和整网全局调优两种方式,用内嵌AI芯片的华为数据中心交换机对网络状态实时检测。基于AI芯片的iLossless智能无损交换算法,可对全网流量进行实时的学习训练,并根据不同业务流量模型的特点动态设置最优的网络参数、更精准地控制流量,实现百万流和基于应用的队列自适应不同场景的全局网络自优化能力,保证数据中心网络在传输无丢包基础上达到最高的吞吐量。

第二是业界最高密度单槽位48 x 400GE。华为CloudEngine 16800,支持从10G到40G到100G再到400G端口的平滑演进,能够提供业界最高密度的单槽48个或整机768个400GE端口,交换容量是业界的五倍,可以极大的减少核心层设备的数量,简化网络的同时提升管理效率。众所周知,400GE接口标准化工作于2015年启动,目前针对数据中心应用已经完成标准化,400G时代已经来临。

为了支持超高密度及其演进,华为CloudEngine 16800在PCB板材、工艺、散热,供电等多方面都进行了重大技术改进和创新。在PCB板材工艺方面,华为采用新型亚微米无损材料及高分子键合技术的制作工艺,将PCB板的电信号传输效率提升30%,满足100G到400G甚至未来800G的兼容和能力演进。而在供电方面,华为提出业界首个双路输入智能切换的电源模块,采用磁吹灭弧和大励磁技术实现ms级快速切换,21个电源模块就可以实现原来40个模块所达到的供电能力和可靠性,电源空间节省50%;线路板上采用矩阵磁和高频磁技术,可在两个拇指大小的空间内提供1600W供电能力,使得单位空间的供电效率提升90%。

在散热方面,华为CloudEngine 16800提供单板级和系统级散热。其中,CloudEngine 16800采用独有的碳纳米导热垫和VC相变散热技术,单板散热效率较业界提升4倍,整机可靠性提升20%。此外,华为采用了业界首创的混流风扇,可以使得整机散热效率达到最佳,平均每bit数据的功耗降低50%,相当于每台每年节省32万度电、约合26万元电费,减少碳排放250余吨;加上独有的磁导率马达,静音导流环噪音降低6dB,真正做到绿色节能。

第三是网络的智能运维和自动驾驶。华为CloudEngine 16800基于内置的AI芯片,可大幅度提升“网络边缘”即设备级的智能化水平,使得交换机具备本地推理和实时快速决策的能力。通过FabricInsight网络分析器提供分布式AI运维架构,可实现秒级故障识别和分钟级故障自动定位,加速自动驾驶网络的到来。而基于分布式的AI运维架构,也可大幅提升网络运维系统的灵活性和可部署性。

华为自2012年进入数据中心网络市场以来,已服务于全球6400+个用户,帮助全球各地的互联网、金融、政府、制造、能源、大企业等多个行业的客户实现了数字化转型。2018年,华为轮值董事长徐直军宣布,华为将人工智能定位为新的通用技术并发布了人工智能发展战略,全面将人工智能技术引入到智能终端、云和网络等各个领域。CloudEngine 16800就是华为普惠AI战略的进一步发展,也是华为在数据中心网络市场的最新成果。

2017年7月,华为进入了Gartner数据中心网络魔力象限的挑战者象限,华为CloudFabric云数据中心网络解决方案已成为全球企业构建云数据中心网络的首选方案之一。华为CloudFabric解决方案提供基于标准API的接口,可与第三方云平台、控制器、VAS设备、自动化管理工具等协同工作,联合VMware 、Red Hat、Mirantis、EasyStack、F5、Ansible等20多家合作伙伴共同构建多层次SDN生态链,提供成熟的集成部署能力。

随着CloudEngine 16800的推出再加上CloudFabric解决方案,华为可帮助企业构建更为智能的网络、自主响应应用的策略以及网络的自我优化,特别是把AI广泛应用于数据中心网络的规划、部署、运维到调优等各环节,实现网络管理和运维的自动化和智能化,打造应用驱动的数据中心网络,实现网络敏捷性。2019年,CloudEngine 16800将重新定义数据中心网络的代际切换,帮助企业使能和加速AI商用进程,引领数据中心进入AI时代。(文/宁川)

原文地址:http://blog.51cto.com/cloudtechtime/2341792

时间: 2024-10-29 01:02:53

百分百发挥AI算力,华为发出最关键的一击的相关文章

从华为P20开始的脑洞之旅:AI如何改变未来手机生活

春天到来,跟万物一起萌生的,还有各式各样的手机新品- 相比去年的全面屏风潮,今年的手机市场可以说是AI的天下.各式各样不同等级的AI拍照满天飞.而华为P20系列的到来,又把移动AI这个话题拉升到了新的热度.比如说,基于麒麟970搭载NPU带来的AI专项处理能力,华为P2O首次实现了AI摄影大师系统,在摄影上带给了用户瞬间成为大师体验:而AIS智能防抖系统则利用了NPU提供的图像识别能力,对成像质量显著提升,解决了我们拍照和拍摄视频时手抖的问题.但是,可能更多消费者的印象中,AI是一个非常强大,类

算力、真伪、万物:在华为北研所探秘荣耀10的新物种可能

不久之前,新华社公众号在愚人节那天发布了一条<发现手机摄影新物种>的推送,并将地点标注在华为北研所. 当天就有读者留言,问我们这到底是什么意思,是不是手机AI摄影又要搞个大新闻? 很巧的是,很快脑极体就有幸受邀前往华为北研所,对手机摄影新物种这件事进行了探访,并与华为海思芯片产品市场总监周晨与荣耀产品副总裁熊军民交流,获得了不少"猛料". 我们知道,手机AI摄影最近被炒得火热,甚至很多专家认为AI在手机上的出现正在改写单反确立的摄影规则.即手机拍照的目标并不一定是肉眼还原,

不懂算法的我,到底怎么让APP快点AI起来?

前几天,华为与新智元主办了"华为HiAI能力开放公开课",很多我们的读者都关注了这次课程.于是不少读者留言或者在问答类平台邀请我们来回答,如何看待和理解这次课程.也有读者本身就是移动应用的开发者或者从业者,来询问我们到底如何将HiAI平台带来的AI开发能力与自身业务相结合,以及想要走这条"移动AI之路",要注意哪些地方. 仔细想想,这确实是一次从各方面详细解释了HiAI架构与华为提出的移动AI战略的"干货分享",感兴趣的读者不妨找来看看.但毕竟这

十年后,AI市场规模将会超过万亿美元

AI多年来一直是新技术革命的热点.虽然AI的热潮经历了几次波动,但是越来越多的实际落地应用使投资者和企业始终保持热情. 尽管处于萌芽阶段,AI市场预计将在未来十年呈现指数级的增长.我们预计AI市场的年增长率将达到64%,在2027年超过1万亿美元. AI的发展驱动力是什么? AI技术和市场的蓬勃发展受技术的不断进步与成熟.政府政策的鼓励和资金的大量投入等众多力量的推动. 深度学习算法.AI芯片和大数据的可获性与可用性推动AI技术的创新 AI技术的快速发展,使其从学术阶段发展到实际应用阶段,结合最

华为发出云伙伴召集令,打开XaaS新天地

2017年3月,华为正式宣布成立Cloud BU.华为轮值CEO徐直军表示,从2017年起,华为将以公有云服务为基础,强力投资打造开放的公有云平台,并将聚焦重点行业,携手合作伙伴构建云生态,共同做大产业蛋糕.为此,华为需要三类云合作伙伴:开发应用的合作伙伴.将应用迁移到云的合作伙伴.销售云的合作伙伴. 2017年8月28日,华为发出"ΣCO-Discovery"华为生态伙伴精英赛2017云解决方案优选赛召集令,面向社会公开招募云伙伴参赛.而本次华为发出云合作伙伴召集令,也被认为是加大力

少听大忽悠的AI万能论:不打开四道锁,企业永远无法享用AI

如果你是一位科技和AI爱好者,想必会在各种信息渠道看到"人工智能又能干什么了"."人工智能又在某领域超过人类了",这类消息近乎于每天都在我们的眼球前摇晃. 久而久之,我们似乎会习惯性地认为AI已经可以拿下一切问题,甚至觉得AI已经是万能的. 这种想象假如只存在于普通消费者脑中,那么可能还好:假如企业家和行业从业者也靠这些判断来贸然尝试引入AI,那麻烦可就大了. 事实上,今天无论是科技大V.社交网络上的"明白人",还是各种培训讲师.创业BP,都在似

AI“淘金”大时代: 从移动开发模式看百度DuerOS商业化为什么会成功?

把时间向回倒去十年,在2008年的时候,智能机刚刚开始它的征程,开发者的想象力远不如今天丰富,那时候科技界似乎还不知道,接下来十年要与一件东西朝夕相处:平台. 2008年,谷歌正式发布安卓1.0.此后在移动互联网时代中,触屏成为了人机交互的主要方式.基于IOS与安卓的开发者生态与移动应用开发商业模式,撑起了十年间全球发展速度最快的一桩"生意",满足了无数开发者的商业梦想与人生价值实现. 而在AI时代到来之时,语音交互开始扭转人机交互的存在形态,用户与设备间基于语音交互的全新关系开始搭建

卡位亚洲新门户,华为云泰国开服

2018年8月23日,泰国投资委员会(BOI)宣布于近期通过了华为技术(泰国)有限公司的投资申请,同意华为在东部经济走廊(EEC)建设云数据中心,面向公共机构和企业提供云服务.华为此次投资首期将达7亿泰铢(约1.5亿人民币),将于2018年9月建成并对外运营.2018年9月20日,华为云在泰国开服,泰国投资促进委员会(BOI)授予华为运营公有云的许可证,华为云泰国将于9月30日正式上线提供云服务. 据了解,EEC位于大湄公河经济走廊和21世纪海上丝绸之路之间,陆上与柬埔寨.老挝.越南连接,海上则

测评:华为最新移动应用/APP测试工具MobileTest

一.目前移动应用/App的测试痛点及可选方案 移动互联网市场进入下半场,同质化竞争激烈,平均获客成本增加.屏幕不适配.闪退.无响应.UI异常等兼容性问题严重影响用户体验,影响用户转化率和用户粘性.如何解决这些问题呢? 方式1:Android模拟器或USB连接真机测试 缺点:无法发现屏幕等硬件差异引起的兼容性问题和性能问题. 方式2:采购主要适配机型做兼容性测试 缺点:Android定制系统多,屏幕尺寸和分辨率等硬件参数差异大,机型更新快,采购和维护成本高. 这两种方式还有其它缺点: 1.兼容性测