斯坦福DAWNBench:华为云ModelArts深度学习训练全球最快

近日,斯坦福大学发布了DAWNBenchmark最新成绩,在图像识别(ResNet50-on-ImageNet,93%以上精度)的总训练时间上,华为云ModelArts排名第一,仅需10分28秒,比第二名提升近44%。成绩证明,华为云ModelArts实现了更低成本、更快速度、更极致的体验。

斯坦福大学DAWNBench是用来衡量端到端的深度学习模型训练和推理性能的国际权威基准测试平台,相应的排行榜反映了当前全球业界深度学习平台技术的领先性。计算时间和成本是构建深度模型的关键资源,DAWNBench提供了一套通用的深度学习评价指标,用于评估不同优化策略、模型架构、软件框架、云和硬件上的训练时间、训练成本、推理延迟以及推理成本。

作为人工智能最重要的基础技术之一,近年来深度学习也逐步延伸到更多的应用场景。随着深度学习模型越来越大,所需数据量越来越多,深度学习的训练和推理性能将是重中之重。华为云ModelArts将结合华为在AI芯片、硬件、云设施、软件和算法的全栈优势,打造更快的普惠的AI开发平台。

下文将深入分析,华为云ModelArts如何做到性能极致——128块GPU,ImageNet训练时间10分钟。

  1. 深度学习已广泛应用,模型增大、数据增长,深度学习训练加速的需求日益剧增

近年来,深度学习已经广泛应用于计算机视觉、语音识别、自然语言处理、视频分析等领域,可服务于视频监控、自动驾驶、搜索推荐、对话机器人等场景,具有广阔的商业价值。

为了达到更高的精度,通常深度学习所需数据量和模型都很大,训练非常耗时。例如,在计算机视觉中,如果我们在ImageNet[1]数据集上用1块V100 GPU训练一个ResNet-50模型, 则需要耗时将近1周。这严重阻碍了深度学习应用的开发进度。因此,深度学习训练加速一直是学术界和工业界所关注的重要问题,也是深度学习应主要用的痛点。

Jeremy Howard等几位教授领衔的fast.ai当前专注于深度学习加速,在ImageNet数据集上用128块V100 GPU训练 ResNet-50模型的最短时间为18分钟。

然而,最近BigGAN、NASNet、BERT等模型的出现,预示着训练更好精度的模型需要更强大的计算资源。可以预见,在未来随着模型的增大、数据量的增加,深度学习训练加速将变得会更加重要。只有拥有端到端全栈的优化能力,才能使得深度学习的训练性能做到极致。

[1] 文中所指的ImageNet数据集包含1000类个类别,共128万张图片,是最常用、最经典的图像分类数据集,是原始的ImageNet数据的一个子集。

  1. 华为云ModelArts创造新纪录,“极致”的训练速度

华为云ModelArts是一站式的AI开发平台,已经服务于华为公司内部各大产品线的AI模型开发,几年下来已经积累了跨场景、软硬协同、端云一体等多方位的优化经验。ModelArts提供了自动学习、数据管理、开发管理、训练管理、模型管理、推理服务管理、市场等多个模块化的服务,使得不同层级的用户都能够很快地开发出自己的AI模型。

在模型训练部分,ModelArts通过硬件、软件和算法协同优化来实现训练加速。尤其在深度学习模型训练方面,华为将分布式加速层抽象出来,形成一套通用框架——MoXing(“模型”的拼音,意味着一切优化都围绕模型展开)。采用与fast.ai一样的硬件、模型和训练数据,ModelArts可将训练时长可缩短到10分钟,创造了新的纪录,为用户节省44%的时间。

3.分布式加速框架MoXing

MoXing是华为云ModelArts团队自研的分布式训练加速框架,它构建于开源的深度学习引擎TensorFlow、MXNet、PyTorch、Keras之上,使得这些计算引擎分布式性能更高,同时易用性更好。

高性能

MoXing内置了多种模型参数切分和聚合策略、分布式SGD优化算法、级联式混合并行技术、超参数自动调优算法,并且在分布式训练数据切分策略、数据读取和预处理、分布式通信等多个方面做了优化,结合华为云Atlas高性能服务器,实现了硬件、软件和算法协同优化的分布式深度学习加速。

易用:让开发者聚焦业务模型,无忧其他

在易用性方面,上层开发者仅需关注业务模型,无需关注下层分布式相关的API,仅需根据实际业务定义输入数据、模型以及相应的优化器即可,训练脚本与运行环境(单机或者分布式)无关,上层业务代码和分布式训练引擎可以做到完全解耦。

4.从两大指标看MoXing分布式加速关键技术

在衡量分布式深度学习的加速性能时,主要有如下2个重要指标:

1)吞吐量,即单位时间内处理的数据量;

2)收敛时间,即达到一定的收敛精度所需的时间。

吞吐量一般取决于服务器硬件(如更多、更大FLOPS处理能力的AI加速芯片,更大的通信带宽等)、数据读取和缓存、数据预处理、模型计算(如卷积算法选择等)、通信拓扑等方面的优化,除了低bit计算和梯度(或参数)压缩等,大部分技术在提升吞吐量的同时,不会造成对模型精度的影响。为了达到最短的收敛时间,需要在优化吞吐量的同时,在调参方面也做调优。如果调参调的不好,那么吞吐量有时也很难优化上去,例如batch size这个超参不足够大时,模型训练的并行度就会较差,吞吐量难以通过增加计算节点个数而提升。

对用户而言,最终关心的指标是收敛时间,因此MoXing和ModelArts实现了全栈优化,极大缩短了训练收敛时间。在数据读取和预处理方面,MoXing通过利用多级并发输入流水线使得数据IO不会成为瓶颈;在模型计算方面,MoXing对上层模型提供半精度和单精度组成的混合精度计算,通过自适应的尺度缩放减小由于精度计算带来的损失;在超参调优方面,采用动态超参策略(如momentum、batch size等)使得模型收敛所需epoch个数降到最低;在底层优化方面,MoXing与底层华为自研服务器和通信计算库相结合,使得分布式加速进一步提升。

5.测试结果对比,用数据说话

一般在ImageNet数据集上训练ResNet-50模型,当Top-5精度≥93%或者Top-1 精度≥75%时即可认为模型收敛。

我们测试的模型训练收敛曲线如下图所示。此处Top-1和Top-5精度为训练集上的精度,为了达到极致的训练速度,训练过程中采用了额外进程对模型进行验证,最终验证精度如表1所示(包含与fast.ai的对比)。图4(a)所对应的模型在验证集上Top-1 精度≥75%,训练耗时为10分06秒;图4(b)所对应的模型在验证集上Top-5 精度≥93%,训练耗时为10分28秒。

  1. 未来展望——更快的普惠AI开发平台

华为云ModelArts致力于为用户提供更快的普惠AI开发体验,尤其在模型训练这方面,内置的MoXing框架使得深度学习模型训练速度有了很大的提升。正如前所述,深度学习加速属于一个从底层硬件到上层计算引擎、再到更上层的分布式训练框架及其优化算法多方面协同优化的结果,具备全栈优化能力才能将用户训练成本降到最低。

后续,华为云ModelArts将进一步整合软硬一体化的优势,提供从芯片(Ascend)、服务器(Atlas Server)、计算通信库(CANN)到深度学习引擎(MindSpore)和分布式优化框架(MoXing)全栈优化的深度学习训练平台。并且,ModelArts会逐步集成更多的数据标注工具,扩大应用范围,将继续服务于智慧城市、智能制造、自动驾驶及其它新兴业务场景,在公有云上为用户提供更普惠的AI服务。

目前华为云ModelArts课程已上线免费学习,欢迎到华为云学院 (https://edu.huaweicloud.com/courses/ )搜索ModelArts 即可获取。

原文地址:https://blog.51cto.com/13988201/2357528

时间: 2024-07-29 02:48:14

斯坦福DAWNBench:华为云ModelArts深度学习训练全球最快的相关文章

解锁普惠AI开发,华为云ModelArts一站式AI开发平台

一.ModelArts服务简介:ModelArts是面向AI开发者的一站式开发平台,提供海量数据预处理及半自动化标注.大规模分布式训练.自动化模型生成及端-边-云模型按需部署能力,帮助用户快速创建和部署模型,管理全周期AI工作流.二.ModelArts功能介绍? 数据治理支持数据筛选.标注等数据处理,提供数据集版本管理,特别是深度学习的大数据集,让训练结果可重现.? 分布式集群训练自研的MoXing深度学习框架,比开源算法更高效更易用.? 云边端全面部署支持模型部署到多种生产环境,可部署为云端在

华为云AI-深度学习糖尿病预测

#!/usr/bin/env python2 # -*- coding: utf-8 -*- """ Created on Sat Sep 15 10:54:53 2018 @author: myhaspl @email:[email protected] 糖尿病预测(多层) csv格式:怀孕次数.葡萄糖.血压.皮肤厚度,胰岛素,bmi,糖尿病血统函数,年龄,结果 """ import tensorflow as tf import os tra

深度学习训练技巧---权重初始化

全零初始化 全零初始化即所有的变量均被初始化为0,这应该是最笨.最省事的随机化方法了.然而这种偷懒的初始化方法非常不适合深度学习,因为这种初始化方法没有打破神经元之间的对称性,将导致收敛速度很慢甚至训练失败. 常量初始化(constant) 把权值或者偏置初始化为一个常数,具体是什么常数,可以自己定义 高斯分布初始化(gaussian) 需要给定高斯函数的均值与标准差 positive_unitball初始化 让每一个神经元的输入的权值和为 1,例如:一个神经元有100个输入,让这100个输入的

斯坦福大学的机器学习跟深度学习。

http://openclassroom.stanford.edu/MainFolder/CoursePage.php?course=MachineLearning http://deeplearning.stanford.edu/wiki/index.php/UFLDL_Tutorial http://www.andrewng.org/publications/ http://deeplearning.net/reading-list/tutorials/

华为云ModelArts全体验:人工智能的本质是赋能

2018年曾被寄予厚望,被称作是"人工智能元年". 我们都知道,一个年份一旦被称作"XX元年",那么一定不是某一个单方面的力量作用的结果,而是一个大势所趋的必然方向. 就像是2018年对于人工智能来说,从技术井喷.认知倾斜.政策和产业扶持等方面,都展现出了具有强烈象征意味的风口,你可以说这是"众人拾柴火焰高"的结果,但无论如何,AI的确是这个时代,即将全面点燃每一个行业的烈火. 我之前曾经写文章聊过对AI的理解. 我始终认为,AI不是一个行业,而

【华为云技术分享】介绍一个又快又准的截图骚操作

截图是可以说是每个人必备的技能,有时候需要截个手机屏,有时候需要截个网页屏,方式有很多,各种快捷键和插件也都能够办到. 但下面这个情况不知道大家会怎么来做. 需求切入 有一天,我在电脑上看到了一条微博,或者一篇文章. 比如微博像这样: 比如文章像这样: 这时候我需要把这条微博所在的白色区块单独截下来,或者把这篇文章所在的长文区域单独截下来,而且不要其他额外的内容,而且要做到边界精准对齐,丝毫不差. 比如微博我就要截图成这样子: 这里是把微博的这个白色卡片截图下来了,比如这个微博卡片实际上是 60

华为云EI ModelArts,从0到1开发训练AI模型,通过“极快”和“极简”实现普惠AI

华为云EI ModelArts,从0到1开发训练AI模型,通过"极快"和"极简"实现普惠AI现如今 AI 技术.概念火爆.落地应用更是繁多,但开发呢?是否困难?到底有多痛?据了解,大部分 AI 开发者的工作时间并不长,并且十有八九可能不是"科班出身".从编写的教材.录制的课程中就可以看出,所有的教学都不可避免地带有很强的的学术性,即便有意避免研究导向,仍然离产业界的需求相去甚远.并且随着新一波人工智能的热潮,人们发现手里的数据多了,电脑运算的更快

基于华为云EI ModelArts,体验从零打造AI应用模型

现如今 AI 技术.概念火爆.落地应用更是繁多,但开发呢?是否困难?到底有多痛?据了解,大部分 AI 开发者的工作时间并不长,并且十有八九可能不是"科班出身".从编写的教材.录制的课程中就可以看出,所有的教学都不可避免地带有很强的的学术性,即便有意避免研究导向,仍然离产业界的需求相去甚远.并且随着新一波人工智能的热潮,人们发现手里的数据多了,电脑运算的更快了,但实际上,这些 AI 开发者使用的工具并不顺手.为帮助开发者更深入地了解 AI 开发,快速上手 AI 开发必备技能,12 月 2

Cloud 2.0时代的华为云,让产业互联网跨越新摩尔定律

根据中国信通院的<互联网发展趋势报告2017-2018>:互联网已成为全球经济增长主要驱动力,中国互联网产业也正处于新的历史拐点.从互联网发展周期看,移动互联网浪潮已消退,全面进入稳定增长阶段,业务生态持续创新拓展,"智能"与"融合"演化为新时期互联网发展核心特征,全球互联网正加速迈入智能融合新时代. 所谓"智能"与"融合",更多是指云与互联网结合在一起,针对实体经济和行业应用,满足真实世界中企业.组织和个人的真实