阿里云破图像识别世界纪录的背后

2018年12月25日,斯坦福大学发布最新的DAWNbench深度学习推理榜单,阿里云获得了图像识别性能及成本双料冠军,打破了基于亚马逊AWS计算平台保持的长达8个月的纪录。这是该榜单首次出现中国科技公司。

阿里云技术团队使用ecs.gn5i-c8g1.2xlarge实例,以每张图片4.218ms的性能(见图2),0.00000154美金(见图4)的推理成本分别登顶推理性能和成本榜单,不仅性能是第二名基于Amazon EC2 [c5.18xlarge]实例的2.36倍,而且平均每张图片的推理成本也比第二名低6.1%。

图1 图像识别示意图

尽管针对DNN性能的优化始终是学术界及产业界研发的热点,但在DAWNbench竞赛推出之前,业内并没有一个对深度学习训练及推理任务进行端到端评价的标准。DAWNbench竞赛是第一个既关注性能指标,也关注模型精度及成本等指标的竞赛。自从斯坦福大学在2017的NIPS会议上发布DAWNbench竞赛以来,该竞赛吸引了产业界的极大关注。

阿里云参与了DAWNbench竞赛中的两个项目:1,针对ImageNet验证集中50000张图片的分类任务,要求分类模型的Top-5精度不低于93%,统计分类每一张图片的平均延迟,延迟越低,性能越高,排名越高。2,在每次一张的情况下,完成50000张图片推理的平均成本

图2 DAWNbench竞赛的推理性能榜单(截取日期:2018年12月25日)

图3 DAWNbench竞赛的推理成本榜单(截取日期:2018年12月25日)

图4 DAWNbench竞赛阿里云的推理成本数据

图2与图3分别给出了截止2018年12月25日这两个项目的排名情况。从图2与图3可以看到,在这两个子项目上,阿里云均名列第一。为了在这两个任务上达到最快的性能,和最低的成本,参赛团队从以下三个维度开展了优化:1,深度学习模型的选择;2,8bit量化优化;3,阿里云GPU实例的选择。

深度学习模型的选择

在阿里云团队参赛之前,ImageNet推理任务榜单的第一名选择了ResNet50模型,在Amazon EC2 [c5.18xlarge]实例上以推理性能9.96ms和平均推理成本1.64E-06美金排名第一。该模型源自于Facebook在1小时内完成ImageNet训练的论文“Accurate, Large Minibatch SGD: Training ImageNet in 1 Hour”,将之标记为ResNet50-v2,将原始的ResNet50模型标记为ResNet50-v1。虽然ResNet50-v2更易于训练,但其训练计算量增加了约12%,推理计算量增加了约6%。对于推理任务,在精度达标的情况下,任何程度上计算量的节省都是有价值的。基于此,阿里云团队选择了ResNet50-v1模型。

图5 ResNet50模型训练过程中学习率的设置

在训练ReseNet50-v1模型的过程中,采用经典的三段式格式,很难达到93%的Top-5精度。为了解决精度问题,参赛团队遍历了超参数空间,但ReseNet50-v1模型的Top-5精度仍旧难以稳定的超过93%。为了解决该问题,团队设计了图5中的学习率格式,训练的早期学习率线性增大至峰值,随后线性衰减。以该学习率为基础,最终得到了Top5精度为93.28%的ResNet50-v1模型。

Int8量化

低比特量化是提升推理性能的一种主要手段,尽管目前已经有了采用1比特或2比特进行ResNet网络推理的研究,但这些过低精度的量化往往导致了较大的精度损失。与此相对,阿里云团队采用了Int8量化方法,在提升计算性能的同时,兼顾了模型的预测精度。

为了使优化的成果服务于广大的阿里云客户,团队选择了TensorFlow这一流行的深度学习框架来开展优化,其中Int8量化的工作基于TensorRT开展。优化的难点在于将训练好的TensorFlow模型量化为TensorRT的Int8模型,并将量化后的TensorRT模型加载进TensorFlow计算图中进行推理。

随后,团队基于TensorFlow的Benchmark代码开展了深度优化。在Int8量化的过程中,需要计算量化前后的Kullback-Leibler散度,以实现神经网络各层激活值动态范围的校准。团队首先实现了校准过程,这个过程包含了三个环节:Int8量化模型的建立、针对量化模型的校准、基于校准结果产生优化后的Int8模型。随后优化了Benchmark的推理模式,使其能够导入优化后的推理引擎。

阿里云GPU实例的选择

参赛团队选择了支持8b计算的NVIDIA Tesla P4 GPU,以及基于该GPU的阿里云ecs.gn5i-c8g1.2xlarge实例。该实例包含了一个8核的vCPU,及1块P4 GPU。该实例提供了三种价格选项:包年包月,按量付费及抢占式实例。在抢占式实例下,每个实例每小时的价格仅为7.015元。

GPU Latency(ms) Top5 Accura Tesla P4 4.218 93.16% 表1,阿里云ecs.gn5i-c8g1.2xlarge实例的平均推理性能及精度

表1给出了在阿里云ecs.gn5i-c8g1.2xlarge实例上,针对DawnBench竞赛ImageNet推理任务的优化结果。由表1可以看到,在ecs.gn5i-c8g1.2xlarge实例上,每次完成1张图片推理的平均性能为4.218ms,是第二名基于Amazon EC2 [c5.18xlarge]实例的2.36倍。当采用按量付费购买模式时,成本为1.54E-06美金,比第二名节省6.1%。而在抢占式实例下,成本将进一步降低为1.23E-06美金,比第二名节省26.2%。完成50000张图片的推理精度为93.16%,超出ImageNet推理任务精度要求。

优化成果可用于计算机视觉任务中广泛使用的ResNet、Inception 等模型,而且已经集成在了阿里云GPU计算平台加速框架(Perseus)内,将以镜像的形式为使用GPU的客户提供更好的使用体验。阿里云正在构建从虚拟化,存储,GPU加速,到深度学习框架优化的全栈异构计算服务平台。

原文地址:https://www.cnblogs.com/chuangye95/p/10187194.html

时间: 2024-10-13 11:40:49

阿里云破图像识别世界纪录的背后的相关文章

阿里云的智能视觉识别生意经,打算这么念

在2017年6月10日举行的云栖大会·上海峰会上,阿里云正式发布了"图像识别"和"人脸识别"两项视觉智能服务.视觉计算是阿里巴巴"NASA"计划的一部分,"NASA"计划聚焦于机器学习.芯片.IoT.操作系统.生物识别等核心技术领域,希望解决10年.20年后的挑战.虽然着眼于解决10年.20年后的挑战,但每新推出一项智能服务,阿里云都有一本自己的生意经. 智能视觉识别的生意经 在针对的目标市场方向,阿里云表示图像识别分为生物识

用七年时间造出的阿里云,如今三句话告诉你是什么

马云在2016年10月杭州云栖大会的主题演讲中只字未提"阿里云",但这并不说明阿里云不重要,而是在某种意义上说明在马云的心里,阿里云"从0到1"的阶段已经完成了. 在10月13日杭州云栖大会开幕当天,马云发表了就上一财年致股东信,信中提及阿里云承载了中国35%的网站并为之提供云计算和大数据的服务,而截至2016年3月31日的阿里财报显示阿里云拥有超过230万用户,其中云计算付费用户达50万. 从2009年2月写下阿里云的第一段代码开始,阿里云上上下下的负责人们就一直

护航Lazada双11购物节 阿里云CDN全球化火力全开

摘要: Lazada是东南亚最大B2C平台,业务范围覆盖印度尼西亚.马来西亚.菲律宾.新加坡.泰国和越南六个东南亚国家,覆盖大约6亿消费者.在双11期间,阿里云CDN为Lazada电商内容加速,并且通过独家的直播解决方案,帮助Lazada把双11晚会推送到泰国.马来西亚,和东南亚人一起狂欢双11. 2018年11月12日零点--东南亚最大的电子商务公司Lazada 2018双11购物节正式收官.这是一场超过2000万的消费者在Lazada网站上及APP上浏览和疯狂抢购的盛会. Lazada是东南

阿里云MVP:开发者的超能力,用技术创造更好世界

2019年3月,第8期阿里云MVP(最有价值专家)完成终审,截至目前,全球已有27个国家和地区.近500位云计算专家和优秀开发者成为阿里云MVP.阿里云MVP是阿里云授予中国乃至全球行业数字化转型技术实践领军者的称号,他们懂技术.爱分享,愿意赋能更多开发者,让技术普惠更多企业.在他们的身上,你能看到这个时×××发者激动人心的创新创造,更能看到站在各行各业技术前沿的实践者们,努力建设一个更美好的数字中国. 数字转型:技术让生活更美好 2018年12月28日,25岁的黄胜蓝接到了阿里云MVP认证通过

阿里云自研新一代企业云数据库POLARDB背后的技术

摘要: 从2008年到2018年,阿里巴巴的数据库技术已经发展了10年的时间,10年的时间从AliSQL到RDS,再到自研POLARDB,阿里巴巴数据库技术得到了极大的提升.那么在阿里云自研新一代企业云数据库POLARDB背后有哪些技术呢?本文中,阿里云数据库事业部总经理鸣嵩就为大家进行分享. 从2008年到2018年,阿里巴巴的数据库技术已经发展了10年的时间,10年的时间从AliSQL到RDS,再到自研POLARDB,阿里巴巴数据库技术得到了极大的提升.那么在阿里云自研新一代企业云数据库PO

双11个性化推荐背后,阿里云“舜天”如何应对百亿次挑战?

摘要: 2018天猫双11在技术世界,创下不少新记录,其中有一个记录是11日当天阿里全平台共为用户做个性化推荐453亿次,这些推荐的图片长度加起来可以绕地球70圈. 当你在天猫/手淘上买买买的时,图片会以不同格式或分辨率来转码呈现,这就要求后台系统需要强大的算力来保障数倍于平时的转码需求. 2018天猫双11在技术世界,创下不少新记录,其中有一个记录是11日当天阿里全平台共为用户做个性化推荐453亿次,这些推荐的图片长度加起来可以绕地球70圈. 当你在天猫/手淘上买买买的时,图片会以不同格式或分

解密阿里云Redis助力双十一背后的技术

摘要: Redis是一个使用范围很广的NOSQL数据库,阿里云Redis同时在公有云和阿里集团内部进行服务,本文介绍了阿里云Redis双11的一些业务场景:微淘社区之亿级关系链存储.天猫直播之评论商品游标分页和菜鸟单据履行中心之订单排序. 双11如火如荼的结束了,阿里云Redis(ApsaraDB for Redis原KVStore)也圆满完成了双11Redis的保障工作.目前阿里云Redis提供了单机版本和集群版本的Redis. 单机版本Redis具有很高的兼容性,并且支持Lua脚本及地理位置

上云十年:阿里云的奇幻漂流

现代人的生活是不缺乏刺激的.我们总能在电影院或化身“沙发土豆”,作为旁观者,与凤凰社.夜魔侠.蜘蛛侠等诸多主角们经历了一场场“安全的冒险”,体会他们挣脱束缚的破釜沉舟,欣赏他们踏上未知冒险的勇气. 回到真实的商业故事中,很少有人会将阿里与“困境”这样的字眼联系在一起,尤其是在花团锦簇.全民狂欢的双十一之后. 但少有人知道,这场剁手党的“春晚”,却是技术人眼中冰峰林立.人迹罕至的“珠穆朗玛峰”.而阿里云的工程师们,刚刚经历过一场大汗淋漓的搏斗. 极致双 11:阿里云的技术攀爬 11 月 11 日

阿里云国际化重大进展,中国云全面参与全球技术竞争

2016年的云计算产业还没有收官,阿里云已经马不停蹄地开始布局2017年的市场了.11月21日,阿里云在迪拜宣布其位于欧洲.中东.日本和澳大利亚的数据中心将于月内相继开服.经过了7年发展的阿里云,如今已经成为无可争议的第一大中国公有云服务商,而在国际上也已经与AWS亚马逊云.Azure微软云成为三驾马车. 进入了第8年的阿里云,要拿什么来完成从"1到N"?海外市场将是一个重要的路径.拓展海外市场一直是中国企业家们的心愿,而对于公有云这种本身就是全球化的业务来说,国际化也是一个必须要完成