刷新神经网络新深度:ImageNet计算机视觉挑战赛微软中国研究员夺冠

微软亚洲研究院首席研究员孙剑

世界上最好计算机视觉系统有多精确?就在美国东部时间12月10日上午9时,ImageNet计算机视觉识别挑战赛结果揭晓——微软亚洲研究院视觉计算组的研究员们凭借深层神经网络技术的最新突破,以绝对优势获得图像分类、图像定位以及图像检测全部三个主要项目的冠军。同一时刻,他们在另一项图像识别挑战赛MS COCO(Microsoft Common Objects in Context,常见物体图像识别)中同样成功登顶,在图像检测和图像分割项目上击败了来自学界、企业和研究机构的众多参赛者。

ImageNet计算机视觉挑战赛由来自全球顶尖高校和公司的研究员组织举办,近年来已经成为计算机视觉领域的标杆,其比赛结果总能十分直观地反映出计算机视觉这一热门领域中各研究机构的研究进展和突破。MS COCO数据库是由微软资助建立,其挑战赛目前由学术界几所高校联合组织,独立运行。

这两个挑战赛的侧重点各有不同:ImageNet 倾向于评测识别图像中显著物体的能力,而MS COCO倾向于评测识别复杂场景中的各类物体的能力。能同时在两个世界级的比赛中获得冠军,足以说明研究组的技术突破是通用的——它可以显著地改善计算机视觉领域的各项研究,甚至计算机视觉领域以外的研究,比如语音识别。那么究竟是什么样的技术突破?

在计算机视觉领域,深层神经网络的方法常常被研究人员用来训练计算机识别物体,微软也不例外。但微软亚洲研究院的研究员们在此次ImageNet挑战赛中使用了一种前所未有,深度高达百层的神经网络。该网络的层数比以往任何成功使用的神经网络的层数多5以上。

要实现这一技术,背后的挑战巨大。起初,连研究员们自己都不确信训练非常深的网络是可能或有用的。“我们没想到这样一个简单的想法意义却如此重大。” 微软亚洲研究院首席研究员孙剑坦言。完成这项技术突破的团队由4位中国研究员组成:孙剑与何恺明来自微软亚洲研究院视觉计算组,另外两人为微软亚洲研究院的联合培养博士生,分别是来自西安交通大学的张祥雨和中国科学技术大学的任少卿。

微软亚洲研究院主管研究员何恺明

当然,这个重大的技术突破震惊的不仅仅是这个研究团队的研究员们。微软全球资深副总裁Peter Lee表示,“从某种意义上说,他们完全颠覆了我之前对深层神经网络的设想。”

ImageNet挑战赛去年获胜的系统错误率为6.6%,而今年微软系统的错误率已经低至3.57%。事实上,该研究团队早在今年一月就首次实现了对人类视觉能力的突破。当时,在题为“Delving Deep into Rectifiers: Surpassing Human-Level Performance on ImageNet Classification”的论文中,他们系统的错误率已降低至4.94%。此前同样的实验中,人眼辨识的错误率大概为5.1%。

滴水穿石:这是一个关于耐心与创新的故事

近几十年来,科学家们一直都在训练计算机做各种各样的事情, 例如图像或语音识别。但很长一段时间内,这些系统的误差巨大,难以消弭。

大约在五年前,研究人员们开始重新使用 “神经网络”的技术并使其再次焕发出新的活力。神经网络的复兴让图像和语音识别等技术的精度实现了大幅度飞跃。微软的Skype Translator实时语音翻译技术就得益于此,它能够更好地识别语音,从而不断完善机器翻译的准确性。

类似于人脑,神经网络包含多级非线性处理层。从理论上说,越多的层级应该能带来越好的学习结果。但实际实验中的最大挑战是,在通过每一层级的反传训练中,反穿监督信号幅度会迅速衰减,这让整个神经网络系统的训练极为困难。

孙剑回忆到:“三年前,当计算机视觉和机器实际领域训练出8层的深层神经网络系统时,识别精度有了质的飞跃。去年出现了足有20到30层的深层神经网络,识别精度又被大幅刷新。”

孙剑和他的组员们认为网络还可以更深。过去的几个月来,他们用各种方式来添加更多的层级,同时还要保证结果的准确性。他们经历了大量错误的尝试,也吸取了很多的经验教训。最后,一个被他们称之为“深层残差网络(deep residual networks)”的系统在微软亚洲研究院成功诞生。

这个“深层残差网络”正是他们用于ImageNet挑战赛的系统,它实现了惊人的152层,比以往世界范围内的任何系统都深5倍以上。它还使用了一个全新的“残差学习”原则来指导神经网络结构的设计。残差学习最重要的突破在于重构了学习的过程,并重新定向了深层神经网络中的信息流。残差学习很好地解决了此前深层神经网络层级与准确度之间的矛盾。

?

借水行舟:从科研探索到智能产品

神经网络有一个非常重要的优点,就是学习到的内部表示或特征可以在不同任务中复用。Skype Translator就是一个很好的例子,英语与德语之间的翻译准确率可以随着英语与中文翻译的不断增加而提高。

孙剑表示,他们的深层残差网络具有非常强的通用性。他们把该系统用于ImageNet挑战赛的分类任务后,他们发现这一系统学到的内部表示或特征能显著提高其它三项任务:检测(detection),定位(localization)和分割(segmentation)。“从我们极深的深层神经网络中可以看出,深层残差网络力量强大且极为通用,可以预见它还能极大地改善其它计算机视觉问题。”

事实上,孙剑团队多年来在计算机视觉领域的研究成果已经转化到众多微软的智能产品和服务中,例如,微软牛津计划中的人脸识别和图像识别API,Windows 10中的Windows Hello“刷脸”开机功能,必应的图像搜索,微软小冰的多个图像“技能”,OneDrive中的图片分类功能,以及广受好评的口袋扫描仪Office Lens等等,不胜枚举。

以微软牛津计划为例,该计划开放了一系列机器学习相关的API,让没有机器学习背景的开发人员也能构建自己的智能应用。而其中人脸识别API作为牛津计划最先开放的API,受到广泛使用。此前火遍全球的How-old.net(微软颜龄机器人)和Twins or Not(微软我们)就是在人脸识别API基础上,通过几行简单的代码实现的。

通过和微软产品部门的紧密合作,这些来自于微软亚洲研究院的全球领先的计算机视觉技术得以应用在几亿人的生活中。而这些来自中国研究员的研究成果,正在为我们的生活带来一场“隐形革命”,为全球用户提供更智能的生产力工具和更个性化的计算体验。

微软全球资深副总裁、微软亚洲研究院院长洪小文博士表示,“与视觉在人类感官中的重要性相同,计算机视觉的一次次重大突破无疑为人工智能的整体发展提供了强大动力。让计算机看懂多彩的世界,一直是激励微软研究院及计算机领域同仁在这条充满挑战的道路上前行的重要力量。未来,还有更多突破等着我们去挑战!”

“微软亚洲研究院成立17年了,她的研究环境和气氛为中国IT届培养了众多的人才; 我在这里工作了12年,静下心来你就能在这样的环境中收获激动人心的发现。今天,我对我的团队说,请享受一天获得NBA冠军的感觉!”孙剑说。

?

相关论文:http://arxiv.org/abs/1512.03385

from: http://blog.sina.com.cn/s/blog_4caedc7a0102w2n9.html

时间: 2024-10-11 00:27:38

刷新神经网络新深度:ImageNet计算机视觉挑战赛微软中国研究员夺冠的相关文章

(转)神经网络和深度学习简史(第一部分):从感知机到BP算法

深度|神经网络和深度学习简史(第一部分):从感知机到BP算法 2016-01-23 机器之心 来自Andrey Kurenkov 作者:Andrey Kurenkov 机器之心编译出品 参与:chenxiaoqing.范娜Fiona.杨超.微胖.汪汪.赵巍 导读:这是<神经网络和深度学习简史>第一部分.这一部分,我们会介绍1958年感知机神经网络的诞生,70年代人工智能寒冬以及1986年BP算法让神经网络再度流行起来. 深度学习掀起海啸 如今,深度学习浪潮拍打计算机语言的海岸已有好几年,但是,

CNN卷积神经网络_深度残差网络 ResNet——解决神经网络过深反而引起误差增加的根本问题

from:https://blog.csdn.net/diamonjoy_zone/article/details/70904212 环境:Win8.1 TensorFlow1.0.1 软件:Anaconda3 (集成Python3及开发环境) TensorFlow安装:pip install tensorflow (CPU版) pip install tensorflow-gpu (GPU版) TFLearn安装:pip install tflearn 参考: Deep Residual Le

神经网络与深度学习——《机器学习及应用》汪荣贵 机械工业出版社

摘录自<机器学习及应用>汪荣贵 机械工业出版社 总结了一些神经网络与深度学习中的一些网络介绍. 1.神经元与感知机 (1)关于激活函数 (2)MLP MLP模型的网络结构没有环路或回路,故是一类前馈网络模型.MLP模型中隐含层的层数可为一层也可为多层.对于MLP模型和BP神经网络这样包含多个数据处理层的前馈网络模型而言,其参数更新过程通常较为复杂.这是因为这类模型的最终输出与之前多层的连接权重相关,相当于多层嵌套的函数.若直接使用类似于梯度下降的优化方法对模型进行训练,则无法直接求得各结点所对

《神经网络与深度学习》(四) 受限玻尔兹曼机

转自:http://blog.csdn.net/qiao1245/article/details/50932519 谈到神经网络,就不得不提到最近非常火的深度学习.那么什么是深度学习?它与神经网络的关系是什么?深度学习的基本原理和常用算法是什么?我将在这篇中详细解答. 什么是深度学习 深度学习来源于人工神经网络,它的思想是组合低层次的特征从而构建出更加抽象的深层次特征.深度学习的概念由Hinton等人于2006年提出, 它是一个新的机器学习领域,通过更"深"层次的训练,它可以更加良好的

数据分析、数据挖掘、机器学习、神经网络、深度学习和人工智能概念区别(入门级别)

数据分析, 就是对数据进行分析, 得出一些结论性的内容, 用于决策. 分析什么哪? 根据分析现状. 分析原因. 预测未来. 分析现状和分析原因, 需要结合业务才能解释清楚. 用到的技术比较简单, 最简单的数据分析工具就是 Excel. 预测未来指的是分析未来一段时间的销售额之类的. 在预测未来方面, 一般用到数据挖掘的技术了. 数据挖掘, 从字面意思上看, 是从数据中挖掘出有价值的信息. 比如, 超市通过对一段时间的客户消费记录能发现, 哪些物品经常被顾客一起购买. 那么, 就可以把这些物品摆放

神经网络和深度学习之——前馈神经网络吉林快三带红黑玩法

前面一章我们详细讲解了神经网络的组成吉林快三带红黑玩法 话仙源码论坛下载地址 QQ2952777280,工作原理,信号在网络中如何流动,以及如何求解每一个输入信号赋予的权重等计算过程:同时我们还构建了一个逻辑回归网模型来解决鸢尾花分类问题,很明显,这种网络很"浅",但它对于分类鸢尾花数据还是非常有效的,而且不仅仅是鸢尾花,对于有需要的其他二分类问题,该模型也能表现得很好.由于这种模型太"浅"了,我们一般称这种模型为bp网络,而不直接称为神经网络,有些人甚至觉得这种网

【吴恩达课后测验】Course 1 - 神经网络和深度学习 - 第一周测验【中英】

[吴恩达课后测验]Course 1 - 神经网络和深度学习 - 第一周测验[中英] 第一周测验 - 深度学习简介 和"AI是新电力"相类似的说法是什么? [ ?]AI为我们的家庭和办公室的个人设备供电,类似于电力. [ ?]通过"智能电网",AI提供新的电能. [?]AI在计算机上运行,??并由电力驱动,但是它正在让以前的计算机不能做的事情变为可能. [★]就像100年前产生电能一样,AI正在改变很多的行业. 请注意: 吴恩达在视频中表达了同样的观点. 哪些是深度学

吴恩达深度学习课程第一课 — 神经网络与深度学习 — 第一周练习

课程一 - 神经网络和深度学习 第一周 - 深度学习简介 第 1 题 “人工智能是新电力”这个比喻指的是什么? A.人工智能为我们的家庭和办公室的个人设备供电,类似于电力. B.通过“智能电网”,人工智能正在传递新一波的电力. C.人工智能在计算机上运行,因此由电力驱动,但它让计算机做以前不可能做的事情. D.与100年前开始的电力类似,人工智能正在改变多个行业. 第 2 题 以下哪些是最近深度学习开始崛起的原因?(选2个答案) A.我们拥有了更多的计算能力 B.神经网络是一个崭新的领域. C.

Js无刷新添加新层,拖动DIV层可互换位置的JavaScript实现

<html><head><meta http-equiv="Content-Type" content="text/html; charset=gb2312" /><title>Js无刷新添加新层</title><style>body {margin:0px;padding:0px;font-size:12px;text-align:center;}body > div {text-ali