深度|余凯:基于深度学习的自动驾驶之路

2016年是一个非常重要的历史节点,标志着知行合一的人工智能系统将走向历史舞台。它改变的不光是下围棋,会改变很多很多事情。——余凯

在“2016年智能汽车•上海论坛”之“ADAS与自动驾驶趋势论坛”上,地平线机器人创始人兼CEO余凯博士发表了题为“基于深度学习的自动驾驶之路”的主题演讲。

这里有技术普及,有行业观察,还有对未来生活的美好展望。你想知道的有关深度学习和自动驾驶的一切,我们今天都告诉你。

1深度学习 · 诞生与成长

每个人都在讲大数据,就像每个中学生都在讲“性”,但是他们从来没有经历过。

深度学习从1957年被提出来,即通过感知模拟单个的神经元,到现在也跨越了60年的时间。对于单个神经元,我们把它从时间、空间纬度,以及它们之间关联的纬度去扩展,去构造各种复杂的神经网络,然后可以做很多的事情,这种创新还在继续。

为什么深度学习应该受到重视?我在很多场合分享我的四个观点。第一个观点是深度神经网络确实在结构和行为上面发挥着作用,比如我们讲的ALPHAGO用的神经网络,确实受到视觉神经系统的影响。我想从工程跟应用的观点来看,实际上更大的原因主要是后面几个,一个是特别适合大数据,一个是“端到端(End to End)”学习,第四个是灵活的建模。

为什么适合大数据?如果说传统的很多智能算法由于各种原因,例如计算复杂度的原因、统计的原因,数据规模到一定的时候不再增长,但是它的效果随着数据规模增长到一定程度会再增长。对于深度学习,我们在很多领域看到,就是不断持续地增加数据,它的效果持续变好。所以说,深度学习跟大数据的时代是有一个非常有意思的关系。

今天整个科技创新的生态是,每个人都在讲深度学习,包括很多的创意公司。这让我想起大概三年前的一个笑话,是讲大数据的。今天我们每个人都在讲大数据,就像每个中学生都在讲“性”,但是他们从来没有经历过。其实今天的深度学习是有一点这样的味道。第一,真正的它需要这么强大的计算器,需要这么多的数据。第二,它不是简单地要求把一些开源节流的系统拿出来用就好,需要深度学习解决你那个特殊的问题。需要有这个能力,不光是创新一次,而是要持续的创新,最终真正具有这样的能力。在这方面实践的公司或高校实际上是很少的。

2深度学习 · 智者VS改变家

如果只是一个感知层面的东西,顶多是安静地坐在那边的一个智者。一定需要决策,要有行动。

从2006年到2016年,深度学习的发展,实际上主要有三个驱动力。第一个驱动力是大数据——从互联网到移动互联网,海量的数据产生。第二个驱动力是半导体公司所提供的汹涌澎湃的计算,使得我们能够去处理这些海量数据。第三个驱动力就是模型跟算法,从一开始简单结构的深度神经网络到今天正在进行的一些进展。实际上这个进步没有停止。很多正在进行的一些最新进展,可能比我十年前所看到的还要激动人心。所以这里没有减缓下来,反而是在加速奔跑的过程。

2016年最值得关注的是ALPHAGO所代表的神经深度网络的最新进展。我们讲过去十年,无论是卷积神经网络还是其他的神经网络,实际上做的事情就是感知,它听清我们的语音里面的内容,看图像里面是什么东西。但是如果只是一个感知层面的东西,顶多是安静地坐在那边的一个智者,并没有改变世界。你怎么改变世界?一定需要决策,要有行动。

增强学习实际上是一个这样的机器学习框架,它是什么呢?它是把一个问题描述成一个决策系统跟环境的博弈,如果它采取行动的话会改变这个世界。这个世界会给它一个反馈,是一个胡萝卜还是一个大棒,说你做得好还是不好。同时这个世界也会发生改变,去传达给它一个状态的变化。如果我们描述这种简单的区别框架,如何来做一系列的决策去优化一个最终的目标?比如最终的目标是到年底投资的收益,一系列的抉择是今天买还是卖,买多少卖多少;讲围棋,最终要优化的是你怎么赢这盘棋,一系列不断地去下棋去做你的决策;在智能驾驶里,做一系列的决策是加速还是减速,是左还是右,每次因为你的改变,你周边车会看到你的改变而改变,所以这个状态有一个更新。最终一系列的决策优化,结果要的是从A地到B地的安全,高效到达目的地。

深度学习这么漂亮这么美有什么挑战?识别车、识别人,能不能识别印度街上的猴子。计算的平台,包括两个方面,一个是云端的计算平台,还有在前端的可控性,怎么样高效,怎么样低成本,怎么样能够做到实时。第三个是系统集成,包括不同的传感器,包括跟整个控制系统的连接,这是一个高度复杂的系统。

大家不怎么关注的一个问题是可控性。深度神经网络,非常高效,但有一个巨大的问题,就是如果出了什么问题你不知道怎么办,它看似是一个黑箱系统。这个问题非常重要,我记得在2005年的时候在西门子做气囊触发算法的研发,当时我们做出一个更加先进的算法,实际上如果事故发生了,我们可以得出结论它可以挽救30%的人命,但是最后系统没有采用,产品部门没有采用,因为它是一个相对黑箱的系统。但是一旦出现了事故在法庭上不能提供一个透明的解释,究竟是哪儿出了问题,这是第一点。第二点是它不知道出了问题以后怎么样去提升,所以这个东西是超出技术之外的一个问题,这个问题非常关键,它如果没有解决好,它可能会造成很大的问题。这个是传统的车厂会非常关注的,但是我们很多做算法的人只去追求准确性,在这方面不一定充分地认识到了。

3自动驾驶 · 造车为马

想像你骑着马在一个万马奔腾的场景里,马在微观层面的控制可以做得比人都好,但是你需要在任何一个时刻控制那匹马。

自动驾驶毫无疑问面临一个复杂的道路状况,尤其是如何适应中国的交通状况?我以前激励自己的同事,我说只要在五道口,如果能够解决自动驾驶的问题,那这个技术就是全世界的。去过北京的人可能知道五道口是什么地方。在欧洲、美国解决了自动驾驶的问题,在世界最大的汽车市场不一定管用。当然从现实层面来讲,你还需要去解决很多的问题,包括成本、可靠性、道德法规、安全性等等方面。

最开始大家的关注点无疑是谷歌和百度所采取的自动驾驶系统的架构。这个架构其实有一个特点,这个特点是从一开始就奔向无人驾驶,希望跨越很多的中间步骤。基于这样一个特点,高精地图在这时候扮演一个非常重要的角色。这个核心是说无人驾驶实际上顺着一条道往前走,这个相对来讲不是太难。难的是什么?是换档,难的是从主道到辅道,这些东西需要车精确知道它在哪个地方。所以高精地图会成为未来构建无人驾驶或者高度自动化驾驶技术的一个基础性设施。但问题是,我们离真正的高度自动驾驶或无人驾驶这个时间还比较远。

关于ADAS,我从来不叫无人驾驶,因为我觉得无人驾驶可能是一个非常虚无缥渺的事情。从产业发展、技术发展路径来讲我觉得应该严谨一点。像谷歌那样有无限的资源去做,希望一步达到无人驾驶这样一个道路,我觉得不光在技术上面有挑战,在商业上面也缺乏可行性。他们最近可能正在反思这方面的问题,一定是一步一步往前进展。

我在差不多一年多以前的时候接受媒体采访的时候,其实就有一个这样的比喻,未来我们需要去追求的这种自动驾驶的目标,它实际上是构建一个人车的关系,就像今天的人和马的关系一样,这个马在路面上会充分地感知环境,会非常及时高效地做判断。甚至我们可以想像你骑的马如果在一个万马奔腾的场景里面,马在微观层面的控制可以做得比人都好,但是你需要在任何一个时刻控制那匹马。所以我想,未来你的驾驶体验,从自动驾驶的角度,可能跟骑一匹马是差不多的一个感受。

4地平线 · 定义万物智能

互联网的事情归互联网公司,互联网之外物理公司我们得做一些有趣的事情。可以触摸到的物理世界,我们怎么让它们具有智能。

地平线在做什么?地平线的使命是“Define the brain of things”,现在我的兴趣和使命是,互联网的事情归互联网公司,互联网之外物理公司我们得做一些有趣的事情。这些事情是在我们的身边,是我们可以触摸到的物理世界的东西,我们怎么让它们具有智能。其中一个最重要的品类就是汽车。如何去构造一个大脑平台,它首先是一个软件,是一个基于深度神经网络的操作系统。因为我认为从今天开始我们需要关注的是,在所有这些硬件里,不仅仅是软件,我们不仅仅是让它能联网,首先是构造一个软件的操作系统,个人认为这个操作系统是基于深度神经网络的一个操作系统。第二,在底层支持深度神经网络的芯片的架构,这个设计应该跟过去很多芯片的设计完全不一样。

我们主要聚焦的是两个场景,一个是Smart Car,另外一个是Smart Home,沿着这两条线不断的往前演进。我刚才讲到一个观点,我们需要新的深度神经网络芯片的架构,我想对于这个认知,无论是我们还是其他公司的技术研发,其实都是支撑这个观点的。我想我们不光是未来使它的计算力要更加强大,但同时深度神经网络本身算法逻辑跟芯片的设计都会共同地向前进步。举个例子,我们讲(天河二号)是世界上最大的超级计算机,今天它的计算力毋庸置疑,但是它需要千万瓦级的功耗,但是人类大脑它的计算实际上跟(天河二号)是相当的,这里面不光是物理、原理型的功耗的设计,其实也包括逻辑方面算法的设计。所以最近深度神经网络在算法层面的一个研究的热点问题,实际上是怎么样去设计非常低功耗的硬件,可以实现深度神经网络结构。不一定是很高集成度的芯片就能实现非常复杂的深度神经网络。

地平线现在在关注什么东西?地平线关注的设计深度神经网络聚焦在什么呢?在200块钱人民币以内能够买到的计算资源,我们怎么去设计这个深度神经网络,用来支撑自动驾驶所需要的高精度的计算要求。所以说我关心的是今天市面上200块或者150块人民币能买到什么计算资源,我就专门为它开发深度神经网络算法;如果明年150块能买到的计算资源是什么,我们就专门为它开发。所以我们一定要去关注这个趋势。就是100块到200块之间的计算资源,然后我们要把这个算法做到极致。

转自:https://mp.weixin.qq.com/s?__biz=MzA5MjM0MDQ1NA==&mid=402209186&idx=1&sn=ffb67895bed3a825558cfa7f749b9f0b&scene=1&srcid=0325BBxfyBiJaPnSOCPMkFFZ&pass_ticket=jgroxcX0DYYU8QipZcGSIjoYhHoYUd%2F4rMurDbq96PEGYEm6SUU1NZD0iLSJbZ22#rd

时间: 2024-10-11 22:29:32

深度|余凯:基于深度学习的自动驾驶之路的相关文章

国内首次深度学习自动驾驶,阿波罗不再只是计划:来自百度开发者中心的观察报告

导读:从世界上首个可在真实道路上实现端到端模式的高级自动驾驶模型Road Hackers,到百度和汽车零部件厂商合作开发的车载可计算平台 BCU,从诞生之初就备受关注的"阿波罗计划"逐渐揭开了它神秘的面纱.而正如百度智能汽车事业部总经理顾维灏在主题演讲中所说,这些,不过仍是阿波罗计划的凤毛麟角. 2017年6月8日,上海 CES Asia 现场. 作为新智元特派员,我置身于上海新国际展览中心 N3 智能驾驶主题馆,被众多汽车品牌的未来炫酷车型所包围.一瞬间,仿佛回到了一个多月前同样在这

首次路测事故一个月后,全球自动驾驶企业的众生相

2018年虽然刚过了几个月,自动驾驶领域却是风波不断. 在原本的计划中,美国加州将在4月份开放完全自动驾驶路测的申请,中国也将在五月份开始施行自动驾驶路测管理规范.看起来一切都是顺风顺水,双手从方向盘上解放出来的日子已经在向我们招手. 让人始料未及的是,3月18日,Uber在亚利桑那州发生了首桩自动驾驶路测事故致死事件.自动驾驶最令人担心的事情发生了,虽然我们都知道任何一种驾驶方式都不能完全避免事故,可事故来临时,依然不会减少一丁点舆论和恐慌.这样一来,自动驾驶原本光明的未来可能因此而染上一丝阴

线控性能比拼,MKZ与CRV作为自动驾驶开发平台的全面测评

全球自动驾驶创业公司最主流的测试开发用车是林肯MKZ,这是因为其高性能高精度的线控能力表现,易于使用逆向工程实现改装,以及存在成熟的线控改造服务提供商AS和Dataspeed,共同为自动驾驶初创及辅助驾驶研发提供了稳定易用的开发平台. 但MKZ同样也存在问题,如车价和改装成本较高,并且现车在中国一车难求. 那我们是否有可能找到一个与线控改装MKZ性能匹敌,并且成本更低的线控改装乘用车解决方案,以降低整个行业,包括自动驾驶初创,研究机构,高校等的进入门槛,来促进自动驾驶的发展和落地呢? 在改装并测

斯坦福大学公开课机器学习: neural networks learning - autonomous driving example(通过神经网络实现自动驾驶实例)

使用神经网络来实现自动驾驶,也就是说使汽车通过学习来自己驾驶. 下图是通过神经网络学习实现自动驾驶的图例讲解: 左下角是汽车所看到的前方的路况图像.左上图,可以看到一条水平的菜单栏(数字4所指示方向),白亮的区段显示的就是人类驾驶者选择的方向.而最右端则对应向右急转的操作(箭头3),中心稍微向左一点的位置(箭头2),则表示在这一点上人类驾驶者的操作是慢慢的向左拐.这幅图的第二部分(箭头5)对应的就是学习算法选出的行驶方向,类似的白亮的区段(箭头6)显示的就是神经网络在这里选择的行驶方向是稍微的左

基于深度学习的目标检测研究进展

前言 开始本文内容之前,我们先来看一下上边左侧的这张图,从图中你看到了什么物体?他们在什么位置?这还不简单,图中有一个猫和一个人,具体的位置就是上图右侧图像两个边框(bounding-box)所在的位置.其实刚刚的这个过程就是目标检测,目标检测就是"给定一张图像或者视频帧,找出其中所有目标的位置,并给出每个目标的具体类别". 目标检测对于人来说是再简单不过的任务,但是对于计算机来说,它看到的是一些值为0~255的数组,因而很难直接得到图像中有人或者猫这种高层语义概念,也不清楚目标出现在

TensorFlow实现基于深度学习的图像补全

目录 ■ 简介 ■ 第一步:将图像理解为一个概率分布的样本 你是怎样补全缺失信息的呢? 但是怎样着手统计呢?这些都是图像啊. 那么我们怎样补全图像?  ■ 第二步:快速生成假图像 在未知概率分布情况下,学习生成新样本 [ML-Heavy] 生成对抗网络(Generative Adversarial Net, GAN) 的架构 使用G(z)生成伪图像 [ML-Heavy] 训练DCGAN 现有的GAN和DCGAN实现 [ML-Heavy] 在Tensorflow上构建DCGANs 在图片集上跑DC

深度学习与计算机视觉(12)_tensorflow实现基于深度学习的图像补全

原文地址:Image Completion with Deep Learning in TensorFlow by Brandon Amos 原文翻译与校对:@MOLLY && 寒小阳 ([email protected]) 时间:2017年4月. 出处:http://blog.csdn.net/han_xiaoyang/article/details/52665396 声明:版权所有,转载请联系作者并注明出 简介 第一步:将图像理解为一个概率分布的样本 你是怎样补全缺失信息的呢? 但是怎

回望2017,基于深度学习的NLP研究大盘点

回望2017,基于深度学习的NLP研究大盘点 雷锋网 百家号01-0110:31 雷锋网 AI 科技评论按:本文是一篇发布于 tryolabs 的文章,作者 Javier Couto 针对 2017 年基于深度学习的自然语言处理研究进行了大盘点.雷锋网 AI 科技评论根据原文进行了编译. 在过去的几年里,深度学习(DL)架构和算法在诸如图像识别和语音处理等领域取得了世人瞩目的进步.然而在最开始的时候,深度学习在自然语言处理(Natural Language Processing, NLP)领域的

【OCR技术系列之四】基于深度学习的文字识别(3755个汉字)

上一篇提到文字数据集的合成,现在我们手头上已经得到了3755个汉字(一级字库)的印刷体图像数据集,我们可以利用它们进行接下来的3755个汉字的识别系统的搭建.用深度学习做文字识别,用的网络当然是CNN,那具体使用哪个经典网络?VGG?RESNET?还是其他?我想了下,越深的网络训练得到的模型应该会更好,但是想到训练的难度以及以后线上部署时预测的速度,我觉得首先建立一个比较浅的网络(基于LeNet的改进)做基本的文字识别,然后再根据项目需求,再尝试其他的网络结构.这次任务所使用的深度学习框架是强大