Neural Networks: Representation神经网络

Motivations

Non-linear Hypotheses

在这节课和接下来的课程中我将给大家介绍一种叫“神经网络”(Neural Network) 的机器学习算法我们将首先讨论神经网络的表层结构 在后续课程中再来具体讨论的学习算法 神经网络实际上是一个相对古老的算法并且后来沉寂了一段时间不过到了现在它又成为许多机器学习问题的首选技术不过我们为什么还需要这个学习算法？我们已经有线性回归和逻辑回归算法了为什么还要研究神经网络？为了阐述研究神经网络算法的目的我们首先来看几个 机器学习问题作为例子这几个问题的解决都依赖于研究复杂的非线性分类器

考虑这个监督学习分类的问题我们已经有了对应的训练集如果利用逻辑回归算法来解决这个问题首先需要构造一个包含很多非线性项的逻辑回归函数这里g仍是s型函数 (即f(x)=1/(1+e^-x) ) 我们能让函数包含很多像这样的多项式项事实上当多项式项数足够多时那么可能你能够得到一个分开正样本和负样本的分界线当只有两项时比如 x1 x2 这种方法确实能得到不错的结果因为你可以把x1和x2的所有组合都包含到多项式中但是对于许多复杂的机器学习问题涉及的项往往多于两项我们之前已经讨论过房价预测的问题假设现在要处理的是关于住房的分类问题而不是一个回归问题假设你对一栋房子的多方面特点都有所了解你想预测房子在未来半年内能被卖出去的概率这是一个分类问题我们可以想出很多特征对于不同的房子有可能就有上百个特征对于这类问题如果要包含所有的二次项即使只包含二项式或多项式的计算最终的多项式也可能有很多项比如x1^2 x1x2 x1x3 x1x4 直到x1x100 还有x2^2 x2x3 等等很多项因此即使只考虑二阶项也就是说两个项的乘积 x1乘以x1 等等类似于此的项那么在n=100的情况下最终也有5000个二次项而且渐渐地随着特征个数n的增加二次项的个数大约以n^2的量级增长其中 n是原始项的个数即我们之前说过的x1到x100这些项事实上二次项的个数大约是(n^2)/2 因此要包含所有的二次项是很困难的所以这可能不是一个好的做法而且由于项数过多最后的结果很有可能是过拟合的此外在处理这么多项时也存在运算量过大的问题当然你也可以试试只包含上边这些二次项的子集例如我们只考虑 x1^2 x2^2 x3^2直到 x100^2 这些项这样就可以将二次项的数量大幅度减少减少到只有100个二次项但是由于忽略了太多相关项在处理类似左上角的数据时不可能得到理想的结果实际上如果只考虑x1的平方到x100的平方这一百个二次项那么你可能会拟合出一些特别的假设比如可能拟合出一个椭圆状的曲线但是肯定不能拟合出像左上角这个数据集的分界线所以5000个二次项看起来已经很多了而现在假设包括三次项或者三阶项例如x1 x2 x3 x1^2 x2 x10 x11 x17等等类似的三次项有很多很多事实上三次项的个数是以n^3的量级增加当n=100时可以计算出来最后能得到大概17000个三次项所以当初始特征个数n增大时这些高阶多项式项数将以几何级数递增特征空间也随之急剧膨胀当特征个数n很大时如果找出附加项来建立一些分类器这并不是一个好做法对于许多实际的机器学习问题特征个数n是很大的举个例子

关于计算机视觉中的一个问题假设你想要使用机器学习算法来训练一个分类器使它检测一个图像来判断图像是否为一辆汽车很多人可能会好奇这对计算机视觉来说有什么难的当我们自己看这幅图像时里面有什么是一目了然的事情你肯定会很奇怪为什么学习算法竟可能会不知道图像是什么为了解答这个疑问我们取出这幅图片中的一小部分将其放大比如图中这个红色方框内的部分结果表明当人眼看到一辆汽车时计算机实际上看到的却是这个一个数据矩阵或像这种格网它们表示了像素强度值告诉我们图像中每个像素的亮度值因此对于计算机视觉来说问题就变成了根据这个像素点亮度矩阵来告诉我们这些数值代表一个汽车门把手具体而言当用机器学习算法构造一个汽车识别器时我们要想出一个带标签的样本集其中一些样本是各类汽车另一部分样本是其他任何东西将这个样本集输入给学习算法以训练出一个分类器训练完毕后我们输入一幅新的图片让分类器判定 “这是什么东西？” 理想情况下分类器能识别出这是一辆汽车为了理解引入非线性分类器的必要性我们从学习算法的训练样本中挑出一些汽车图片和一些非汽车图片让我们从其中每幅图片中挑出一组像素点这是像素点1的位置这是像素点2的位置在坐标系中标出这幅汽车的位置在某一点上车的位置取决于像素点1和像素点2的亮度让我们用同样的方法标出其他图片中汽车的位置然后我们再举一个关于汽车的不同的例子观察这两个相同的像素位置这幅图片中像素1有一个像素强度像素2也有一个不同的像素强度所以在这幅图中它们两个处于不同的位置我们继续画上两个非汽车样本这个不是汽车这个也不是汽车然后我们继续在坐标系中画上更多的新样本用‘‘+"表示汽车图片用“-”表示非汽车图片我们将发现汽车样本和非汽车样本分布在坐标系中的不同区域因此我们现在需要一个非线性分类器来尽量分开这两类样本这个分类问题中特征空间的维数是多少？假设我们用50*50像素的图片我们的图片已经很小了长宽只各有50个像素但这依然是2500个像素点因此我们的特征向量的元素数量 N=2500 特征向量X 包含了所有像素点的亮度值这是像素点1的亮度这是像素点2的亮度如此类推直到最后一个像素点的亮度对于典型的计算机图片表示方法如果存储的是每个像素点的灰度值 (色彩的强烈程度) 那么每个元素的值应该在0到255之间因此这个问题中n=2500 但是这只是使用灰度图片的情况如果我们用的是RGB彩色图像每个像素点包含红、绿、蓝三个子像素那么n=7500 因此如果我们非要通过包含所有的二次项来解决这个非线性问题那么这就是式子中的所有条件 xi*xj 连同开始的2500像素总共大约有300万个这数字大得有点离谱了对于每个样本来说要发现并表示所有这300万个项这计算成本太高了因此只是简单的增加二次项或者三次项之类的逻辑回归算法并不是一个解决复杂非线性问题的好办法因为当n很大时将会产生非常多的特征项

在接下来的视频课程中我将为大家讲解神经网络 它在解决复杂的非线性分类问题上被证明是是一种好得多的算法即使你输入特征空间或输入的特征维数n很大也能轻松搞定

在后面的课程中我将给大家展示一些有趣的视频 视频中讲述了神经网络在历史上的重要应用我也希望这些我们即将看到的视频能给你的学习过程带来一些乐趣 ^ ^

Neurons and the Brain神经元和大脑

神经网络是一种很古老的算法它最初产生的目的是 制造能模拟大脑的机器 在这门课中我将向你们介绍神经网络因为它能很好地解决不同的机器学习问题而不只因为它们在逻辑上行得通在本节课的视频中告诉你们一些神经网络的背景知识 由此我们能知道可以用它们来做什么不管是将其应用到现代的机器学习问题上还是应用到那些你可能会感兴趣的问题中也许这一伟大的人工智能梦想在未来能制造出真正的智能机器另外我们还将讲解神经网络是怎么涉及这些问题的

神经网络产生的原因是人们想尝试设计出 模仿大脑的算法 从某种意义上说如果我们想要建立学习系统 那为什么不去模仿我们所认识的最神奇的学习机器—— 人类的大脑呢神经网络逐渐兴起于二十世纪八九十年代应用得非常广泛但由于各种原因在90年代的后期应用减少了但是最近神经网络又东山再起了其中一个原因是神经网络是计算量有些偏大的算法 然而大概由于近些年计算机的运行速度变快才足以真正运行起大规模的神经网络正是由于这个原因和其他一些我们后面会讨论到的技术因素如今的神经网络对于许多应用来说是最先进的技术

当你想模拟大脑时是指想制造出与人类大脑作用效果相同的机器对吧？大脑可以学会去以看而不是听的方式处理图像学会处理我们的触觉我们能学习数学学着做微积分而且大脑能处理各种不同的令人惊奇的事情似乎如果你想要模仿它你得写很多不同的软件来模拟所有大脑告诉我们的这些五花八门的奇妙的事情不过能不能假设大脑做所有这些不同事情的方法不需要用上千个不同的程序去实现相反的大脑处理的方法只需要一个单一的学习算法就可以了？尽管这只是一个假设

不过让我和你分享一些这方面的证据大脑的这一部分这一小片红色区域是你的听觉皮层 你现在正在理解我的话这靠的是耳朵耳朵接收到声音信号并把声音信号传递给你的听觉皮层正因如此你才能明白我的话

神经系统科学家做了下面这个有趣的实验把耳朵到听觉皮层的神经切断在这种情况下将其重新接到一个动物的大脑上这样从眼睛到视神经的信号最终将传到听觉皮层 如果这样做了那么结果表明 听觉皮层将会学会“看” 这里“看”代表了我们所知道的每层含义所以如果你对动物这样做那么动物就可以完成视觉辨别任务它们可以看图像并根据图像做出适当的决定它们正是通过脑组织中的这个部分完成的

来看另一个例子这块红色的脑组织是你的躯体感觉皮层 这是你用来处理触觉的如果你做一个和刚才类似的重接实验那么躯体感觉皮层也能学会”看“ 这个实验和其它一些类似的实验被称为神经重接实验从这个意义上说如果人体有同一块脑组织可以处理光、声或触觉信号 那么也许存在一种学习算法 可以同时处理视觉、听觉和触觉而不是需要运行上千个不同的程序或者上千个不同的算法来做这些大脑所完成的成千上万的美好事情也许我们需要做的就是找出一些近似的或实际的大脑学习算法然后实现它大脑通过自学掌握如何处理这些不同类型的数据在很大的程度上可以猜想如果我们把几乎任何一种传感器 接入到大脑的几乎任何一个部位的话大脑就会学会处理它

下面再举几个例子左上角的这张图是用舌头学会“看”的一个例子它的原理是这实际上是一个名为BrainPort的系统它现在正在FDA (美国食品和药物管理局) 的临床试验阶段它能帮助失明人士看见事物它的原理是你在前额上带一个灰度摄像头面朝前它就能获取你面前事物的低分辨率的灰度图像你连一根线到舌头上安装的电极阵列上那么每个像素都被映射到你舌头的某个位置上可能电压值高的点对应一个暗像素电压值低的点对应于亮像素即使依靠它现在的功能使用这种系统就能让你我在几十分钟里就学会用我们的舌头“看”东西这是第二个例子关于人体回声定位或者说人体声纳你有两种方法可以实现你可以弹响指或者咂舌头这个我做不好不过现在有失明人士确实在学校里接受这样的培训并学会解读从环境反弹回来的声波模式—这就是声纳如果你搜索 YouTube之后就会发现有些视频讲述了一个令人称奇的孩子他因为癌症眼球惨遭移除虽然失去了眼球但是通过打响指他可以四处走动而不撞到任何东西他能滑滑板他可以将篮球投入篮框中注意这是一个没有眼球的孩子第三个例子是触觉皮带如果你把它戴在腰上蜂鸣器会响而且总是朝向北时发出嗡嗡声它可以使人拥有方向感用类似于鸟类感知方向的方式还有一些离奇的例子如果你在青蛙身上插入第三只眼青蛙也能学会使用那只眼睛因此这将会非常令人惊奇如果你能把几乎任何传感器接入到大脑中大脑的学习算法就能找出学习数据的方法并处理这些数据从某种意义上来说如果我们能找出大脑的学习算法然后在计算机上执行大脑学习算法或与之相似的算法也许这将是我们向人工智能迈进做出的最好的尝试人工智能的梦想就是有一天能制造出真正的智能机器当然我不是教神经网络的介绍它只因为它可能为我们打开一扇进入遥远的人工智能梦的窗户对于我个人来说它也是我研究生涯中致力于的一个项目但我在这节课中讲授神经网络的原因主要是对于现代机器学习应用它是最有效的技术方法

因此在接下来的一些课程中我们将开始深入到 神经网络的技术细节 那么你就可以将它们应用到现代机器学习的应用中并利用它们很好地解决问题但对我来说使我兴奋的原因之一就是它或许能给我们一些启示让我们知道当我们在思考未来有什么样的算法能以与人类相似的方式学习时我们能做些什么

Neural Networks

Model Representation I

在这个视频中我想开始向你介绍我们该如何表示神经网络换句话说当我们在运用神经网络时我们该如何表示我们的假设或模型神经网络是在模仿大脑中的神经元或者神经网络时发明的因此要解释如何表示模型假设我们先来看单个神经元在大脑中是什么样的我们的大脑中充满了这样的神经元神经元是大脑中的细胞其中有两点值得我们注意一是神经元有像这样的细胞主体二是神经元有一定数量的输入神经这些输入神经叫做树突可以把它们想象成输入电线它们接收来自其他神经元的信息神经元的输出神经叫做轴突这些输出神经是用来给其他神经元传递信号或者传送信息的简而言之神经元是一个计算单元它从输入神经接受一定数目的信息并做一些计算然后将结果通过它的轴突传送到其他节点或者大脑中的其他神经元下面是一组神经元的示意图神经元利用微弱的电流进行沟通这些弱电流也称作动作电位其实就是一些微弱的电流所以如果神经元想要传递一个消息它就会就通过它的轴突发送一段微弱电流给其他神经元这就是轴突这里是一条连接到输入神经或者连接另一个神经元树突的神经接下来这个神经元接收这条消息做一些计算它有可能会反过来将在轴突上的自己的消息传给其他神经元这就是所有人类思考的模型：我们的神经元把自己的收到的消息进行计算并向其他神经元传递消息顺便说一下这也是我们的感觉和肌肉运转的原理如果你想活动一块肌肉就会触发一个神经元给你的肌肉发送脉冲并引起你的肌肉收缩如果一些感官比如说眼睛想要给大脑传递一个消息那么它就像这样发送电脉冲给大脑的

在一个神经网络里或者说在我们在电脑上实现的人工神经网络里我们将使用一个非常简单的模型来模拟神经元的工作我们将神经元模拟成一个逻辑单元当我画一个这样的黄色圆圈时你应该把它想象成作用类似于神经元的东西然后我们通过它的树突或者说它的输入神经传递给它一些信息然后神经元做一些计算并通过它的输出神经即它的轴突输出计算结果当我画一个像这样的图表时就表示对h(x)的计算 h(x)等于1除以 1加e的负θ转置乘以 x 通常 x和θ 是我们的参数向量这是一个简单的模型甚至说是一个过于简单的模拟神经元的模型它被输入 x1 x2和 x3 然后输出一些类似这样的结果当我绘制一个神经网络时通常我只绘制输入节点 x1 x2 x3 但有时也可以这样做：我增加一个额外的节点 x0 这个 x0 节点有时也被称作偏置单位或偏置神经元但因为 x0 总是等于1 所以有时候我会画出它有时我不会画出这取决于它是否对例子有利现在来讨论最后一个关于神经网络的术语有时我们会说这是一个神经元一个有s型函数或者逻辑函数作为激励函数的人工神经元在神经网络术语中激励函数只是对类似非线性函数g(z)的另一个术语称呼 g(z)等于 1除以1 加e的-z次方到目前为止我一直称θ为模型的参数以后大概会继续将这个术语与 “参数”相对应而不是与神经网络在关于神经网络的文献里有时你可能会看到人们谈论一个模型的权重权重其实和模型的参数是一样的东西在视频中我会继续使用“参数”这个术语但有时你可能听到别人用“权重”这个术语这个小圈代表一个单一的神经元神经网络其实就是这些不同的神经元组合在一起的集合具体来说这里是我们的输入单元 x1 x2和 x3 再说一次有时也可以画上额外的节点 x0 我把 x0 画在这了这里有 3个神经元我在里面写了a(2)1 a(2)2 和a(2)3 然后再次说明我们可以在这里添加一个a0 和一个额外的偏度单元它的值永远是1 最后我们在最后一层有第三个节点正是这第三个节点输出假设函数h(x)计算的结果再多说一点关于神经网络的术语网络中的第一层也被称为输入层因为我们在这一层输入我们的特征项 x1 x2 x3 最后一层也称为输出层因为这一层的神经元—我指的这个输出假设的最终计算结果中间的两层也被称作隐藏层隐藏层不是一个很合适的术语但是直觉上我们知道在监督学习中你能看到输入也能看到正确的输出而隐藏层的值你在训练集里是看不到的它的值不是 x 也不是y 所以我们叫它隐藏层稍后我们会看到神经网络可以有不止一个的隐藏层但在这个例子中我们有一个输入层—第1层一个隐藏层— 第2层和一个输出层—第3层但实际上任何非输入层或非输出层的层就被称为隐藏层接下来我希望你们明白神经网络究竟在做什么让我们逐步分析这个图表所呈现的计算步骤为了解释这个神经网络具体的计算步骤这里还有些记号要解释我要使用a上标(j) 下标i表示第j层的第i个神经元或单元具体来说这里 a上标(2) 下标1 表示第2层的第一个激励即隐藏层的第一个激励所谓激励(activation) 是指由一个具体神经元读入计算并输出的值此外我们的神经网络被这些矩阵参数化 θ上标(j) 它将成为一个波矩阵控制着从一层比如说从第一层到第二层或者第二层到第三层的作用所以这就是这张图所表示的计算这里的第一个隐藏单元是这样计算它的值的： a(2)1等于 s函数或者说s激励函数也叫做逻辑激励函数作用在这种输入的线性组合上的结果第二个隐藏单元等于s函数作用在这个线性组合上的值同样对于第三个隐藏的单元它是通过这个公式计算的在这里我们有三个输入单元和三个隐藏单元这样一来参数矩阵控制了我们来自三个输入单元三个隐藏单元的映射因此θ1的维数将变成3 θ1将变成一个 3乘4维的矩阵更一般的如果一个网络在第j 层有sj个单元在j+1层有 sj+1个单元那么矩阵θ(j) 即控制第j层到第j+1层映射的矩阵的维度为s(j+1) * (sj+1) 这里要搞清楚这个是s下标j+1 而这个是 s下标j 然后整体加上1 整体加1 明白了吗所以θ(j)的维度是 s(j+1)行 sj+1列这里sj+1 当中的1 不是下标的一部分以上我们讨论了三个隐藏单位是怎么计算它们的值最后在输出层我们还有一个单元它计算 h(x) 这个也可以写成a(3)1 就等于后面这块注意到我这里写了个上标2 因为θ上标2 是参数矩阵或着说是权重矩阵该矩阵控制从第二层即隐藏层的3个单位到第三层的一个单元即输出单元的映射总之以上我们展示了像这样一张图是怎样定义一个人工神经网络的这个神经网络定义了函数h：从输入 x 到输出y的映射我将这些假设的参数记为大写的θ 这样一来不同的θ 对应了不同的假设所以我们有不同的函数比如说从 x到y的映射以上就是我们怎么从数学上定义神经网络的假设在接下来的视频中我想要做的就是让你对这些假设的作用有更深入的理解并且讲解几个例子然后谈谈如何有效的计算它们

Model Representation II

在前面的视频里我们解释了怎样用数学来定义或者计算神经网络算法的假设在这段视频中我想告诉你如何高效地进行计算并展示一个向量化的实现方法更重要的是我想让你们明白为什么这样表示神经网络是一个好的方法并且明白它们怎样帮助我们学习复杂的非线性假设

以这个神经网络为例以前我们说计算出假设输出的步骤是左边的这些方程通过这些方程我们计算出三个隐藏单元的激励值然后利用这些值来计算假设h(x)的最终输出接下来我要定义一些额外的项因此这里我画线的项把它定义为 z上标(2) 下标1 这样一来就有了 a(2)1 这个项等于 g(z(2)1) 另外顺便提一下这些上标2 的意思是在z(2)和a(2)中括号中的 2表示这些值与第二层相关即与神经网络中的隐藏层有关接下来这里的项我将同样定义为 z(2)2 最后这个我画线的项我把它定义为z(2)3 这样我们有a(2)3 等于 g(z(2)3) 所以这些z值都是一个线性组合是输入值x0 x1 x2 x3的加权线性组合它将会进入一个特定的神经元现在看一下这一堆数字你可能会注意到这块对应了矩阵向量运算类似于矩阵向量乘法 x1乘以向量x 观察到一点我们就能将神经网络的计算向量化了具体而言我们定义特征向量x 为x0 x1 x2 x3组成的向量其中x0 仍然等于1 并定义 z(2)为这些z值组成的向量即z(2)1 z(2)2 z(2)3 注意在这里 z(2) 是一个三维向量下面我们可以这样向量化a(2)1 a(2)2 a(2)3的计算我们只用两个步骤 z(2)等于θ(1) 乘以x 这样就有了向量z(2) 然后 a(2)等于 g(z(2)) 需要明白这里的z(2)是三维向量并且 a(2)也是一个三维向量因此这里的激励g 将s函数逐元素作用于 z(2)中的每个元素顺便说一下为了让我们的符号和接下来的工作相一致在输入层虽然我们有输入x 但我们还可以把这些想成是第一层的激励所以我可以定义a(1) 等于x 因此 a(1)就是一个向量了我就可以把这里的x 替换成a(1) z(2)就等于θ(1)乘以a(1) 这都是通过在输入层定义a(1)做到的现在就我目前所写的我得到了 a1 a2 a3的值并且我应该把上标加上去但我还需要一个值我同样需要这个a(2)0 它对应于隐藏层的得到这个输出的偏置单元当然这里也有一个偏置单元我只是没有画出来为了注意这额外的偏置单元接下来我们要额外加上一个a0 上标(2) 它等于1 这样一来现在 a(2)就是一个四维的特征向量因为我们刚添加了这个额外的 a0 它等于 1并且它是隐藏层的一个偏置单元最后为了计算假设的实际输出值我们只需要计算 z(3) z(3)等于这里我画线的项这个方框里的项就是z(3) z(3)等于θ(2) 乘以a(2) 最后假设输出为h(x) 它等于a(3) a(3)是输出层唯一的单元它是一个实数你可以写成a(3) 或a(3)1 这就是g(z(3)) 这个计算h(x)的过程也称为前向传播(forward propagation) 这样命名是因为我们从输入层的激励开始然后进行前向传播给隐藏层并计算隐藏层的激励然后我们继续前向传播并计算输出层的激励这个从输入层到隐藏层再到输出层依次计算激励的过程叫前向传播我们刚刚得到了这一过程的向量化实现方法如果你使用右边这些公式实现它就会得到一个有效的计算h(x) 的方法这种前向传播的角度也可以帮助我们了解神经网络的原理和它为什么能够帮助我们学习非线性假设看一下这个神经网络我会暂时盖住图片的左边部分如果你观察图中剩下的部分这看起来很像逻辑回归在逻辑回归中我们用这个节点即这个逻辑回归单元来预测 h(x)的值具体来说假设输出的 h(x)将等于s型激励函数 g(θ0 xa0 +θ1xa1 +θ2xa2 +θ3xa3) 其中 a1 a2 a3 由这三个单元给出为了和我之前的定义保持一致需要在这里还有这些地方都填上上标(2) 同样还要加上这些下标1 因为我只有一个输出单元但如果你只观察蓝色的部分这看起来非常像标准的逻辑回归模型不同之处在于我现在用的是大写的θ 而不是小写的θ 这样做完我们只得到了逻辑回归但是逻辑回归的输入特征值是通过隐藏层计算的再说一遍神经网络所做的就像逻辑回归但是它不是使用 x1 x2 x3作为输入特征而是用a1 a2 a3作为新的输入特征同样我们需要把上标加上来和之前的记号保持一致有趣的是特征项a1 a2 a3它们是作为输入的函数来学习的具体来说就是从第一层映射到第二层的函数这个函数由其他一组参数θ(1)决定所以在神经网络中它没有用输入特征x1 x2 x3 来训练逻辑回归而是自己训练逻辑回归的输入 a1 a2 a3 可以想象如果在θ1中选择不同的参数有时可以学习到一些很有趣和复杂的特征就可以得到一个更好的假设比使用原始输入 x1 x2或x3时得到的假设更好你也可以选择多项式项 x1 x2 x3等作为输入项但这个算法可以灵活地快速学习任意的特征项把这些a1 a2 a3 输入这个最后的单元实际上它是逻辑回归我觉得现在描述的这个例子有点高端所以我不知道你是否能理解这个具有更复杂特征项的神经网络但是如果你没理解在接下来的两个视频里我会讲解一个具体的例子它描述了怎样用神经网络如何利用这个隐藏层计算更复杂的特征并输入到最后的输出层以及为什么这样就可以学习更复杂的假设所以如果我现在讲的你没理解请继续观看接下来的两个视频希望它们提供的例子能够让你更加理解神经网络但有一点你还可以用其他类型的图来表示神经网络神经网络中神经元相连接的方式称为神经网络的架构所以说架构是指不同的神经元是如何相互连接的这里有一个不同的神经网络架构的例子你可以意识到这个第二层是如何工作的在这里我们有三个隐藏单元它们根据输入层计算一个复杂的函数然后第三层可以将第二层训练出的特征项作为输入并在第三层计算一些更复杂的函数这样在你到达输出层之前即第四层就可以利用第三层训练出的更复杂的特征项作为输入以此得到非常有趣的非线性假设顺便说一下在这样的网络里第一层被称为输入层第四层仍然是我们的输出层这个网络有两个隐藏层所以任何一个不是输入层或输出层的都被称为隐藏层我希望从这个视频中你已经大致理解前向传播在神经网络里的工作原理：从输入层的激励开始向前传播到第一隐藏层然后传播到第二隐藏层最终到达输出层并且你也知道了如何向量化这些计算我发现这个视频里我讲了某些层是如何计算前面层的复杂特征项我意识到这可能仍然有点抽象显得比较高端所以我将在接下来的两个视频中讨论具体的例子它描述了怎样用神经网络来计算输入的非线性函数希望能使你更好的理解从神经网络中得到的复杂非线性假设

Applications应用

Examples and Intuitions I

在接下来两节视频中我要通过讲解一个具体的例子来解释神经网络是如何计算关于输入的复杂的非线性函数希望这个例子可以让你了解为什么神经网络可以用来学习复杂的非线性假设考虑下面的问题我们有二进制的输入特征 x1 x2 要么取0 要么取1 所以x1和x2只能有两种取值在这个例子中我只画出了两个正样本和两个负样本但你可以认为这是一个更复杂的学习问题的简化版本在这个复杂问题中我们可能在右上角有一堆正样本在左下方有一堆用圆圈表示的负样本我们想要学习一种非线性的决策边界来区分正负样本那么神经网络是如何做到的呢？为了描述方便我不用右边这个例子我用左边这个例子这样更容易说明具体来讲这里需要计算的是目标函数y 等于x1异或x2 或者 y也可以等于 x1 异或非 x2 其中异或非表示 x1异或x2后取反 X1异或X2 为真当且仅当这两个值 X1或者X2中有且仅有一个为1 如果我用XNOR作为例子比用NOT作为例子结果会好一些但这两个其实是相同的这就意味着在x1 异或x2后再取反即当它们同时为真或者同时为假的时候我们将获得 y等于1 y为0的结果如果它们中仅有一个为真 y则为0 我们想要知道是否能找到一个神经网络模型来拟合这种训练集为了建立能拟合XNOR运算的神经网络我们先讲解一个稍微简单的神经网络它拟合了“且运算” 假设我们有输入x1和 x2 并且都是二进制即要么为0要么为1 我们的目标函数y正如你所知道的等于x1且x2 这是一个逻辑与那么我们怎样得到一个具有单个神经元的神经网络来计算这个逻辑与呢为了做到这一点我也需要画出偏置单元即这个里面有个+1的单元现在让我给这个网络分配一些权重或参数我在图上写出这些参数这里是-30 正20 正20 即我给 x0前面的系数赋值为-30. 这个正1会作为这个单元的值关于20的参数值且x1乘以+20 以及x2乘以+20 都是这个单元的输入所以我的假设?(x) 等于 g(-30 + 20x1 + 20x2) 在图上画出这些参数和权重是很方便很直观的其实在这幅神经网络图中这个-30 其实是θ(1)10 这个是 θ(1)11 这是 θ(1)12 但把它想成这些边的权重会更容易理解让我们来看看这个小神经元是怎样计算的回忆一下 s型激励函数g(z)看起来是这样的它从0开始光滑上升穿过0.5 渐进到1. 我们给出一些坐标如果横轴值 z等于4.6 则 S形函数等于0.99 这是非常接近 1的并且由于对称性如果z为-4.6 S形函数等于0.01 非常接近0 让我们来看看四种可能的输入值 x1和x2的四种可能输入看看我们的假设在各种情况下的输出如果X1和X2均为 0 那么你看看这个如果 x1和x2都等于为0 则假设会输出g(-30) g(-30)在图的很左边的地方非常接近于0 如果x1等于0且 x2等于1 那么此公式等于 g关于 -10取值也在很左边的位置所以也是非常接近0 这个也是g(-10) 也就是说如果x1 等于1并且 x2等于0 这就是-30加20等于-10 最后如??果 x1等于1 x2等于 1 那么这等于 -30 +20 +20 所以这是取+10时非常接近1 如果你看看在这一列这就是逻辑“与”的计算结果所以这里得到的h h关于x取值近似等于x1和x2的与运算的值换句话说假设输出 1 当且仅当 x1 x2 都等于1 所以通过写出这张真值表我们就弄清楚了神经网络计算出的逻辑函数这里的神经网络实现了或函数的功能接下来我告诉你是怎么看出来的如果你把假设写出来会发现它等于 g关于-10 +20x1 +20x2的取值如果把这些值都填上会发现这是g(-10) 约等于0 这是g(10) 约等于1 这个也约等于1 这些数字本质上就是逻辑或运算得到的值所以我希望通过这个例子你现在明白了神经网络里单个的神经元在计算如AND和OR逻辑运算时是怎样发挥作用的在接下来的视频中我们将继续讲解一个更复杂的例子我们将告诉你一个多层的神经网络怎样被用于计算更复杂的函数如 XOR 函数或 XNOR 函数

Examples and Intuitions II

在这段视频中我想通过例子来向大家展示一个神经网络是怎样计算非线性的假设函数在上一段视频中我们学习了怎样运用神经网络来计算x1和x2的与运算以及x1和x2的或运算其中x1和x2都是二进制数也就是说它们的值只能为0或1 同时我们也学习了怎样进行逻辑非运算也就是计算 "非x1" 我先写出这个神经网络中相连接的各权值这里我们只有一个输入量x1 在这里我们也加上了表示偏差的单位元 +1 如果我将输入单元和两个权数相连也就是+10和-20 则可用以下假设方程来计算 h(x)=g(10-20x1) 其中g是一个S型函数那么当x1等于0时计算出假设函数 g(10-20*0) 也就是g(10) 这个值近似的等于1 而当x等于1时计算出的假设函数则变成 g(-10) 也就是约等于0 如果你观察这两个值你会发现这实际上计算的就是“非x1”函数所以要计算逻辑非运算总体思路是在你希望取非运算的变量前面放上一个绝对值大的负数作为权值因此如果放一个-20 那么和x1相乘很显然最终的结果就得到了对x1进行非运算的效果另外我再给出一个例子计算这样一个函数 (非x1)与(非x2) 我希望大家思考一下自己动手算一算你大概应该知道至少应该在x1和x2前面放一个绝对值比较大的负数作为权值不过还有一种可行的方法是建立一个神经网络来计算用只有一个输出单元的神经网络没问题吧？因此这个看起来很长的逻辑函数 “(非x1)与(非x2)”的值将等于1 当且仅当 x1等于x2等于0 所以这是个逻辑函数这里是非x1 也就是说x1必为0 然后是非x2 这表示x2也必为0 因此这个逻辑函数等于1 当且仅当 x1和x2的值都为0时成立现在你应该也清楚了怎样建立一个小规模的神经网络来计算这个逻辑函数的值把以上我们介绍的这三个部分内容放在一起 "x1与x2"与运算的网络以及计算 "(非x1)与(非x2)"的网络还有最后一个是 "x1或x2"的或运算网络把这三个网络放在一起我们就应该能计算 "x1 XNOR x2" 也就是同或门运算提醒一下如果这是x1 x2 那么我们想要计算的这个函数在这里和这里是负样本而在这里和这里函数有正样本值那么很显然为了分隔开正样本和负样本我们需要一个非线性的判别边界这里我们用以下这个网络来解决取输入单元 +1 x1和x2 建立第一个隐藏层单元我们称其为a(2)1 因为它是第一个隐藏单元接下来我要从红色的网络也就是"x1与x2"这个网络复制出权值也就是-30 20 20 接下来我再建立第二个隐藏单元我们称之为a(2)2 它是第二层的第二个隐藏单元然后再从中间的青色网络中复制出权值这样我们就有了 10 -20 -20 这样三个权值因此我们来看一下真值表中的值对于红色的这个网络我们知道是x1和x2的与运算所以这里的值大概等于0 0 0 1 这取决于x1和x2的具体取值对于a (2)2 也就是青色的网络我们知道这是“(非x1)与(非x2)”的运算那么对于x1和x2的四种取值其结果将为 1 0 0 0 最后建立输出节点也就是输出单元 a(3)1 这也是等于输出值h(x) 然后复制一个或运算网络同时我需要一个+1作为偏差单元将其添加进来然后从绿色的网络中复制出所有的权值也就是-10 20 20 我们之前已经知道这是一个或运算函数那么我们继续看真值表的值第一行的值是0和1的或运算其结果为1 然后是0和0的或运算其结果为0 0和0的或运算结果还是0 1和0的或运算其结果为1 因此 h(x)的值等于1 当x1和x2都为0 或者x1和x2都为1的时候成立具体来说在这两种情况时 h(x)输出1 在另两种情况时 h(x)输出0 那么对于这样一个神经网络有一个输入层一个隐藏层和一个输出层我们最终得到了计算XNOR函数的非线性判别边界更一般的理解是在输入层中我们只有原始输入值然后我们建立了一个隐藏层用来计算稍微复杂一些的输入量的函数如图所示这些都是稍微复杂一些的函数然后通过添加另一个层我们得到了一个更复杂一点的函数这就是关于神经网络可以计算较复杂函数的某种直观解释我们知道当层数很多的时候你有一个相对简单的输入量的函数作为第二层而第三层可以建立在此基础上来计算更加复杂一些的函数然后再下一层又可以计算再复杂一些的函数在这段视频的最后我想给大家展示一个有趣的例子这是一个神经网络通过运用更深的层数来计算更加复杂函数的例子我将要展示的这段视频来源于我的一个好朋友阳乐昆(Yann LeCun) Yann是一名教授供职于纽约大学他也是神经网络研究早期的奠基者之一也是这一领域的大牛他的很多理论和想法现在都已经被应用于各种各样的产品和应用中遍布于全世界所以我想向大家展示一段他早期工作中的视频这段视频中他使用神经网络的算法进行手写数字的辨识你也许记得在这门课刚开始的时候我说过关于神经网络的一个早期成就就是应用神经网络读取邮政编码以帮助我们进行邮递那么这便是其中一种尝试这就是为了解决这个问题而尝试采用的一种算法在视频中这个区域是输入区域表示的是手写字符它们将被传递给神经网络这一列数字表示通过该网络第一个隐藏层运算后特征量的可视化结果因此通过第一个隐藏层可视化结果显示的是探测出的不同特征不同边缘和边线这是下一个隐藏层的可视化结果似乎很难看出怎样理解更深的隐藏层以及下一个隐藏层计算的可视化结果可能你如果要想看出到底在进行怎样的运算还是比较困难的最终远远超出了第一个隐藏层的效果但不管怎样最终这些学习后的特征量将被送到最后一层也就是输出层并且在最后作为结果显示出来最终预测到的结果就是这个神经网络辨识出的手写数字的值下面我们来观看这段视频我希望你喜欢这段视频也希望这段视频能给你一些直观的感受关于神经网络可以学习的较为复杂一些的函数在这个过程中它使用的输入是不同的图像或者说就是一些原始的像素点第一层计算出一些特征然后下一层再计算出一些稍复杂的特征然后是更复杂的特征然后这些特征实际上被最终传递给最后一层逻辑回归分类器上使其准确地预测出神经网络“看”到的数字

Multiclass Classification

在这段视频中我想和大家谈谈如何用神经网络做多类别分类在多类别分类中通常有不止一个类别需要我们去区分在上一段视频最后我们提到了有关手写数字辨识的问题这实际上正是一个多类别分类的问题因为辨识数字从0到9 正好是10个类别因此你也许已经想问究竟应该怎样处理这个问题我们处理多类别分类的方法实际上是基于一对多神经网络算法而延伸出来的让我们来看这样一个例子还是有关计算机视觉的例子就像我之前介绍过的识别汽车的例子但与之不同的是现在我们希望处理的是四个类别的分类问题给出一幅图片我们需要确定图上是什么是一个行人一辆汽车还是一辆摩托车亦或是一辆卡车对于这样一个问题我们的做法是建立一个具有四个输出单元的神经网络也就是说此时神经网络的输出是一个四维向量因此现在的输出需要用一个向量来表示这个向量中有四个元素而我们要做的是对第一个输出元素进行分辨图上是不是一个行人然后对第二个元素分辨它是不是一辆汽车同样第三个元素是不是摩托车第四个元素是不是一辆卡车因此当图片上是一个行人时我们希望这个神经网络输出1 0 0 0 当图片是一辆轿车时我们希望输出是 0 1 0 0 当图片是一辆摩托车时我们希望结果是0 0 1 0 以此类推所以这和我们介绍逻辑回归时讨论过的一对多方法其实是一样的只不过现在我们有四个逻辑回归的分类器而我们需要对四个分类器中每一个都分别进行识别分类因此重新整理一下这页讲义这是我们的神经网络结构有四个输出单元这是针对不同的图片我们h(x)的表达式此时我们需要用如下的方法来表示训练集在这个例子中当我们要表征一个具有行人汽车摩托车和卡车这样四个不同图片作为元素的训练集时我们应该怎么做呢之前我们把标签写作一个整数用y来表示 1 2 3 4 现在我们不这样表示y 而是用以下的方法来代表y 那就是 y(i) 表示1 0 0 0 或者0 1 0 0 或者0 0 1 0 或者0 0 0 1 根据相对于的图片x(i)来决定这样我们的训练样本将成为 x(i) y(i) 这一对数其中 x(i)表示我们已知的四种物体图像中的一个而y(i)是这四个向量中的某一个我们希望能够找到某种方法让我们的神经网络输出某个值因此 h(x) 近似约等于y 在我们的例子中 h(x) 和 y(i) 它们都应该是四维向量因为我们有四个类别当前时间是9月4日星期三还有时间以及2013年这就是使用神经网络进行多类别分类的方法这样我们就讨论了怎样基于我们的假设表达式来表征神经网络在接下来几节课中我们会开始讨论怎样得到训练集以及怎样自动学习神经网络的参数

时间： 2024-10-09 23:43:02

Machine Learning - 第4周

Neural Networks: Representation神经网络

Motivations

Non-linear Hypotheses

Neurons and the Brain神经元和大脑

Neural Networks

Model Representation I

Model Representation II

Applications应用

Examples and Intuitions I

Examples and Intuitions II

Multiclass Classification

Machine Learning - 第4周的相关文章

Machine Learning第八周笔记

Machine Learning第十一周笔记：photo OCR

Machine Learning第十周笔记：大规模机器学习

Machine Learning - 第7周

Machine Learning – 第2周

跟着Andrew Ng挑战Machine Learning：第一周 —— 概念+单一变量线性回归

Machine Learning第九周笔记

《Machine Learning》系列学习笔记之第一周

NTU-Coursera机器学习:机器学习基石 (Machine Learning Foundations)