神经网络与深度学习(2):梯度下降算法和随机梯度下降算法

本文总结自《Neural Networks and Deep Learning》第1章的部分内容。

使用梯度下降算法进行学习(Learning with gradient descent)

1. 目标

我们希望有一个算法,能让我们找到权重和偏置,以至于网络的输出y(x) 能够拟合所有的训练输入x。

2. 代价函数(cost function)

定义一个Cost function (loss function, objective function): 目标函数,如下:

C: 被称为二次代价函数;有时也被称为均方误差或者MSE

w: weight 权重

b: bias 偏向

n: 训练数据集实例个数

x: 输入值

a: 输出值 (当x是输入时)

||v||:  向量v的模

C(w,b) 越小越好,输出的预测值和真实值差别越小越好。

那么我们的目标就转为: 最小化C(w,b)。

我们训练神经网络的目的是找到能最小化二次代价函数C(w; b) 的权重和偏置。

3. 梯度下降

最小化问题可以用梯度下降解决(gradient descent)。

C(v) v有两个变量v1, v2,通常可以用微积分解决,如果v包含的变量过多,无法用微积分解决。

梯度下降算法工作的方式就是重复计算梯度∇C,然后沿着相反的方向移动,沿着山谷“滚落”。

即每下降到一个地方,就要计算下一步要往哪个方向下去。

权重和偏置的更新规则:

4. 随机梯度下降算法 (stochastic gradient descent)

实际中使用梯度下降算法会使学习变得相当缓慢。这是因为:

对于每个训练实例x, 都要计算梯度向量∇C。如果训练数据集过大,会花费很长时间,学习过程太慢。

所以实际中使用随机梯度下降算法 (stochastic gradient descent)。

基本思想: 从所有训练实例中取一个小的采样(sample): X1,X2,…,Xm   (mini-batch),来估计 ∇C, 大大提高学习速度。

如果样本够大,

代入更新方程:


然后,重新选择一个mini-batch用来训练,直到用完所有的训练实例,一轮epoch完成。

作者:tsianlgeo

出处:http://www.cnblogs.com/tsiangleo/

本文版权归作者和博客园共有,欢迎转载,未经同意须保留此段声明,且在文章页面明显位置给出原文链接。欢迎指正与交流。

时间: 2024-10-24 11:45:01

神经网络与深度学习(2):梯度下降算法和随机梯度下降算法的相关文章

吴恩达 DeepLearning.ai课程笔记(1-3)神经网络和深度学习 --- 浅层神经网络

以下为在Coursera上吴恩达老师的DeepLearning.ai课程项目中,第一部分<神经网络和深度学习>第二周课程部分关键点的笔记.笔记并不包含全部小视频课程的记录,如需学习笔记中舍弃的内容请至 Coursera 或者 网易云课堂.同时在阅读以下笔记之前,强烈建议先学习吴恩达老师的视频课程. 1. 二分类问题 对于二分类问题,大牛给出了一个小的Notation. 样本:  ,训练样本包含  个: 其中  ,表示样本 包含 个特征:  ,目标值属于0.1分类: 训练数据:  输入神经网络时

(转)神经网络和深度学习简史(第一部分):从感知机到BP算法

深度|神经网络和深度学习简史(第一部分):从感知机到BP算法 2016-01-23 机器之心 来自Andrey Kurenkov 作者:Andrey Kurenkov 机器之心编译出品 参与:chenxiaoqing.范娜Fiona.杨超.微胖.汪汪.赵巍 导读:这是<神经网络和深度学习简史>第一部分.这一部分,我们会介绍1958年感知机神经网络的诞生,70年代人工智能寒冬以及1986年BP算法让神经网络再度流行起来. 深度学习掀起海啸 如今,深度学习浪潮拍打计算机语言的海岸已有好几年,但是,

神经网络和深度学习-学习总结

1. 简介 神经网络和深度学习是由Michael Nielsen所写,其特色是:兼顾理论和实战,是一本供初学者深入理解Deep Learning的好书. 2. 感知器与sigmoid神经元 2.1 感知器(Perceptrons) 感知器工作原理:接收一系列二进制输入,经过特定的规则计算之后,输出一个简单的二进制. 计算规则:通过引入权重(weights)表示每个输入对于输出的重要性,则有 记w?x=∑jwjxj,b=-threshold,则有 其w是权重,b是偏差. 2.2 Sigmoid神经

《神经网络与深度学习》(四) 受限玻尔兹曼机

转自:http://blog.csdn.net/qiao1245/article/details/50932519 谈到神经网络,就不得不提到最近非常火的深度学习.那么什么是深度学习?它与神经网络的关系是什么?深度学习的基本原理和常用算法是什么?我将在这篇中详细解答. 什么是深度学习 深度学习来源于人工神经网络,它的思想是组合低层次的特征从而构建出更加抽象的深层次特征.深度学习的概念由Hinton等人于2006年提出, 它是一个新的机器学习领域,通过更"深"层次的训练,它可以更加良好的

神经网络与深度学习——《机器学习及应用》汪荣贵 机械工业出版社

摘录自<机器学习及应用>汪荣贵 机械工业出版社 总结了一些神经网络与深度学习中的一些网络介绍. 1.神经元与感知机 (1)关于激活函数 (2)MLP MLP模型的网络结构没有环路或回路,故是一类前馈网络模型.MLP模型中隐含层的层数可为一层也可为多层.对于MLP模型和BP神经网络这样包含多个数据处理层的前馈网络模型而言,其参数更新过程通常较为复杂.这是因为这类模型的最终输出与之前多层的连接权重相关,相当于多层嵌套的函数.若直接使用类似于梯度下降的优化方法对模型进行训练,则无法直接求得各结点所对

数据分析、数据挖掘、机器学习、神经网络、深度学习和人工智能概念区别(入门级别)

数据分析, 就是对数据进行分析, 得出一些结论性的内容, 用于决策. 分析什么哪? 根据分析现状. 分析原因. 预测未来. 分析现状和分析原因, 需要结合业务才能解释清楚. 用到的技术比较简单, 最简单的数据分析工具就是 Excel. 预测未来指的是分析未来一段时间的销售额之类的. 在预测未来方面, 一般用到数据挖掘的技术了. 数据挖掘, 从字面意思上看, 是从数据中挖掘出有价值的信息. 比如, 超市通过对一段时间的客户消费记录能发现, 哪些物品经常被顾客一起购买. 那么, 就可以把这些物品摆放

分享《神经网络与深度学习(美)Michael Nielsen 著》中文版PDF+英文版PDF+源代码

下载:https://pan.baidu.com/s/18_Y7fJMaKwFRKKuGjYIreg 更多资料分享:http://blog.51cto.com/3215120 <神经网络与深度学习(美)Michael Nielsen 著>中文版PDF+英文版PDF+源代码中文版PDF,206页,带书签目录:英文版PDF,292页,带书签目录:配套源代码.经典书籍,讲解详细.神经网络和深度学习给出了在图像识别.语义识别和NLP领域中很多问题的最好解决方案.本书将会教你在神经网络和深度学习背后的众

《神经网络与深度学习(美)MichaelNielsen著》中英文版PDF+源代码+吴岸城版PDF

资源链接:https://pan.baidu.com/s/1-v89VftxGHdzd4WAp2n6xQ<神经网络与深度学习(美)Michael Nielsen 著>中文版PDF+英文版PDF+源代码以及<神经网络与深度学习 >(吴岸城版)中文版PDF,206页,带书签目录:英文版PDF,292页,带书签目录:配套源代码.经典书籍,讲解详细.神经网络和深度学习给出了在图像识别.语义识别和NLP领域中很多问题的最好解决方案.本书将会教你在神经网络和深度学习背后的众多核心概念.两本中文

分享《动手学深度学习(李沐等著)》PDF+源代码+《神经网络与深度学习(吴岸城)著》PDF

下载:https://pan.baidu.com/s/11O2m_uxSWJGbkXHF2Zh94w 更多资料:https://pan.baidu.com/s/1g4hv05UZ_w92uh9NNNkCaA <动手学深度学习(李沐等著)> 中文PDF,530页,带书签目录,文字可以复制粘贴.配套源代码. <神经网络与深度学习 (吴岸城)著>中文PDF,233页,带书签目录. 如图: 原文地址:https://www.cnblogs.com/limujun/p/10054478.ht

【吴恩达课后测验】Course 1 - 神经网络和深度学习 - 第一周测验【中英】

[吴恩达课后测验]Course 1 - 神经网络和深度学习 - 第一周测验[中英] 第一周测验 - 深度学习简介 和"AI是新电力"相类似的说法是什么? [ ?]AI为我们的家庭和办公室的个人设备供电,类似于电力. [ ?]通过"智能电网",AI提供新的电能. [?]AI在计算机上运行,??并由电力驱动,但是它正在让以前的计算机不能做的事情变为可能. [★]就像100年前产生电能一样,AI正在改变很多的行业. 请注意: 吴恩达在视频中表达了同样的观点. 哪些是深度学