谷歌机器学习速成课程---3降低损失 (Reducing Loss)：梯度下降法

迭代方法图（图 1）包含一个标题为“计算参数更新”的华而不实的绿框。现在，我们将用更实质的方法代替这种华而不实的算法。

假设我们有时间和计算资源来计算 w1 的所有可能值的损失。对于我们一直在研究的回归问题，所产生的损失与 w1 的图形始终是凸形。换言之，图形始终是碗状图，如下所示：

图 2. 回归问题产生的损失与权重图为凸形。

凸形问题只有一个最低点；即只存在一个斜率正好为 0 的位置。这个最小值就是损失函数收敛之处。

通过计算整个数据集中 w1 每个可能值的损失函数来找到收敛点这种方法效率太低。我们来研究一种更好的机制，这种机制在机器学习领域非常热门，称为梯度下降法。

梯度下降法的第一个阶段是为 w1 选择一个起始值（起点）。起点并不重要；因此很多算法就直接将 w1 设为 0 或随机选择一个值。下图显示的是我们选择了一个稍大于 0 的起点：

图 3. 梯度下降法的起点。

然后，梯度下降法算法会计算损失曲线在起点处的梯度。简而言之，梯度是偏导数的矢量；它可以让您了解哪个方向距离目标“更近”或“更远”。请注意，损失相对于单个权重的梯度（如图 3 所示）就等于导数。

详细了解偏导数和梯度。

请注意，梯度是一个矢量，因此具有以下两个特征：

方向
大小

梯度始终指向损失函数中增长最为迅猛的方向。梯度下降法算法会沿着负梯度的方向走一步，以便尽快降低损失。

图 4. 梯度下降法依赖于负梯度。

为了确定损失函数曲线上的下一个点，梯度下降法算法会将梯度大小的一部分与起点相加，如下图所示：

图 5. 一个梯度步长将我们移动到损失曲线上的下一个点。

然后，梯度下降法会重复此过程，逐渐接近最低点。

原文地址：https://www.cnblogs.com/SuMeng/p/8494824.html

时间： 2024-10-07 02:38:35

谷歌机器学习速成课程---3降低损失 (Reducing Loss)：梯度下降法的相关文章

谷歌机器学习速成课程---3降低损失 (Reducing Loss)：学习速率

正如之前所述,梯度矢量具有方向和大小.梯度下降法算法用梯度乘以一个称为学习速率(有时也称为步长)的标量,以确定下一个点的位置.例如,如果梯度大小为 2.5,学习速率为 0.01,则梯度下降法算法会选择距离前一个点 0.025 的位置作为下一个点. 超参数是编程人员在机器学习算法中用于调整的旋钮.大多数机器学习编程人员会花费相当多的时间来调整学习速率.如果您选择的学习速率过小,就会花费太长的学习时间: 图 6. 学习速率过小. 相反,如果您指定的学习速率过大,下一个点将永远在 U 形曲线的底部随意

谷歌机器学习速成课程---3降低损失：迭代方法

迭代学习可能会让您想到"Hot and Cold"这种寻找隐藏物品(如顶针)的儿童游戏.在我们的游戏中,"隐藏的物品"就是最佳模型.刚开始,您会胡乱猜测("w1 的值为 0."),等待系统告诉您损失是多少.然后,您再尝试另一种猜测("w1 的值为 0.5."),看看损失是多少.哎呀,这次更接近目标了.实际上,如果您以正确方式玩这个游戏,通常会越来越接近目标.这个游戏真正棘手的地方在于尽可能高效地找到最佳模型. 下图显示了机器学

谷歌机器学习速成课程---1框架处理

本文内容摘自谷歌机器学习免费课程MLCC: https://developers.google.com/machine-learning/crash-course/ ============================================================================================================================================= 什么是(监督式)机器学习?简单来说,它的定义如

谷歌机器学习速成课程---2深入了解机器学习(Descending into ML)

1.线性回归人们早就知晓,相比凉爽的天气,蟋蟀在较为炎热的天气里鸣叫更为频繁.数十年来,专业和业余昆虫学者已将每分钟的鸣叫声和温度方面的数据编入目录.Ruth 阿姨将她喜爱的蟋蟀数据库作为生日礼物送给您,并邀请您自己利用该数据库训练一个模型,从而预测鸣叫声与温度的关系. 首先建议您将数据绘制成图表,了解下数据的分布情况: 图 1. 每分钟的鸣叫声与温度(摄氏度)的关系. 毫无疑问,此曲线图表明温度随着鸣叫声次数的增加而上升.鸣叫声与温度之间的关系是线性关系吗?是的,您可以绘制一条直线来近似地表

AI - Google的机器学习速成课程

Google的机器学习速成课程机器学习速成课程(MLCC,machine-learning crash-course):https://developers.google.com/machine-learning/crash-course/ 机器学习术语表:https://developers.google.com/machine-learning/glossary/ 基本全程中文,程共25节,大约15小时,包含40多项练习,有对算法实际运用的互动直观展示,可以更容易地学习和实践机器学习概念.

Stanford机器学习课程笔记——单变量线性回归和梯度下降法

Stanford机器学习课程笔记--单变量线性回归和梯度下降法 1. 问题引入单变量线性回归就是我们通常说的线性模型,而且其中只有一个自变量x,一个因变量y的那种最简单直接的模型.模型的数学表达式为y=ax+b那种,形式上比较简单.Stanford的机器学习课程引入这个问题也想让我们亲近一下machine learning这个领域吧~吴恩达大神通过一个房屋交易的问题背景,带领我们理解Linear regression with one variable.如下: 不要看这个问题简答,大神就是大神

【机器学习】谷歌的速成课程（二）

线性回归训练模型表示通过有标签样本来学习(确定)所有权重和偏差的理想值.在监督式学习中,机器学习算法通过以下方式构建模型:检查多个样本并尝试找出可最大限度地减少损失的模型:这一过程称为经验风险最小化. 均方误差 (MSE) 指的是每个样本的平均平方损失.要计算 MSE,请求出各个样本的所有平方损失之和,然后除以样本数量原文地址:https://www.cnblogs.com/Macaulish/p/8519976.html

【机器学习】谷歌的速成课程（一）

问题构建 (Framing) 什么是(监督式)机器学习?简单来说,它的定义如下: 机器学习系统通过学习如何组合输入信息来对从未见过的数据做出有用的预测. 标签在简单线性回归中,标签是我们要预测的事物,即 y 变量.标签可以是小麦未来的价格.图片中显示的动物品种.音频剪辑的含义或任何事物. 特征在简单线性回归中,特征是输入变量,即 x 变量.简单的机器学习项目可能会使用单个特征,而比较复杂的机器学习项目可能会使用数百万个特征,按如下方式指定: {x1,x2,...xN} (可量化!) 样本是

AI - MLCC - 03 - 降低损失

1- 迭代方法机器学习算法用于训练模型的迭代试错过程(迭代方法): 迭代策略在机器学习中的应用非常普遍,这主要是因为它们可以很好地扩展到大型数据集. "模型"部分将一个或多个特征作为输入,然后返回一个预测作为输出. "计算损失"部分是模型将要使用的损失函数,机器学习系统在"计算参数更新"部分检查损失函数的值. 现在,假设这个神秘的绿色框会产生新值,然后机器学习系统将根据所有标签重新评估所有特征,为损失函数生成一个新值,而该值又产生新的参数值.