- 监督学习的应用与梯度下降
- 监督学习
如上图所示,监督学习:对于给定的训练集合,按照某一学习算法学习之后,得到一种好的假设(Hypotheses)用于预测新的数据。
- 梯度下降
已知m组数据(x1,y1)…(xm, ym),其中xi是具有n维特征的向量,此外,我们设定xi(0) =1(即截距项)。我们做如下假设:
h(x) = = (此为回归模型的假设模型)
对于给定的训练集合,如何选择最优的θ值(权重或参数)呢(这里的x是n+1*m维矩阵)?一个合理的方法是:至少在训练集合上,θ会使预测值h(x)越接近实际值y越好。因此,我们定义一个成本函数(cost function) J(θ):
该成本函数使用误差的平方和,类似于普通最小二乘法(没有平均化误差平方和)。
- 最小均方算法
给定的训练集合,如何选择最优的θ值使J(θ)?这里我们采用梯度下降法。梯度下降法的基本思想是在起始随机得到θ值后,之后每次更新θ值的方式如下:
即θ每次以一定的步伐按照J(θ)最快速下降的方向更新值。我们进一步分解参数更新公式的右边。
梯度下降法的缺点是:靠近极小值时速度减慢(极小值处梯度为0),直线搜索可能会产生一些问题(得到局部最优等),可能会‘之字型‘地下降(学习速率太大导致)。
- 标准方程组推导
要求解θ使得J(θ)最小,那么只需要求解J(θ)对θ的偏微分方程即可。
注:?θJ(θ)表示对J(θ)中的每一个θ参数求偏微分。这里化简的方式是矩阵偏微分注意:AT*B) = BT)*A, AT = (A)T, AT*B = (BT*A)T。
- 概率解释
对于回归问题,我们不禁要问为什么线性回归或者说为什么最小均方法是一个合理的选择呢?这里我们通过一系列的概率假设给出一个解释。(下一讲)
原文地址:https://www.cnblogs.com/kexinxin/p/9904390.html
时间: 2024-11-24 09:33:28