分类
模型如下:
- 回归问题:学习的结果是连续的,比如房价等等
- 分类问题:学习的结果是非连续的,分成某几个类
梯度下降
例子:
:
条件:
- 对于输入X有n个特征值。X = {x1,x2,x3,x4,.......,xn}
- 一共有m组输入。X1,X2,......,Xm
结果:
- 根据给出的数据得到函数hθ(x),关于θ的一个函数
假设:
- J(θ)主要用来描述该方程在样本点的逼近程度
特点:
- 都具有局部最小值
- 最后的结果并不一定是总体的最小值
1.批梯度下降:
- 思路:
先初始化θ = 0向量,然后通过学习,不断改变θ使Jθ不断减小,致使方程不断在学习点逼近真值。(至于为什么要选择最小二乘法和为什么这个值有极限,稍后给出证明)
- 迭代方程:
其中:
- α决定下降速度
- 推导方程:
迭代算法:
- 注意:
- 该算法每次迭代查看了所有样本,知道θ收敛
- 收敛的意思是:误差在允许的范围内就没有继续发生变化了
2.增量梯度下降:
- 迭代算法:
- 注意:
- 每次迭代只用到了第 i 个样本
正规方程组
1.矩阵导数
- 表示:
对矩阵A的导数,函数f是一个由矩阵到实数的映射
- 矩阵的迹:
- 相关的性质:
- 交换性,要就矩阵的乘法有意义:
2.最小二乘法
令J(θ) 偏导为 0 我们可以直接求出θ, 推导过程:
概率论解释
1.问题:
为什么在线性回归中我们要用最小二乘作为误差项,而不用三次方,四次方之类的。
2.解答:
- 设:
?(i)是误差项, ?(i) ~ N(0,σ2)
- 所以:
即: y(i)|x(i);θ ~ N(θTx(i),σ2)
- 用最大概然法:
- 理解:
我们把输入X,X = {x1,x2,x3,x4,.......,xn}看做一组样本,而Y是一组样本对应的观测值,而且由前面的推导我们可以知道该事件是符合y(i)|x(i);θ ~ N(θTx(i),σ2)。因此利用最大似然法我们可以求出未知参数θ,即最大化L(θ)。
- 在梯度下降中。最大化L(θ),就是最小化
即J(θ),因此我们让J(θ)的偏导作为增量更新θ,最后J(θ)的偏导近似为0时,我们认为迭代结束。
- 在上面最小二乘法中。最大化L(θ),也就是令l(θ)的偏导为0,因此我们可以直接求l(θ)的偏导为0,求出θ.
- 在梯度下降中。最大化L(θ),就是最小化
时间: 2024-10-20 04:28:35