假设我们有m个样本。特征向量的维度为n。因此,可知样本为{(x(1),y(1)),
(x(2),y(2)),...
..., (x(m),y(m))},其中对于每一个样本中的x(i),都有x(i)={x1(i),
xn(i),...
...,xn(i)}。令
H(θ)=θ0 + θ1x1 +θ2x2 +...
+ θnxn,则有
这个图片很好示意,但是维度标记错误了。X 是 m*(n+1) 维, θ
包含θ0
为(n+1)
* 1 维。
若希望H(θ)=Y,则有
X · θ = Y
我们先来回忆一下两个概念:单位矩阵 和 矩阵的逆,看看它们有什么性质。
(1)单位矩阵E
AE=EA=A
(2)矩阵的逆A-1
要求:A必须为方阵
性质:AA-1=A-1A=E
再来看看式子 X · θ = Y
若想求出θ,那么我们需要做一些转换:
step1:先把θ左边的矩阵变成一个方阵。通过乘以XT可以实现,则有
XTX · θ = XTY
step2:把θ左边的部分变成一个单位矩阵,这样就可以让它消失于无形了……
(XTX)-1(XTX)
· θ = (XTX)-1XTY
step3:由于(XTX)-1(XTX)
= E,因此式子变为
Eθ = (XTX)-1XTY
E可以去掉,因此得到
θ = (XTX)-1XTY
这就是我们所说的Normal Equation了。
上面描述的不是严格数学证明推导,参考NG的讲义:
通过cost
function 来计算参数的值:
损失函数迭代推导目标函数:
目标函数推导过程:
同样得到也是 θ
= (XTX)-1XTY
Normal
Equation VS Gradient Descent
Normal Equation 跟 Gradient Descent(梯度下降)一样,可以用来求权重向量θ。但它与Gradient Descent相比,既有优势也有劣势。
优势:
Normal Equation可以不在意x特征的scale。比如,有特征向量X={x1,
x2}, 其中x1的range为1~2000,而x2的range为1~4,可以看到它们的范围相差了500倍。如果使用Gradient
Descent方法的话,会导致椭圆变得很窄很长,而出现梯度下降困难,甚至无法下降梯度(因为导数乘上步长后可能会冲出椭圆的外面)。但是,如果用Normal Equation方法的话,就不用担心这个问题了。因为它是纯粹的矩阵算法。
劣势:
相比于Gradient Descent,Normal
Equation需要大量的矩阵运算,特别是求矩阵的逆。在矩阵很大的情况下,会大大增加计算复杂性以及对计算机内存容量的要求。