为什么要对特征进行缩放(归一化)

在Andrew Ng的机器学习课程里面，讲到使用梯度下降的时候应当进行特征缩放(Feature Scaling)。进行缩放后，多维特征将具有相近的尺度，这将帮助梯度下降算法更快地收敛。为了解释为什么特征缩放会帮助梯度下降算法更快地收敛，Andrew给了两幅图来解释：

Feature Scaling

Idea: Make sure features are on a similar scale.
E.g.

归一化前，代价函数关于参数??和??的关系等高线图可能如下图：

而如果进行了，归一化，那么其等高线图可能就变成了下图：

而如果进行了，归一化，那么其等高线图可能就变成了下图:

关于等高线图的变化，Andrew并没有细说原因，只是直接这么说了。一种常见的误解是：

原来和的尺度不一样，所以等高线图是狭长的，而归一化以后，大家尺度(甚至取值范围)一样了，等高线图被压扁了，所以就是一个圆形了呗。

但是问题在于，等高线图的变量(即轴)是和，而不是和！对和做的缩放，导致关于和的等高线图产生的变化根本不是直观上的那么一目了然。

本文的目标就在于把这个问题解释清楚：对和的缩放是怎么把以,为变量的等高线图变得更加圆，从而使得梯度下降效率变高的。

首先我们把问题定义一下，我们是要预测房价，目前有两个特征：
– : 面积，以平方英尺计，取值范围在0 ~ 2,000
– : 卧室数，取值范围在0 ~ 5

假设，房价是关于这两个特征的线性关系：

那么，在进行梯度下降的时候，目标最小化的代价函数(Cost Function)则为：

在缩放(scaling)前，由于的尺度比较大(0 ~ 2,000)，而的尺度小(0 ~ 5)，因此和同等大小的变化，对的影响差距巨大，即对影响要比大很多。进而，会造成对更加敏感(即的单位变化比的单位变化对的影响更大)。因此在等高线图上，在方向上更扁平，即较小的变化会造成取值的剧烈变化，而在方向上更加狭长，即较大的变化才会造成取值的较大变化。