斯坦福公开课4：牛顿方法

 北京理工大学计算机专业2016级硕士在读，方向：Machine Learning，NLP，DM

本讲大纲：

1.牛顿方法(Newton’s method)
2.指数族(Exponential family)
3.广义线性模型(Generalized linear models)

牛顿法

假设有函数：，我们希望找到满足的值. 这里是实数.
牛顿方法执行下面的更新： 具体原理可参考文章《Jacobian矩阵和Hessian矩阵》

下图为执行牛顿方法的过程：

简单的来说就是通过求当前点的导数得到下一个点.用到的性质是导数值等于该点切线和横轴夹角的正切值.

令，我们可以用同样的算法去最大化

牛顿方法的一般化：
如果是一个向量，那么：

其中，是对的偏导数；
H称为海森矩阵(Hessian matrix),是一个n*n的矩阵，n是特征量的个数，并且

牛顿方法的收敛速度比批处理梯度下降快很多，很少次的迭代就能够非常接近最小值了；但是当n很大时，每次迭代求海森矩阵和逆代价是很大的。

指数族

对P(y| x;θ)建模：

y∈R：高斯分布---> 最小二乘法
y∈{0,1}：伯努利分布---> Logistic回归

Binomial( φ ) = P( y=1 | φ ) = φ 一类伯努利分布

N( μ,σ² ) 一类高斯分布

以上分布都是指数分布族的特例

指数族形式：

η被称为分布的自然参数（natural parameter）;

T(y)是充分统计量（sufficient statistic）（对于我们考虑的分布来说，通常T(y)=y）；

a(η)是日志分配函数(log partition function),e^-a(η)是一个规范化常数，使得分布的和为1.

给定函数T,a,b，通过改变参数η得到不同的分布。

下面展示伯努利（Bernoulli）和高斯分布（Gaussian distribution）都是指数分布族的特例：

伯努利分布可以写成：

因此，令（有趣地发现其反函数为），并且，

高斯分布：

回忆我们对线性回归求导时，方差对我们最终结果并没有任何影响.为了使问题简化，令于是有，

得：

指数分布族还包括很多其他的分布：
多项式分布（multinomial）：对k个结果的事件建模
泊松分布（poisson）：用于计数过程建模
伽马分布（gamma），指数分布（exponential）:用于对连续非负的随机变量进行建模
β分布，Dirichlet分布：对小数建模

Wishart分布：协方差矩阵的分布

广义线性模型（GLM）

为了导出GLM,作三个假设：
（1）
（2）给定x，我们的目标是预测T(y)的预期值. 在大部分例子中，我们有T(y)=y，因此意味着我们通过学习得到的假设满足（这个假设对logistic回归和线性回归都成立）
（3）自然参数和输入变量是线性相关的，也就是说（自然参数大多是实数，如果自然参数是向量，则）

3.1普通的最小二乘法
为了说明普通的最小二乘法是GLM的特例，设定目标变量y(在GLM术语中叫响应变量-response variable)是连续的，并且假设服从高斯分布，高斯分布写成指数族的形式，有得到：

3.2 logistic回归
考虑logistic,我们感兴趣的是二元分类，也就是说很容易想到指数分布族的伯努利分布，有，同理得到：

正则响应函数（canonical response function）：
正则连接函数（canonical link function）:

3.3 softmax 回归

当分类问题的y取值不止两个时，我们需要采用多项式分布（multinomial distribution）.
在推导多项式分布的GLM之前，先把多项式分布表达成指数族.为了参数化多项式分布的k各可能结果，有人可能会用k个参数来说明每一种情况的可能性，但是这些参数是冗余的，并且并不是独立的(由于知道任何其中的k-1个，剩下的一个就可以求出，因为满足). 因此我们用k-1个参数对多项分布进行参数化，