【CS229笔记一】监督学习,线性回归,LMS算法,正态方程,概率解释和局部加权线性回归

监督学习

对于一个房价预测系统,给出房间的面积和价格,以面积和价格作坐标轴,绘出各个点。

定义符号:

\(x_{(i)}\)表示一个输入特征\(x\)。

\(y_{(i)}\)表示一个输出目标\(y\)。

\((x_{(i)},y_{(i)})\)表示一个训练样本。

\(\left\{(x_{(i)},y_{(i)});i=1,\dots,m\right\}\)代表m个样本,也称为训练集。

上标\((i)\)代表样本在训练集中的索引。

\(\mathcal{X}\)代表输入值的空间,\(\mathcal{Y}\)代表输出值的空间。\(\mathcal{X}=\mathcal{Y}=\mathbb{R}\)

监督学习的目标,就是给定一个训练集,学习一个函数\(h\):\(\mathcal{X} \mapsto \mathcal{Y}\)。\(h(x)\)是对于y的对应值的一个“好”的预测。函数\(h\)被称为hypothesis函数(假设函数)

如果我们预测的目标值是连续的,那么,这种问题被称为回归问题,如果\(y\)只是一个离散的小数字,那么,这种问题叫做分类问题。

线性回归

假设房价不仅与面积有关,还与卧室数有关,如下:

这时候的\(x\)是一个2维向量\(\in \mathbb{R^2}\)。其中\(x_1^{(i)}\)表示第\(i\)个样本的房子面积,\(x_2^{(i)}\)表示第\(i\)个样本的房子卧室数。

现在我们决定将y近似为x的线性函数,公式如下:

\[h_{\theta}(x)=\theta_0+\theta_1x_1+\theta_2x_2\]

\(\theta_i\)是线性函数空间从\(\mathcal{X}\)到\(\mathcal{Y}\)映射的参数(权重)。把公式简化:

\[h(x)=\sum_{i=0}^n \theta_ix_i=\theta^Tx\]

其中\(x_0\)=1,因此\(x_0\theta_0=\theta_0\)是截距。\(\theta\)和\(x\)都是向量,\(n\)是输入值的数量(不包括\(x_0\))

为了学习参数\(\theta\),我们定义损失函数

\[J(\theta)=\frac{1}{2}\sum_{i=1}^m (h_{\theta}(x^{(i)})-y^{(i)})^2\]

上式产生一个普通最小二乘法回归模型。

1 LMS(least mean squares)算法

为了选择一个\(\theta\)来使\(J(\theta)\)最小化,先随机对\(\theta\)设置随机值,然后使用一个搜索算法来不断更新\(\theta\)以使\(\theta\)收敛到希望达到的最小化\(J(\theta)\)的值。这里用梯度下降算法,首先初始化\(\theta\),然后不断执行更新:

\[\theta_j:=\theta_j-\alpha\frac{\partial}{\partial \theta_j}J(\theta)\]

\(\alpha\)是学习率(learning rate)。上式同时对所有的\(j = (0,\dots,n)\)值执行。

首先求一个样本\((x,y)\)的偏导数,后面再求总和:

\[\begin{align} \frac{\partial}{\partial \theta_j}J(\theta)&=\frac{\partial}{\partial \theta_j}\frac{1}{2}(h_{\theta}(x)-y)^2\\&=2*\frac{1}{2}(h_{\theta}(x)-y)*\frac{\partial}{\partial \theta_j}(h_{\theta}(x)-y)\\&=(h_{\theta}(x)-y)*\frac{\partial}{\partial \theta_j}\left(\sum_{i=0}^n \theta_ix_i-y\right)\\&=(h_{\theta}(x)-y)x_j\\\end{align}\]

对于单个样本,更新规则(LMS更新规则或Widrow-Hoff学习规则):

\[\theta_j:=\theta_j+\alpha\left(y^{(i)}-h_{\theta}(x^{(i)})\right)x_j^{(i)}\]

上式中更新规则与\((y_{(i)}-h_{\theta(x_{(i)})})\)误差项成正比,如果预测结果与输出值相差小,则\(\theta\)变化小;反之,则变化大。

批量梯度下降:

对于所有的\(\theta\)值重复计算直至收敛\(\{\)

\[\theta_j:=\theta_j+\alpha \begin{matrix} \sum_{i=1}^m (y_{(i)}-h_{\theta}(x^{(i)}))x_j^{(i)} \end{matrix}\]

\(\}\)

梯度下载的过程

计算出\(\theta_1\)和\(\theta_2\)后,代入\(h_{\theta}(x)\)中作为\(x\)的函数,绘制的图如下:

房屋面积房价图

随机梯度下降(增量梯度下降):

\[\begin{align}
Loop \{ \\& for\;i=1\;to\;m \{ \\&& \theta_j:=\theta_j+\alpha(y_{(i)}-h_{\theta}(x^{(i)}))x_j^{(i)}&(for every j) \\&\} \\\}
\\\end{align}\]

每次只对一个样本进行更新。

随机梯度下降通常比批量梯度下降要好,因为批量梯度下降是每次更新整个训练集,十分耗时。

2 正态方程

梯度下降是最小化\(J\)的方法之一,除此之外,正态方程也能最小化\(J\)。通过对\(\theta_j\)求导,然后让它等于0,以使得\(J\)最小化。

2.1矩阵导数

函数\(f\):\(\mathbb{R}^{m\times n} \mapsto \mathbb{R}\)映射,表示从\((m,n)\)矩阵到一个实数的函数。我们定义函数\(f\)对\(A\)求导:

\[\nabla_Af(A) = \begin{bmatrix}
\frac{\partial f}{\partial A_{11}} & \dots & \frac{\partial f}{\partial A_{1n}} \\vdots & \ddots & \vdots \\frac{\partial f}{\partial A_{m1}} & \dots & \frac{\partial f}{\partial A_{mn}} \\end{bmatrix}\]

\(\nabla_Af(A)\)是一个\((m,n)\)的矩阵,每个元素是\(\frac{\partial f}{\partial A_{ij}}\),比如,如果

\(A=\begin{bmatrix} A_{11}&A_{12}\\ A_{21}&A_{22}\\ \end{bmatrix}\)是一个\(2\times 2\)矩阵。函数$f:\mathbb{R}^{2 \times 2} \mapsto \mathbb{R} $:

\[f(A) = \frac{3}{2}A_{11}+5A_{12}^2+A_{21}A_{22}\]

因此,函数\(f\)对\(A\)求导:

\[\nabla_Af(A) = \begin{bmatrix}
\frac{3}{2}&10A_{12}\A_{22}&A_{21}\\end{bmatrix}\]

迹运算

对于一个\(n\times n\)的矩阵求迹,公式:

\[trA=\sum_{i=1}^n A_{ii}\]

如果\(a\)是一个实数(例如一个\(1\times 1\)的矩阵),那么\(tr\,a = a\)。

对于两个矩阵\(A\)和\(B\),迹运算有:

\[trAB=trBA\]

多个矩阵:

\[trABC=trCAB=trBCA\]

\[trABCD=trDABC=trCDAB=trBCDA\]

对于两个相等方阵\(A\)和\(B\),还有一个实数\(A\),有公式:

\[trA=trA^T\]

\[tr(A+B)=trA+trB\]

\[traA=atrA\]

矩阵导数公式:

\[\nabla_A trAB = B^T\qquad \qquad \qquad \qquad(1)\]

\[\nabla_{A^T} f(A) = (\nabla_Af(A))^T \qquad \qquad \qquad(2)\]

\[\nabla_A trABA^TC = CAB + C^TAB^T \qquad \qquad \qquad(3)\]

\[\nabla_A |A| = |A|(A^{-1})^T \qquad \qquad \qquad(4)\]

令\(A\in \mathbb{R}^{n\times m}\),\(B\in \mathbb{R}^{m\times n}\)求证公式(1)\(\nabla_A trAB = B^T\):

\[A=\begin{bmatrix}
A_{11} & \dots & A_{1m}\\vdots & \ddots & \vdots\A_{n1} & \dots & A_{nm}
\end{bmatrix}\]

\[B=\begin{bmatrix}
B_{11} & \dots & B_{1n}\\vdots & \ddots & \vdots\B_{m1} & \dots & B_{mn}
\end{bmatrix}\]

\[\begin{align}
\nabla_A trAB&= \nabla_A tr\left(\begin{bmatrix}
A_{11} & \dots & A_{1m}\\vdots & \ddots & \vdots\A_{n1} & \dots & A_{nm}
\end{bmatrix}
\times
\begin{bmatrix}
B_{11} & \dots & B_{1n}\\vdots & \ddots & \vdots\B_{m1} & \dots & B_{mn}
\end{bmatrix}\right)\&=\nabla_A tr\left(\begin{bmatrix}
A_{11}B_{11}+A{12}B_{21}+\dots+A_{1m}B_{m1}&\dots&A_{11}B_{1k}+A_{12}B_{2k}+\dots+A_{1m}B_{mk}&\dots&A_{11}B_{1n}+A{12}B_{2n}+\dots+A_{1m}B_{mn}\\vdots&\vdots&\vdots&\vdots&\vdots\A_{k1}B_{11}+A{k2}B_{21}+\dots+A_{km}B_{m1}&\dots&A_{k1}B_{1k}+A_{k2}B_{2k}+\dots+A_{km}B_{mk}&\dots&A_{k1}B_{1n}+A{k2}B_{2n}+\dots+A_{km}B_{mn}\\vdots&\vdots&\vdots&\vdots&\vdots\A_{n1}B_{11}+A{n2}B_{21}+\dots+A_{nm}B_{m1}&\dots&A_{n1}B_{1k}+A_{n2}B_{2k}+\dots+A_{nm}B_{mk}&\dots&A_{n1}B_{1n}+A{n2}B_{2n}+\dots+A_{nm}B_{mn}
\end{bmatrix}\right)\&=\nabla_A \left(A_{11}B_{11}+A{12}B_{21}+\dots+A_{1m}B_{m1}+A_{k1}B_{1k}+A_{k2}B_{2k}+\dots+A_{km}B_{mk}+A_{n1}B_{1n}+A{n2}B_{2n}+\dots+A_{nm}B_{mn}\right)\&=\begin{bmatrix}
B_{11}&\dots&b_{m1}\\vdots&\ddots&\vdots\B_{1n}&\dots&B_{mn}
\end{bmatrix}\&=B^T
\\\end{align}\]

方程(4)可以利用矩阵逆的伴随表示来得到。

2.2 最小二乘回归

获取一个训练集,定义决策矩阵\(X\)是\((m\times n)\)(如果包含截距项,则是\((m\times n+1)\)):

\[X=\begin{bmatrix}
—(x^{(1)})^T—\—(x^{(2)})^T—\—\vdots—\—(x^{(m)})^T—
\end{bmatrix}\]

令\(\overrightarrow y\)作为一个m维向量,包含训练集的所有目标值。

\[\overrightarrow y=\begin{bmatrix}
—(y^{(1)})—\—(y^{(2)})—\—\vdots—\—(y^{(m)})—
\end{bmatrix}\]

因为\(h_{\theta}(x^{(i)})=(x^{(i)})^T\theta\),\(\theta\)是一个\((n\times 1)\)向量,所以有:

\[\begin{align}
X\theta-\overrightarrow y &=
\begin{bmatrix}
—(x^{(1)})^T\theta—\—(x^{(2)})^T\theta—\—\vdots—\—(x^{(m)})^T\theta—
\end{bmatrix} -
\begin{bmatrix}
—(y^{(1)})—\—(y^{(2)})—\—\vdots—\—(y^{(m)})—
\end{bmatrix}\&=\begin{bmatrix}
h_{\theta}(x^{(1)})-(y^{(1)})\h_{\theta}(x^{(2)})-(y^{(2)})\\vdots\h_{\theta}(x^{(m)})-y^{(m)})
\end{bmatrix}
\\\end{align}\]

对于一个向量\(z\),我们有\(z^Tz=\begin{matrix} \sum_i z_i^2 \end{matrix}\):

\[\begin{align}
\frac{1}{2}(X\theta-\overrightarrow y)^T(X\theta-\overrightarrow y)&=\frac{1}{2} \sum_{i=1}^m (h_{\theta}(x^{(i)})-y^{(i)})^2
\\&=J(\theta)
\\\end{align}\]

在对\(\theta\)求导前,首先根据方程(2)和方程(3),得:

\[\nabla_{A^T}trABA^TC = B^TA^TC^T + BA^TC\qquad \qquad \qquad \qquad(5)\]

因此:

\[\begin{align} \nabla_{\theta}J(\theta)
&=\nabla_{\theta}\frac{1}{2}(X\theta-\overrightarrow y)^T(X\theta-\overrightarrow y)\&=\frac{1}{2}\nabla_{\theta}(\theta^TX^TX\theta-\theta^TX^T\overrightarrow y-\overrightarrow y^TX\theta+\overrightarrow y^T\overrightarrow y)\&=\frac{1}{2}\nabla_{\theta}tr(\theta^TX^TX\theta-\theta^TX^T\overrightarrow y-\overrightarrow y^TX\theta+\overrightarrow y^T\overrightarrow y)\&=\frac{1}{2}\nabla_{\theta}(tr\theta^TX^TX\theta-2tr\overrightarrow y^TX\theta)\&=\frac{1}{2}(X^TX\theta+X^TX\theta-2X^T\overrightarrow y)\&=X^TX\theta-X^T\overrightarrow y
\end{align}\]

在第三步,因为\(\theta=(n\times 1),X=(m\times n)\),所以\(\theta^TX^TX\theta-\theta^TX^T\overrightarrow y-\overrightarrow y^TX\theta+\overrightarrow y^T\overrightarrow y\)计算后得出是一个\((1\times 1)\)矩阵,即一个实数,根据\(tr\,a = a\)可推导出第2步和第3步。第5步用方程(5),通过使\(A^T=\theta,B=B^T=X^TX和C=I还有方程(1)\)得出。要使\(J\)最小化,则令\(\nabla_{\theta}J(\theta)\)为0,得出:

\[X^TX\theta=X^T\overrightarrow y\]

所以,要使\(J\)最小化,则需要令:

\[\theta=(X^TX)^{-1}X^T\overrightarrow y\]

3 概率解释

为什么在处理一个回归问题的时候可以用线性回归,特别是为什么可以用最小二乘法来计算损失函数\(J\)。

现在,让我们通过下面方程来假设输出变量和输入之间的关系:

\[y^{(i)}=\theta^Tx^{(i)}+\epsilon^{(i)}\]

在这里\(\epsilon^{(i)}\)是误差项,代表在建模时没有考虑到的因素,或者是随机噪声。根据高斯分布(Gaussian distribution),现在假设\(\epsilon^{(i)}\)是独立同分布(IID,independently and indentically distributed),其中使高斯分布的均值\(\mu\)为0,方差为\(\sigma^2\),即\(\epsilon^{(i)}\in \mathcal{N}(0,\sigma^2)\),因此,\(\epsilon^{(i)}\)的密度是:

(\(\epsilon^{(i)}\)之所以假设为高斯分布是因为根据中心极限定理,大量相互独立的变量之和是符合正态分布的。)

\[p(\epsilon^{(i)})=\frac{1}{\sqrt{2\pi}\sigma}exp\left(-\frac{(\epsilon^{(i)})^2}{2\sigma^2}\right)\]

即给定\(x^{(i)}\)和参数\(\theta\)时,函数值应服从高斯分布:

\[p(y^{(i)}|x^{(i)};\theta)=\frac{1}{\sqrt{2\pi}\sigma}exp\left(-\frac{(y^{(i)}-\theta^Tx^{(i)})^2}{2\sigma^2}\right)\]

\(p(y^{(i)}|x^{(i)};\theta)\)是给定\(\theta\)和\(x^{(i)}\)的\(y^{(i)}\)的分布,其中\(\theta\)不属于条件,不是一个随机变量。

\(y^{(i)}\)的分布表示:\(y^{(i)}|x^{(i)};\theta \sim \mathcal{N}(\theta^Tx^{(i)},\sigma^2)\)

上面是一个样本的分布方程,现在给写一个\(X\)和\(\theta\),得到预测值\(\overrightarrow y\)的函数,其中\(\theta\)是定值,该方程也称为似然函数:

\[L(\theta)=L(\theta;X,\overrightarrow y)=p(\overrightarrow y|X;\theta)\]

注意,上式是基于\(\epsilon^{(i)}\)的独立性假设,方程也可以表示:

\[\begin{align}L(\theta)
&=\coprod_{i=1}^m p(y^{(i)}|x^{(i)};\theta)\&=\coprod_{i=1}^m \frac{1}{\sqrt{2\pi}\sigma}exp\big(-\frac{(y^{(i)}-\theta^Tx^{(i)})^2}{2\sigma^2}\big)\\end{align}\]

现在,为了找出参数\(\theta\)的最优解,通过极大似然来选择出使\(L(\theta)\)最大化的\(\theta\)值。首先,用对数似然函数代替似然函数

\[\begin{align}\ell(\theta)
&=logL(\theta)\&=log\coprod_{i=1}^m \frac{1}{\sqrt{2\pi}\sigma}exp\big(-\frac{(y^{(i)}-\theta^Tx^{(i)})^2}{2\sigma^2}\big)\&=\sum_{i=1}^m log\frac{1}{\sqrt{2\pi}\sigma}exp\big(-\frac{(y^{(i)}-\theta^Tx^{(i)})^2}{2\sigma^2}\big)\&=mlog\frac{1}{\sqrt{2\pi}\sigma}-\frac{1}{\sigma^2}*\frac{1}{2}\sum_{i=1}^m (y^{(i)}-\theta^Tx^{(i)})^2
\end{align}\]

要极大化\(\ell(\theta)\),则需要极小化

\[\frac{1}{2}\sum_{i=1}^m (y^{(i)}-\theta^Tx^{(i)})^2\]

这就是最小二乘损失函数\(J(\theta)\)。

4 局部加权线性回归

对于一个从\(x\in \mathbb{R}\)预测\(y\)的问题,下面左图中,使用了\(y=\theta_0+\theta_1x\)来匹配数据集。然而实际上,图中的数据并不是一条直线。

现在如果添加多一个特征\(x^2\),即\(y=\theta_0+\theta_1x+\theta_2x^2\),结果能够更好的匹配数据,然而,如果添加过多的特征,如右图所示,虽然通过了数据集的每一个点,然而这并不是十分好的结果。

对于左图所示的情况,函数明显没有很好地描述数据,这样的情况称为欠拟合;而右图的情况被称为过拟合

因此,特征的选择对于确保学习算法的良好性能很有帮助。

局部加权线性回归(LWR)能够使特性的选择对于算法来说不那么重要。

一般的线性回归算法,为了获取预测值,需要:

1,找到使\(\sum_{i=1} (y^{(i)}-\theta^Tx^{(i)})^2\)最小化的\(\theta\)

2, 输出\(\theta^Tx\)

局部加权线性回归算法:

1,找到使\(\sum_{i=1} w^{(i)}(y^{(i)}-\theta^Tx^{(i)})^2\)最小化的\(\theta\)

2, 输出\(\theta^Tx\)

其中\(w^{(i)}\)是一个非负的权重值。

\[w^{(i)}=exp\big(-\frac{(x^{(i)}-x)^2}{2\tau^2}\big)\]

\(\tau\)参数控制了权值变化的速率,

当\(|x^{(i)}-x|\)很小时,\(w^{(i)}\)接近1,如果\(|x^{(i)}-x|\)很大,\(w^{(i)}\)接近0。其中\(x\)是我们需要评估的点。因此,选择\(\theta\)时对于离\(x\)近的训练样本有高的权重,而对于与训练样本距离大的有小的权重。这样就达到了局部加权的目的。

局部加权线性回归属于非参数学习算法,而之前的线性回归算法属于参数学习算法。

线性回归算法有固定的参数\(\theta\),一旦确定了\(\theta\)值后,我们不再需要保留训练数据,以对新的特征值进行预测。

而局部加权线性回归算法需要保留整个训练集以便计算\(w^{(i)}\)。

原文地址:https://www.cnblogs.com/evenelina/p/8427144.html

时间: 2024-08-02 02:39:35

【CS229笔记一】监督学习,线性回归,LMS算法,正态方程,概率解释和局部加权线性回归的相关文章

机器学习实战线性回归局部加权线性回归笔记

线性回归 用线性回归找到最佳拟合直线 回归的目的是预测数值型数据,根据输入写出一个目标值的计算公式,这个公式就是回归方程(regression equation),变量前的系数(比如一元一次方程)称为回归系数(regression weights).求这些回归系数的过程就是回归. 假设输入数据存放在矩阵X 中,回归系数存放在向量w 中,那么对于数据X 1  的预测结果可以用Y 1 =X T 1 w 得出.我们需要找到使误差最小的w ,但是如果使用误差之间的累加的话,那么正负误差将会抵消,起不到效

线性回归和局部加权线性回归

线性回归 算法优缺点: 优点:结果易于理解,计算不复杂 缺点:对非线性数据拟合不好 适用数据类型:数值型和标称型 算法思想: 这里是采用了最小二乘法计算(证明比较冗长略去).这种方式的优点是计算简单,但是要求数据矩阵X满秩,并且当数据维数较高时计算很慢:这时候我们应该考虑使用梯度下降法或者是随机梯度下降(同Logistic回归中的思想完全一样,而且更简单)等求解.这里对估计的好坏采用了相关系数进行度量. 数据说明: 这里的txt中包含了x0的值,也就是下图中前面的一堆1,但是一般情况下我们是不给

局部加权线性回归(Locally weighted linear regression)

首先我们来看一个线性回归的问题,在下面的例子中,我们选取不同维度的特征来对我们的数据进行拟合. 对于上面三个图像做如下解释: 选取一个特征,来拟合数据,可以看出来拟合情况并不是很好,有些数据误差还是比较大 针对第一个,我们增加了额外的特征,,这时我们可以看出情况就好了很多. 这个时候可能有疑问,是不是特征选取的越多越好,维度越高越好呢?所以针对这个疑问,如最右边图,我们用5揭多项式使得数据点都在同一条曲线上,为.此时它对于训练集来说做到了很好的拟合效果,但是,我们不认为它是一个好的假设,因为它不

Locally Weighted Linear Regression 局部加权线性回归-R实现

线性回归容易出现过拟合或欠拟合的问题. 局部加权线性回归是一种非参数学习方法,在对新样本进行预测时,会根据新的权值,重新训练样本数据得到新的参数值,每一次预测的参数值是不相同的. 权值函数: t用来控制权值的变化速率(建议对于不同的样本,先通过调整t值确定合适的t) 不同t值下的权值函数图像: 局部加权线性回归R实现: #Locally Weighted Linear Regression 局部加权回归(非参数学习方法) ##x为数据矩阵(mxn m:样本数 n:特征数 );y观测值(mx1);

matlab练习程序(局部加权线性回归)

通常我们使用的最小二乘都需要预先设定一个模型,然后通过最小二乘方法解出模型的系数. 而大多数情况是我们是不知道这个模型的,比如这篇博客中z=ax^2+by^2+cxy+dx+ey+f 这样的模型. 局部加权线性最小二乘就不需要我们预先知道待求解的模型,因为该方法是基于多个线性函数的叠加,最终只用到了线性模型. 计算线性模型时引入了一个加权函数: 来给当前预测数据分配权重,分配机制是:给距离近的点更高的权重,给距离远的点更低的权重. 公式中的k类似与高斯函数中的sigma. 当sigma变大时,函

CS229 笔记03

CS229 笔记03 局部加权线性回归 Non-Parametric Learning Algorithm (非参数学习方法) Number of parameters grows with the size of sample. (参数的数目随着样本的数目增加而增加.) Locally Weighted Regression (局部加权线性回归) 损失函数的定义为: $ J_\Theta=\sum_i{w^{(i)}(y^{(i)}-\Theta^{{\rm T}}x^{(i)})^2} $

局部加权回归、欠拟合、过拟合 - Andrew Ng机器学习公开课笔记1.3

本文主要讲解局部加权(线性)回归.在讲解局部加权线性回归之前,先讲解两个概念:欠拟合.过拟合,由此引出局部加权线性回归算法. 欠拟合.过拟合 如下图中三个拟合模型.第一个是一个线性模型,对训练数据拟合不够好,损失函数取值较大.如图中第二个模型,如果我们在线性模型上加一个新特征项,拟合结果就会好一些.图中第三个是一个包含5阶多项式的模型,对训练数据几乎完美拟合. 模型一没有很好的拟合训练数据,在训练数据以及在测试数据上都存在较大误差,这种情况称之为欠拟合(underfitting). 模型三对训练

局部加权回归、欠拟合、过拟合-Andrew Ng机器学习公开课笔记1.3

本文主要讲解局部加权(线性)回归.在讲解局部加权线性回归之前,先讲解两个概念:欠拟合.过拟合,由此引出局部加权线性回归算法. 欠拟合.过拟合 如下图中三个拟合模型.第一个是一个线性模型,对训练数据拟合不够好,损失函数取值较大.如图中第二个模型,如果我们在线性模型上加一个新特征项,拟合结果就会好一些.图中第三个是一个包含5阶多项式的模型,对训练数据几乎完美拟合. 模型一没有很好的拟合训练数据,在训练数据以及在测试数据上都存在较大误差,这种情况称之为欠拟合(underfitting). 模型三对训练

最大熵学习笔记(五)最优化算法

  生活中我们经常听到人们说"不要把鸡蛋放到一个篮子里",这样可以降低风险.深究一下,这是为什么呢?其实,这里边包含了所谓的最大熵原理(The Maximum Entropy Principle).本文为一则读书笔记,将对最大熵原理以及由此导出的最大熵模型进行介绍,重点给出其中所涉及数学公式的理解和详细推导. 相关链接 最大熵学习笔记(零)目录和引言 最大熵学习笔记(一)预备知识 最大熵学习笔记(二)最大熵原理 最大熵学习笔记(三)最大熵模型 最大熵学习笔记(四)模型求解 最大熵学习笔