机器学习技法笔记-Lecture 12 Neural network

介绍神经网络的基本概念以及Backprop的推导。

输入为x, 首先对x做一个线性变换到s，然后对s做（通常是非线性的）变换，作为下一层的输入。如果对s也是线性的，那整个网络就是线性的，就不需要那么多层了。

对 s 经常使用的一个是双曲余弦的变换tanh

在离原点比较远的地方，它比较像阶梯函数，在接近原点的地方，接近线性函数。

网络的计算过程

可以分两步看，一个是算score，一个是做transform.

如何学习网络中的权重呢？

学习的最终目标仍然是让Ein最小，Ein可以看做是关于全部的w_ij的函数，使用梯度下降法对w_ij进行迭代。

如何计算

这里的关键一点是对s_j的偏导可以由后一层的所有s_k的偏导得来。

所以对w_ij的更新是从后向前进行的，叫做backpropagation

NN的最优化问题，首先不是凸优化，另外不同的初始值会让结果收敛在不同的局部最优处，对初值是比较敏感的。

如果w_ij比较大，tanh函数就会在比较靠近+-1的地方，这时候梯度变化非常小，那么更新很缓慢。

NN的VC维大致等于神经元乘以权重的个数.

只要神经元个数足够多，就能拟合任何函数，当然也会overfit.

NN的正则化

L1正则不可微，通常选用L2正则，L2是一种weight decay的方法，通常会对大的weight进行更大的shrink，小的weight进行小的shrink。这里希望能达到L1特征稀疏的效果，就采用了一种 scaled L2，在小的weight上也进行一个中等的shrink，最后这些小的weight就会消失掉。

另外一个正则方法是 early stopping. 进行GD的步数可以看做vc维的一个反映。可以使用validation来选择走多少步。

所有和GD有关的算法都能使用early stopping.

时间： 2024-12-10 03:34:06

机器学习技法笔记-Lecture 12 Neural network的相关文章

机器学习技法笔记-Lecture 13 Deep learning

一些挑战: 网络结构的选择.CNN的想法是对邻近的输入,有着相同的weight. 模型复杂度. 最优化的初始点选择.pre-training 计算复杂度. 包含pre-training的DL框架如何做pre-training? 下面介绍了一种方式. weight可以看做是对x做特征转换,那么希望在第一次转换后(从0层到1层)仍然能保持足够多的原来的信息,那么再从1层回到0层,应该得到近似的结果. 这种NN叫做autoencoder,两层分别是编码和解码的操作,来逼近 identity func

coursera机器学习技法笔记(12)——Neural Network

12 Neural Network 12.1 Motivation 在神经网络的节点上使用感知机,那我们可以把神经网络看作是通过不同感知机以及常数的线性组合得到一个新的特征,将新的特征加上一个常数再进行线性组合得到结果.其原理和aggregation类似,但是在神经网络中进行了多层级的aggregation. 从生物的角度来说神经网络模拟了人脑神经网络. 12.2 Neural Network Hypothesis 如果神经元节点都用线性回归的话,那么无论怎么组合最终都是个线性回归,模型的能力没

coursera机器学习技法笔记(13-14)——deep learning & RBFNetwork

13 Deep Learning 13.1 Deep Neural Network 将神经网络的层数增大,即称为深度学习.深度学习一般在输入数据为row data的时候使用,因为这些数据很难人为构造出合适的特征.深度学习一般面临如下挑战: (1)神经网络结构的决定:一般只能通过人的主观领域知识来决定神经网络结构,例如图像识别中的convolutional NNet,即认为相邻的像素才有必要连接到下一层的同一神经元. (2)模型复杂度:由于高层神经网络会有很多变量,因此显然会提高模型复杂度.但是一

机器学习基石笔记-Lecture 3 Types of learning

介绍了机器学习中的几类问题划分. 半监督学习能够避免标记成本昂贵的问题. 强化学习,可以看做是从反馈机制中来学习. 在线学习,数据一个接一个地产生并交给算法模型线上迭代. 主动学习,机器能针对自己没有信心的数据提问,得到答案后再学习. 针对特征空间也有分类,比如具体的特征.原始的(个人理解是人为可提取的)特征和抽象的(个人理解是难以提炼的)特征.

coursera机器学习技法笔记(15)——Matrix Factorization

15 Matrix Factorization 15.1 Linear Network Hypothesis 将类别数据转换成向量数据,然后以每个样本的向量数据作为输入,评分数据作为输出,利用3层神经网络进行特征萃取. 由于向量特征数据大量稀疏,因此中间层的tanh函数并不会起什么作用,可以直接换成线性模型,即Linear Network. 将第1/2层网络的权重设为VT,第2/3层网络权重设为W,则该模型可以表述为: h(x)=WTVx 如果x是一个只有1个元素为1的向量,则该式可以写成: h

coursera机器学习技法笔记(7-8)——blending and bagging & Adaptive Boosting

7 Blending and Bagging 7.1 Motivation of Affregation 之前都是通过特征转换达到更好的分类目的,而有另一种思路就是将多个模型的分数线性组合起来以期得到更好的效果.它们的权重应为x的函数,这样能包含投票.取最大等多种情况. 7.2 Uniform Blending 本节从理论上探讨了blend的可行性: G(x)=1T∑Tt=1gt(x) 则: avg((gt?f)2)=avg((gt?G2))+(G?f)2 可以看出,任选一个g_t其误差期望是大

机器学习技法笔记六 Support Vector Regressssion

今天要说的是SVR 上一次提到了kernel logistic rgeression 1.kernel ridge regression 同时也提到了,对于任何的L2-regularized linear model,它的w都可以用资料的线性组合来表示对于以前学的linear regression ,我们的error,是用的squared error,即差值的平方来达到regression 如果把这个regression配合上regularization的话,那么就是ridge regress

机器学习基石笔记-Lecture 10 Logistic regression

soft binary classification的概念:软二分类,不直接化为-1.1,而是给出一个概率值. 目标函数是一个概率值,但是拿到的data中y只有0.1(或者-1.1),可以看做是有noise的data. logistic hypothesis 通过 theta 转化为 0.1间的数. 目标函数f(x)其实呢就是,那么那么对N个样本,产生的概率是对于f的估计h,似然函数为那么有: 使用w替换掉h,即求w的极大似然估计化简后等价于最后的Ein就是cross-entropy

机器学习基石笔记-Lecture 5-7 VC dimension

为了引出VC维做了很长的铺垫..VC维:用来描述假设空间的表达能力. 第四节讲到对有限的假设空间,只要N足够大,不管A如何选g,训练数据如何选取,g的训练错误率和真实的错误率都很接近. 现在先解决无限假设空间的问题. 希望找到一个 m_H 来替代无限大的M. 系数M的来源是因为对bad data的概率值进行了累加. 但是其实一些h在同一个data上是重叠的,union bound将概率放大了.这样就希望对h进行一些划分,找出在data上表现类似的h,归为一类. 这里举出了二维感知机分类的例子,来