本文内容来自名为convolutional networks for images, speech, and time-series的论文
作者:Yann LeCun, Yoshua Bengio
由于BP网络在复杂、高维、非线性上强大的学习分类能力,被广泛应用于图像识别、语言识别等领域。在、在传统有模式识别的模型中,通常是先用一个人工设计的特征提取器从输入中提取相关的特征,消除掉不相关的特征,然后再把提取到的特征送给传统的分类器。而现在我们可以用一个多层的全连接的网络来代代替这两者。具体做法是我们把原始的数据(不经过特征提取器处理)直接送给网络,然后用BP算法把网络的前几层转变为一个特征提取器,后面的几层作为分类器(通过BP算法来调整参数)。
这样存在着问题:1,当输入数据过大时,权值过多,当训练数据不足够多时很容易出现过拟合的问题。2,过多的参数也同样对硬件有太高的要求。3,have no built-in invariance with respect to translations or local distortions of the inputs. 4,全连接的网络结构完全忽略了输入数据的拓扑特性,结果,the input variables can be presented in any(fixed) order without affecting the outcome of the training.因为图像有很强的空间2维结构、时间串列有强的1维特性。
在理论上讲,一个有足够大的全连接网络可以学习到对于某些输入变化部分的输出不变性。但是样 是有代价的:1,这样产生的一个结果就是很多神经元有学习到相同的权值 2,需要大量的训练数据 .
下面就是卷神经网络的介绍。。略。
说重点:
1, 部分连接的这种想法最早可以追溯到60年代的感知器,与之同时出现的还有Hubel 与 Wiesel 在猫大脑发现的局部感受器。
2,来自Rumelhart、Hinton、and Williams 在1986年写的文章里说到:in addition, elementary feature detectors that are useful on one part of the image are likely to be useful across the entire image.This knowledge can be applied by forcing a set of units, whose receptive fields are located at different place on the image, to have identical weight vector.
3, The convolution/subsampling combination, inspired by Hubel and Wiesel`s notion of ‘simple’and ‘complex’cell, was implemented in the Neocognitron model(神经感知机模型).
variable-size convolutional networks
对于以下部分,我也没有完全明白.
对于变化的大小的卷积神经网络怎么办?意思就是当我们输入的不是一个字,而是连续的一行怎么办呢??
文中的做法,引用文中的一句话: a brute force sloution is to scan (or replicate) a recognizer at all possible location across the input.
有一句话我认为很重要: an output whose receptive field is centered on an elementary object will produce the class of the object,while an in_bettween output may be empty or contain garbage. The outputs can be interpreted as evidence for the categories of object centered at different positions oft the input field. A post-processor is therefore required to pull out consistent interpretations of the output.
应用: