Q:CNN最成功的应用是在CV,那为什么NLP和Speech的很多问题也可以用CNN解出来?为什么AlphaGo里也用了CNN?这几个不相关的问题的相似性在哪里?CNN通过什么手段抓住了这个共性?
以上几个不相关问题的相关性在于,都存在局部与整体的关系,由低层次的特征经过组合,组成高层次的特征,并且得到不同特征之间的空间相关性。
CNN抓住此共性的手段主要有四个:局部连接/权值共享/池化操作/多层次结构。
局部连接使网络可以提取数据的局部特征;权值共享大大降低了网络的训练难度,一个Filter只提取一个特征,在整个图片(或者语音/文本) 中进行卷积;池化操作与多层次结构一起,实现了数据的降维,将低层次的局部特征组合成为较高层次的特征,从而对整个图片进行表示。
卷积神经网络有三个结构上的特性:局部连接,权重共享以及空间或时间上的次采样。这些特性使得卷积神经网络具有一定程度上的平移、缩放和扭曲不变性。
Q:如何防止过拟合问题?
1、 从简单模型开始尝试;
2、 进行数据清洗(去除掉噪声比较大的数据);
3、 数据集扩增(利用已有资料人工生成一些相似数据);
4、 加正则项;
5、 做交叉验证;
6、 如果是深度学习,可以使用dropout层;
7、提前终止(当验证集上的效果变差的时候);
Q:如何解决欠拟合:
1、 添加其他特征项,有时候我们模型出现欠拟合的时候是因为特征项不够导致的,可以添加其他特征项来很好地解决。
2、 添加多项式特征,这个在机器学习算法里面用的很普遍,例如将线性模型通过添加二次项或者三次项使模型泛化能力更强。
3、 减少正则化参数,正则化的目的是用来防止过拟合的,但是现在模型出现了欠拟合,则需要减少正则化参数。
Q:什么造成梯度消失?
梯度消失会造成权值更新缓慢,模型训练难度增加。造成梯度消失的一个原因是,许多激活函数将输出值挤压在很小的区间内,在激活函数两端较大范围的定义域内梯度为0。造成学习停止。
减轻梯度消失问题的一个方法是使用线性激活函数(比如rectifier函数,即ReLu激活函数)或近似线性函数(比如softplus函数)。这样,激活函数的导数为1,误差可以很好地传播,训练速度得到了很大的提高。
Q:L1范数和L2范数的区别:
L1范数是指向量中各个元素绝对值之和,L1范数会使权值稀疏。
L2范数是指向量各元素的平方和然后求平方根。L2范数在回归里面,有人把有它的回归叫“岭回归”(Ridge Regression),有人也叫它“权值衰减“weight decay”。我们让L2范数的规则项||W||2最小,可以使得W的每个元素都很小,都接近于0,但与L1范数不同,它不会让它等于0,而是接近于0。
卷积神经网络的一些准则:
1、 避免表达瓶颈,特别是在网络靠前的地方。信息流前向传播过程中显然不能经过高度压缩的层,即表达瓶颈。从input到output,feature map的宽和高基本都会逐渐变小。比如一开始就来个kernel=7,stride=5,这样显然不合适。另外输出的维度channel,一般来说会逐渐增多(每层的num_output),否则网络会很难训练。(特征维度并不代表信息的多少,只是作为一种估计的手段)
2、 高维特征更易处理。高维特征更易区分,会加快训练。
3、 可以在低维嵌入上进行空间汇聚而无需担心丢失很多信息。比如在进行3*3卷积之前,可以对输入先进行降维而不会产生严重的后果。假设信息可以被简单压缩,那么训练就会加快。
这些并不能直接用来提高网络质量,而仅用来在大环境下指导。
大尺寸的卷积核可以带来更大的感受野,但也意味着更多的参数,比如5*5卷积核的参数是3*3卷积核的25/9=2.78倍。为此,可以用2个连续的3*3卷积层(stride=1)组成的小网络来代替单个5*5卷积层(保持感受野范围的同时又减少参数量)