Max Time-Delay Neural Networks

Time-Delay Neural Networks的解释见:http://en.wikipedia.org/wiki/Time_delay_neural_network

在参考文献中的两篇文章都使用以上述TDNN为基础Max-TDNN开始进行sentence modeling。

在文献[2]中sentence modeling最开始对输入层进行基本操作是卷积运算(convolution),他们的one-dimensional convolution分为两种 narrow类型和wide类型。

卷积公式为。上述公式中m取5。简单看就是下面的5个连续的与对应的权重进行操作得到上面的一个点。

左侧的narrow和右侧的wide的区别

1)公式上看是取值不同,narrow中为[m,s],wide为[1,s+m-1]。(s为输入层的长度)

2)从图像上看就是右侧需要对下层的点进行补0(左侧和右侧),使得上面多出的点仍可以进行卷积操作。

TDNN将输入s看成是一个带有时间维度的序列。在phoneme recognition中,输入序列中每个单位不是单值(如上图),而是一个d维向量。其进行卷积操作的m也需要进行改变,从上述的一个向量扩展为一个d*m的矩阵。这样一来,上述的图也需要进行扩展,可以看做在上图的基础上进行纵向扩展,每一个点变为一个d维度的向量(该处的点是向量在平面上的一个投影)。同样的,输出的序列c也要扩展为矩阵。

Max-TDNN是对上述TDNN的进一步约束。上图中序列c长度是随着输入序列s的长度变化而变化,而在一般神经网络中输入长度是需要固定的(超参数)。在TDNN中,输出的序列c矩阵列数变化,而行数是固定,为d。取每一行最大值形成一个新的固定d维度的向量

简单总结:Max-TDNN让变长的自然语言句子适应普通的神经网络的定长输入。

参考文章:

[1] A Unified Architecture for Natural Language Processing:Deep Neural Networks with Multitask Learning ICML08

[2] A convolutional neural network for modelling sentences ACL14

时间: 2024-12-27 22:39:07

Max Time-Delay Neural Networks的相关文章

(转)A Beginner's Guide To Understanding Convolutional Neural Networks Part 2

Adit Deshpande CS Undergrad at UCLA ('19) Blog About A Beginner's Guide To Understanding Convolutional Neural Networks Part 2 Introduction Link to Part 1 In this post, we’ll go into a lot more of the specifics of ConvNets. Disclaimer: Now, I do reali

Stanford机器学习笔记-4. 神经网络Neural Networks (part one)

4. Neural Networks (part one) Content: 4. Neural Networks (part one) 4.1 Non-linear Classification. 4.2 Neural Model(神经元模型) 4.3 Forward Propagation 4.4 神经网络实现与或非门以及异或门 4.4.1 实现与或非门(AND/OR/NOT) 4.4.2 实现异或/同或门(XOR/XNOR) 4.5 Multi-class classification k

深度学习笔记(一)卷积神经网络(Convolutional Neural Networks)

一.卷积 卷积神经网络(Convolutional Neural Networks)是一种在空间上共享参数的神经网络.使用数层卷积,而不是数层的矩阵相乘.在图像的处理过程中,每一张图片都可以看成一张"薄饼",其中包括了图片的高度.宽度和深度(即颜色,用RGB表示). 在不改变权重的情况下,把这个上方具有k个输出的小神经网络对应的小块滑遍整个图像,可以得到一个宽度.高度不同,而且深度也不同的新图像. 卷积时有很多种填充图像的方法,以下主要介绍两种,一种是相同填充,一种是有效填充. 如图中

神经网络指南Hacker's guide to Neural Networks

Hi there, I'm a CS PhD student at Stanford. I've worked on Deep Learning for a few years as part of my research and among several of my related pet projects is ConvNetJS - a Javascript library for training Neural Networks. Javascript allows one to ni

卷积神经网络用于视觉识别Convolutional Neural Networks for Visual Recognition

Table of Contents: Architecture Overview ConvNet Layers Convolutional Layer Pooling Layer Normalization Layer Fully-Connected Layer Converting Fully-Connected Layers to Convolutional Layers ConvNet Architectures Layer Patterns Layer Sizing Patterns C

Neural Networks Representation ----- Stanford Machine Learning(by Andrew NG)Course Notes

Andrew NG的Machine learning课程地址为:https://www.coursera.org/course/ml 神经网络一直被认为是比较难懂的问题,NG将神经网络部分的课程分为了两个星期来介绍,可见Neural Networks内容之多.言归正传,通过之前的学习我们知道,使用非线性的多项式能够帮助我们建立更好的分类模型.但当遇特征非常多的时候,需要训练的参数太多,使得训练非常复杂,使得逻辑回归有心无力. 例如我们有100个特征,如果用这100个特征来构建一个非线性的多项式模

[CS231n-CNN] Training Neural Networks Part 1 : activation functions, weight initialization, gradient flow, batch normalization | babysitting the learning process, hyperparameter optimization

课程主页:http://cs231n.stanford.edu/ ? Introduction to neural networks -Training Neural Network ______________________________________________________________________________________________________________________________________________________________

Convolutional Neural Networks for Visual Recognition 2

Linear Classification 在上一讲里,我们介绍了图像分类问题以及一个简单的分类模型K-NN模型,我们已经知道K-NN的模型有几个严重的缺陷,第一就是要保存训练集里的所有样本,这个比较消耗存储空间:第二就是要遍历所有的训练样本,这种逐一比较的方式比较耗时而低效. 现在,我们要介绍一种更加强大的图像分类模型,这个模型会很自然地引申出神经网络和Convolutional Neural Networks(CNN),这个模型有两个重要的组成部分,一个是score function,将原始

Hacker's guide to Neural Networks

Hacker's guide to Neural Networks Andrej Karpathy blog About Hacker's guide to Neural Networks Hacker's guide to Neural Networks Hi there, I'm a CS PhD student at Stanford. I've worked on Deep Learning for a few years as part of my research and among