1. 论文【1】中使用了DNN的思想进行对齐,对齐所需训练数据来自HMM和IBM Model4,算上输入层一共是四层结构,见下图:
效果好于原始的HMM和IBM4,见下图:
该思路可以用在许多地方,诸如:片段相似度、句子相似度、翻译概率、词向量等计算上。
不过,实际应用的话,DNN还是不能完全击败其他方法,从原理上来说,构造一个包含上下文特征的机器学习模型与此类似,当然可能有人会说词向量隐含了更多特征在其中,但从博主实际使用和观察中看来,词向量作用依然有限,问题可能在于语言的丰富含义与灵活组合上,语言这种东西是活的,而数学表征是死的。
举个例子:词向量相当于将一个字词看作了一个固定的工业零件,它有自己的规格参数,放在什么位置一目了然,但是很可惜,语言这个东西似乎没有那么简单,一个字词更像是一块液态金属,它不仅拥有现在的形状和大小,还可以与其他多种金属块组合,形成新的形状被赋予新的使用方式,例如big这个词有“大”的含义,但如我说big很高呢,那就是“逼格”的意思了,简单的用固定好的维度是无法表示出一个活灵活现的词语的。
说白了,词语是活的,向量是死的。
这就是我认为词向量虽然很有用,但是又不太实用的原因吧,个人有些不太成熟的想法,还有待验证。
2. 知识点:
待补充。。。
3. 近似代码实现(python版,使用IBM Model1 + NN):
后续补充。。。
引用:
【1】ACL‘13, Word Alignment Modeling with Context Dependent Deep Neural Network
转载请注明引用自:
http://www.cnblogs.com/breakthings/p/4049854.html
时间: 2024-11-09 06:27:11