Integrating Weakly Supervised Word Sense Disambiguation into Neural Machine Translation
一篇关于机器翻译的论文,目的是是将词义信息加到机器翻译模型中,以此缓解机器翻译模型对于多义词翻译不准确的问题。
引入的方法很简单,输入机器翻译模型的word emebdding将由常规的word embedding和词义embedding拼接而成,让模型对单词的词义敏感。问题有两个:
1 每个单词不同词义embedding从哪里来
2 对于某一个token,如何确定使用哪个词义embedding
对于第一个问题,该论文通过wordnet获取单词w的词义描述以及使用该词的example,将词义描述或者example里的单词进行embedding,再取平均就作为每个词义的初始embedding。对于词义描述和example处理方式略有不同。词义描述使用其中所有单词的embedding的平均,而example则是选择单词w左右窗口内的词的embedding做平均,原因是example可能是很长的句子,把这个句子所有的词考虑进来会带来很多噪音。有的词义的初始centroid embedding,接下来就是对词义进行聚类进而达到词义消歧的目的。聚类的方法论文中采用的三种,例如k-means等等。首先会在源语言句子中抽取单词w的片段,例如预设一个窗口,这个窗口内的单词(除去停用词)的emebdding的平均作为w的候选词义embedding。然后根据初始centroid embeddings对所有候选词义embedding做聚类。聚类的k可有wordnet中对于单词w保存的词义个数来确定。
对于第二个问题,就是简单的和对应的多个词义embedding做相似度计算,选择最相似的。也可以通过相似性算的每个词义的权重,再根据这个权重对所有词义embedding做带权平均。
原文地址:https://www.cnblogs.com/zhuangliu/p/12681645.html