摘要
本文提出了通过词汇链接的使用来提高文档级别机器翻译评估性能的想法。作为一种实现文字连贯的语言手段,词汇衔接通过相同或相关的意思的单词将句子连在一起组成一个有意义的交织结构。机器翻译与人工翻译进行了一场比较来表明他们的关键区别之一是人工翻译往往比机器翻译使用更多的衔接手段。很多方法应用这个特点来评测机器翻译提交的文档,其中包括不依赖于参考译文。实验结果表明,将这一特征与语句级评价指标进行融合可以提高与人工评判的相关性。
1 介绍
在过去的十年里,机器翻译从自动评价的发展中获益良多。在某种程度上,它的发展也受限于评价指标的局限性。大部分精力投入在了评价机器翻译输出的质量上,然而到目前为止仍集中在句子层面上却没有足够的关注于更大的文本结构。尤其体现在具有代表性的机器翻译评价指标上,比如BLEU (Papineni等人, 2002),METEOR (Banerjee and Lavie, 2005)和TER (Snover等人, 2006),即采用逐句翻译来或得机器翻译输出。文档级的评测结果通常是简单句子得分的平均水平。这种以句子为基础的评测的一大缺点就是忽略了文档的结构。如果通过简单地把独立的句子放在一起而没有足够的跨句子的连接产生,不过多么精心的翻译,都不能保证文本的连贯性。其结果是机器翻译系统通过最优化的这任意几种度量方式只有非常小的机会产生和人类书写的一样自然的翻译结果。
文档级机器翻译的输出精度对机器翻译系统的使用者特别重要,因为相比于每个句子语法的正确性,他们更关心一个文本整体含义的问题(Visser and Fuji, 1996)。在后期编辑中修改它的句子时特别需要确保机器翻译输出的整个文档的质量。总的来说,句子的连通性是影响一个文本易懂的显著原因。
本文研究凝聚力和连贯性的跨句子的语言特征,并提出可行的方法将其融入以句子为基础的度量标准以支持文档级别的机器翻译。在语言工程的国际标准(FEMTI) (King 等人, 2003)的机器翻译评测的框架中,连贯性被定义为“在符合整体文本意思的基础上,读者可以描述每个句子(或一组句子)的作用的程度”。连贯性的测量必须依靠凝聚力,指的是“在文本中存在意义的关系”(Halliday and Hasan, 1976)。凝聚力是通过句子间互连的语法和词法的实现。语法衔接是指文本项之间的句法联系,而词汇衔接是通过文本中词汇的选择来实现。本文关注的是后者。为了检查目前机器翻译系统在处理这个功能的弱点,首先进行的是在机器翻译输出和人工翻译间词汇衔接手段的定量比较。然后说明了在文档级开发机器翻译评测的词汇衔接手段的不同方法。
2 相关工作
衔接与连贯性都是在目标文本中很有必要的单语功能。他们很难被鼓励的评估且必须和其他质量标准相结合,比如适当性和流畅性。机器翻译后期编辑(Vasconcellos,1989)的调查表明,凝聚力和连贯性是超出许多其他诸如句法结构良好性的较高层次的质量标准。后期编辑往往在修正来改善机器翻译输出的凝聚力和连贯性之前首先纠正语法错误。此外,正如威尔克斯(1978)1指出,翻译一个足够大的样本同时做到保持连贯性和完全错误是极不可能的。衔接与连贯性是适合作为机器翻译输出的整体质量标准的。以往在机器翻译方面的研究主要集中在特定类型的衔接手段。对于语法衔接,一系列的作品,包括Nakaiwa
and Ikehara (1992),Nakaiwa等人(1995),以及Nakaiwa and Shirai (1996),提出了解决日本的零代词的方法并将其集成到日-英转基机器翻译系统。Peral等人(1999)通过利用一组丰富的词汇,句法,形态和语义信息提出了一种叫做人称代词代中介语的机制。Murata和Nagao(1993)以及Murata等(2001)制定了一个规则库以确定日本名词短语的指称性质,以便于促进日本的指代消解和在英文翻译中的文章产生。最近COMTIS项目(CARTONI等人,2011)开始利用跨句子信息进行统计机器翻译。其工作的阶段是有语法手段,比如言语紧张/方向/方式,话语连接词和代词,在多语言语料库中通过手动注释,希望能够为他们的自动贴标机可以集成到机器翻译模型的发展奠定基础。
对于词汇链接,根据机器翻译的翻译一致性,他只是部分或间接的被处理了。不同的方法在目标词的选择提出了保持一致性(Itagaki 等人,2007; Gong 等人,2011; Xiao等人, 2011)。Carpuat (2009)也发现了在整个翻译中,一个给定的感觉通常是编入一致的方式的人类翻译的一般趋势。
然而,只有很少的评价方法明确的针对于一篇文章的质量。Miller 和 Vanni (2001)设计了一种基于修辞结构理论(Mannand Thompson, 1988)的人工的评价方法来衡量一个文本作为一个整体的可理解性,它是一个文本组织在真实文本中指定的连贯关系的理论。Snover等人(2006)提出通过人工注解来评估后期编辑工作的HTER。但它的自动版本TER and TERp (Snover等人, 2009) 仍然是以句子为基础的度量。Comelles等人(2010)提出一系列的基于语篇表征理论(Kampand
Reyle, 1993)的自动机器翻译评价方法,即产生语义树将根据其上下文和语法的连接和不同的文本实体为同一指示物放在一起。除了机器翻译评测,自动写作评分程序如E-rater (Burstein, 2003) 还使用了一组丰富的话语功能进行评估。然而,语法分析进程需要这些种语言方法可能会遇到严重的语言错误,这在机器翻译输出中是不可避免的。因此,他们的准确性和可靠性为符合不同的估值数据难免波动。
词汇衔接手段在机器翻译和机器翻译评测这个两个方面已经远远的被忽视了,即使它是衔接手段的唯一最重要的形式,占据了接近一半的英语衔接手段(Halliday and Hasan, 1976)。这也是导致保留他们结构的文字对等翻译的显著特征(Lotfipour-Saedi,1997)。文本中的词汇衔接手段可以表示为词汇链交接相关实体。处理词汇链用于各种目的有很多种方法,例如Morris和 Hirst(1991), Barzilay和 Elhadad (1997), Chan (2004)
,Li 等人(2007)等等。相反地,语法衔接高度依赖于一个中文档结构良好的句法,词汇衔接是少受语法错误影响的。他的计算必须依赖于一个几乎适用每一种语言的词库。在本研究中,一些有或者没有依赖外部语言资源的词汇衔接配方将会被用于探讨机器翻译评测的目的。
3 人工翻译和机器翻译的词汇链接
本节介绍了机器翻译和人工翻译在使用词汇衔接手段方面的比较。这是一种直觉,作为优秀的人工翻译的一部分人工翻译比机器翻译使用了更多的衔接手段。用了两个不同的数据集来确保所述比较的可靠性和通用性。结果证实机器翻译在处理这个功能的无力以及在机器翻译评测中使用词汇衔接的必要性。
3.1数据
这项研究使用了MetricsMATR2008开发集(Przybocki等人, 2009)和多翻译汉语(MTC)的第四部分(Ma, 2006)。
表1:信息使用的数据集
它们由不同的源语言参考翻译机器翻译输出一起组成。MetricsMATR的数据是从NIST的开放机器翻译2006评测选中,而MTC4是从TIDES 2003机器翻译评测中选出。这项研究里的两个数据集都包括从充足的评价中被选中机器翻译输出的人工评价。表1提供了数据集的整体统计。
3.2词汇衔接手段的识别
词汇衔接是通过词汇的选择两个主要类型实现:重复和搭配。重复可在一个连续或渐变集实现特异性,通过在一端重复同一词项再另一端使用一般的名词来指向同一所指。在两端之间是使用的同义词(或近义词)和上级。搭配指的是那些共享相同或相似的语义关系的词项。包括互补性,反义词,逆向,同等的术语,部分关系,方式词等等。
在这项研究中,词汇衔接手段被定义为文档中重复一次或多次的实义词(也就是已被移除的无用词后的标记),除了那些重复和搭配还包括同义词,近义词和上级。重复是指一个文档中的相同单词或阻挡物。阻挡物被波特去阻的辅助识别(1980)。
为了给语义关系分类,WordNet(Fellbaum, 1998)被作为词汇资源使用。其中簇的相同意义(即同义词)组成语意组,也就是同义集。同义词集在WordNet中是根据语义关系相互连接的。在WordNet中距离为1的被定义为同义集对。语义距离的度量也被应用到识别近义词,也就是广义上的同义词,但在相同的同义集没有被分组。它把单词组的语义相近度量化成0到1之间的实数(越相近数字越大),其中问题所讨论的c1和c2属于概念(同义词集),d是从概念到WordNet的全局根节点的最短距离,lcs是c1和c2的最小归类(也就是最具体的概念始祖)。基于先前研究的经验观察,阈值设置为0.96被认为是双方的近义词(Wong,2010)。
3.3结果
就词汇衔接手段的频率而言,机器翻译和人工翻译(参考译文)在MetricsMATR和MTC4数据集中的区别列于表2中。频率就是机器翻译/人工翻译译文数的平均值。进一步的分类将实词分解到词汇衔接手段以及那些不是的实词的。每种类型的词汇衔接装置的数量也已经提供了。总的来说,这两种数据集提供高度相似的统计数据。人工翻译比机器翻译多了4.7%-5.1%的实词。机器翻译和人工翻译的普通实词(即非词汇衔接手段)的数目是接近的。实词的人工翻译和机器翻译的差异主要是由于该词汇衔接手段,其中大多是重复。在数据集中,人工翻译找到的词汇衔接手段比机器翻译多了8.9–11.4%。
表2:机器与人工翻译词汇衔接手段统计(机器翻译/人工翻译每个译文的平均频率)
进一步的分析调查了每个版本的机器翻译和人工翻译的词汇衔接手段有关下面两个比率的使用,LC=词汇衔接手段/实词,RC=重复/实词。较高的LC或RC比意味着实词更大比例被用作词汇衔接手段。
图1显示了在两个数据集的RC和LC比率。根据人力评估结果, 不同的机器翻译系统的比例列于每个图形从左到右的递增顺序。这些值的分布显示了两个数据集之间有很强的相似性。首先,大多数的RC和LC比的是在可观察到的范围内,也就是前者在0.25-0.35后者在0.40-0.50,除非一个机器翻译系统的LC值特别低。其次,与这些机器翻译相比较,
图1:机器翻译与人工翻译使用的词汇衔接手段对比
不同的人工翻译的版本的比率是非常稳定的。特别是在MetricsMATR数据集中四个人工翻译版本共享相同的RC比0.31。这说明了使用词汇衔接装置的典型水平。最后,机器翻译中的比率低于或最多相当于人工翻译,这表明它们与翻译质量的相关性:机器翻译越好,它们的RC和LC比值越接近在人翻译。这些结果证实我们的假设,即词汇衔接手段可以作为翻译质量水平的有效代理。
4 文档机器翻译评估
作为语篇层面的特征,词汇衔接是对目前主要集中在句子级的评测特征的很好的一个补充。如表3表述了一个从MetricsMATR数据集选取的例子,包括了两个机器翻译系统中仅两个段落的段文档的翻译输出。与参考译文的N元匹配是有下划线的,词汇衔接手段是
表3:不同质量的机器翻译输出的一个例子(下划线:匹配的n-gram,斜体:词汇衔接手段)
斜体字,这两个翻译洗勇有数量相近的N元匹配所以他们的BLEU评分相近。然而这些分数并不能反应他们在翻译质量上真正的区别,根据人工评价,第二个翻译系统要好些。相反地,他们的LC值似乎更准确的表达出了这种变化。第二个输出的主题也通过词汇链凸显出来,包括main/important,technology/technologies和achieve/achieving,在两个句子间创建了一个紧密的结构,这也是体现文本质量的一个关键因素。
为了体现文档级的机器翻译评价,LC和RC值可以单独使用或者融入句子级指标中。前一种方法的优势在于他不需要依赖任何的参考译文。LC主要需要一个计算语义关系的词典,而RC只需要一个形态学上的处理器,比如说词干分析器,这两种都可以用于大部分语言。然而,他的缺点就是他只依赖单一话语特征可能带来的风险。虽然词汇衔接提供了文本的连贯有力的表明,但他是可有可无的,因为即使没有任何表面线索,他也可能是连贯的。此外,文档的质量还体现在他的句子。一个连贯的译文可能是被误译的,另一方面,一个包含了很多句子级错误的文本会让人难以判断他文本质量的高低。之前一个比较句子级和文档级机器翻译评估的研究表明(Wong等人,2011)这两个层次的机器翻译输出的结果评分很不一致,句子级的机器翻译的输出的得分很低。在这些方面,如何整合这两个级别机器翻译指标是特别值得研究的。