统计机器翻译(SMT)步骤总结

本文是在Niutrans论坛中的系列教程中总结出来的。

1、语料预处理

预处理的结果是生成双语分词之后的文件,该步需要注意的是对规则短语,比如数字、日期、网址等,进行泛化处理。可以用正则方法或者其它方法。注意日期中的点和外文人名中的点和网址中的点和句末标点要区分开来,数字和日期也要区分开来。

其中变化比较大的,比较难处理的,应该是中文的日期,因为它的格式比较多变。从文本中抽取出来中文日期时间(或者更进一步的转化成标准的时间格式),有一个办法,就是用trie树进行抽取,相较于写一大堆翻乱的正则表达式而言,它具有逻辑清晰,扩展简单,代码复杂度低的优点。具体算法过程会在后续的文章中详细解说。就SMT的具体功能而言,在这一步其实只要把稍微规则的时间格式,比如2014-11-7,13:15这类的格式泛化出来就可以了;像诸如【三月8号下午6点半】【后天晚上7点】这类的,没必要也泛化出来,其中包含的数字泛化出来即可,对结果的准确性影响不大。

在泛化之后的双语中(特指不同种语言,比如中英文),最好检查一下泛化的一致性,比如在中文中有多少个数字,英文中也要有对应的数目,时间日期网址等的个数也要相等。

而在文白双语中,因为古文的语法语义跟现在有出入,可以不做处理。这一步可以弱化甚至不做。即只需要简单的分词即可,古文的分词方法也需要斟酌,在实践中我们采取的是一元分词,即一字一词。

2、词对齐

词对齐阶段使用GIZA++进行单向对齐(实现了IBM model 1~5,具体算法我也在学习中),然后结合两个单向对齐结果,利用对称算法生成最终的对齐结果。

对称算法大概是这样的,先根据两个结果生成一个矩阵。Mij保存对齐结果:1)i与j双向对齐;2)i对齐j;3)j对齐i;4)i与j没有对齐。

1,把所有的1)节点加入结果集;

2,检查结果集的每个节点的前后左右邻居,有孤立无主的(即只与它相邻的2或者3情况),吸附过去;

3,剩下的孤立的2)或者3)也加入结果集。

完毕。图就不画了。

时间: 2024-10-10 07:02:37

统计机器翻译(SMT)步骤总结的相关文章

【未完成】《统计机器翻译》读书笔记:系列0,全书概述与个人总结

说明:本系列文章是本人在阅读统计机器翻译后所做的个人读书笔记,会按照每一章的顺序来按章详细叙述内容总结和习题解答. 系列0:全书概述与个人总结 本书是大牛Philipp Koehn的作品,他是开源项目Moses项目的领导者,具体可以去www.statmt.org/moses/查看,我也会在未来的半个月写一些有关Moses学习的博文. 本书分为三个部分:基础知识(介绍机器翻译需要语言学的基础.概率论的基础).核心方法(基于词的翻译模型.基于短语的翻译模型.解码decoding).前沿研究 在绪论部

一些开源的统计机器翻译系统简要介绍

最近打算深入了解一下机器翻译系统的具体功能模块,以东北大学的Niutrans为蓝本,其用户手册里有一些对其他开源的统计机器翻译系统的介绍,觉得也不错,就简要地记一下发在这里. Moses:Edinburgh大学SMT小组开发.最新版本的同时支持基于短语的以及基于句法的模型(从短语,规则的提取到解码).提供了分解的翻译模型,使得信息在不同层之间利用.还有混淆网络以及词格作为输入的使用,减弱了在ambiguous upstream 系1-best输出的错误.此外Moses的package提供了很多有

基于统计机器翻译的文白对译

本文介绍利用NiuTrans工具进行文白对译的步骤,默认用户已经安装NiuTrans,安装目录为NiuTrans/,以下相对路径基于此目录. 文白对译模型训练步骤分为语料预处理.对齐.翻译模型训练.语言模型训练.参数调整四个阶段. 一.语料预处理 我们拿到的原始数据格式比较杂乱,需要做预处理,最终形成规则的平行语料数据. 语 料预处理包括统一标点符号,删除无关符号,删除段前段后,句前句后空格,分词等阶段.最终形成两个平行文件,暂称为src.txt和tgt.txt两个文 件(若是文白翻译src为文

GitChat·人工智能 | 除了深度学习,机器翻译还需要啥?

本文开始要写作的时候,翻译圈里出了一个"爆炸性"的事件.6月27日下午,一个同传译员在朋友圈里爆料:某AI公司请这位译员去"扮演"机器同传,制造人工智能取代人工同传的"震撼"效果. 这个事件瞬间在译员群体的朋友圈.微博.微信群引爆了隐忍已久的火药桶.因为过去几个月来,隔三差五就冒出一个号称要取代同声传译的翻译机,尤其是一篇题为<刚刚宣告:同声传译即将消亡!>的微信文章,在六月下旬铺天盖地的充满了一堆有关的或者无关的公众号,不知道带来了

统计学习方法笔记(1)——统计学习方法概论

1.统计学习 统计学习是关于计算机基于数据构建概率统计模型并运用模型对数据进行预测与分析的一门学科,也称统计机器学习.统计学习是数据驱动的学科.统计学习是一门概率论.统计学.信息论.计算理论.最优化理论及计算机科学等多个领域的交叉学科. 统计学习的对象是数据,它从数据出发,提取数据的特征,抽象出数据的模型,发现数据中的知识,又回到对数据的分析与预测中去.统计学习关于数据的基本假设是同类数据具有一定的统计规律性,这是统计学习的前提. 统计学习的目的就是考虑学习什么样的模型和如何学习模型. 统计学习

统计学习方法概论

统计学习 统计学习是关于计算机基于数据构建概率统计模型并运用模型对数据进行预测与分析的一门学科.统计学习也称为统计机器学习(statical machine learning). 统计学习的方法是基于数据构建统计模型从而对数据进行预测和分析.统计学习由监督学习.非监督学习.半监督学习和强化学习等组成. 统计学习方法包括假设空间.模型选择的准则.模型学习的算法,这些统称为统计学习方法的三要素:模型(Model).策略(Strategy).算法(Algorithm). 实现统计学习方法的步骤如下:

验证Oracle收集统计信息参数granularity数据分析的力度

最近在学习Oracle的统计信息这一块,收集统计信息的方法如下: DBMS_STATS.GATHER_TABLE_STATS ( ownname VARCHAR2, ---所有者名字 tabname VARCHAR2, ---表名 partname VARCHAR2 DEFAULT NULL, ---要分析的分区名 estimate_percent NUMBER DEFAULT NULL, ---采样的比例 block_sample BOOLEAN DEFAULT FALSE, ---是否块分析

[读]统计学习方法

这两天看<统计学习方法>,记录了一些基本的知识点. 1.统计学习的方法 从给定的.有限的.用于学习的训练数据集合出发,假设数据时独立同分布产生:并且假设要学习的模型术语某个函数的集合,称为假设空间:应用某个评价准则,从假设空间中选取一个最优的模型,使他对已知训练数据及未知测试数据在给定的评价准则下有最优的预测:最幽默型的选取由算法实现.这样,统计学习方法包括模型的假设空间.模型选择的准则以及模型学习的算法,称其为统计学习方法的三要素,简称为模型.策略和算法. 实现统计学习的步骤如下: (1)得

基于词汇衔接的文档级扩展机器翻译评测指标

摘要 本文提出了通过词汇链接的使用来提高文档级别机器翻译评估性能的想法.作为一种实现文字连贯的语言手段,词汇衔接通过相同或相关的意思的单词将句子连在一起组成一个有意义的交织结构.机器翻译与人工翻译进行了一场比较来表明他们的关键区别之一是人工翻译往往比机器翻译使用更多的衔接手段.很多方法应用这个特点来评测机器翻译提交的文档,其中包括不依赖于参考译文.实验结果表明,将这一特征与语句级评价指标进行融合可以提高与人工评判的相关性. 1 介绍 在过去的十年里,机器翻译从自动评价的发展中获益良多.在某种程度