一些开源的统计机器翻译系统简要介绍

最近打算深入了解一下机器翻译系统的具体功能模块,以东北大学的Niutrans为蓝本,其用户手册里有一些对其他开源的统计机器翻译系统的介绍,觉得也不错,就简要地记一下发在这里。

Moses:Edinburgh大学SMT小组开发。最新版本的同时支持基于短语的以及基于句法的模型(从短语,规则的提取到解码)。提供了分解的翻译模型,使得信息在不同层之间利用。还有混淆网络以及词格作为输入的使用,减弱了在ambiguous upstream 系1-best输出的错误。此外Moses的package提供了很多有用的脚本和工具,用以支持附加的特征。

Joshua:另一种state-of-the-art(顶尖)的开源SMT系统,Johns HopkinsUniversity开发的。其基础模型是[Chiang,2005]提出来的基于层次短语的模型。相比于基础模型,

Joshua 提供了一些有趣的特征,比如有语法的解码,利用map-reduce进行的平行训练以及多种的解码。由于它是以Java实现的,所以扩展性比较好,能用在不同的平台运行和开发。对于新想法以及当前先进的结果,用Java实现也比较简便(相比于C/C++)。

SilkRoad:就是丝路系统。这是一个基于短语的SMT系统,由中国的五个大学和研究机构研发(中科院自动化所,软件所,计算所,厦门大学,哈工大)。丝路系统是亚洲第一个开源的SMT系统。首要目标是支持中-外翻译,当然也有其他语言对的翻译。它有一些有用的组件,比如分词模块,可以让用户很容易地建立中-外翻译系统。此外,丝路系统支持有多重的解码以及规则提取,利用不同组合的支系统,为实验提供多样的选项。

SAMT:SAMT是一个由卡内基梅隆大学机器翻译小组研发的增强句法的SMT系统。它利用目标树减少了翻译规则。其亮点是提供了简单有效的方式去利用SMT中的句法信息,并且在一些工作中都显示出不错的效果。因为其是由hadoop实现的,所以可以从对大数据集的分布式处理中受益。

Cdec:这是一种powerful的decoder。可以用作一种校准或者一种SMT的学习框架。很快,因为是用C++开发的。

?

Phrasal:由斯坦福自然语言处理小组开发。作为对传统的基于短语模型的补充,它也支持基于非层次短语的模型,是对基于短语翻译到非连续短语的扩展。所以,能对不可见的数据提供更好的普遍化的方法,甚至处理在层次模型中(比如在Joshua中)miss的cases。[A large-scale statistical machine translation system written in Java. http://www-nlp.stanford.edu/wiki/Software/Phrasal]

Jane:另一种用C++实现的基于短语和基于层次短语的模型。支持很多有趣的特征(比如MIRA对于权值的调整),在一些工作中也取得了显著的结果。

时间: 2024-08-01 19:06:03

一些开源的统计机器翻译系统简要介绍的相关文章

统计翻译系统中的开源工具们

(根据 计算机世界/2007年/10月/22日/第B15版 文章改编) 开源工具对统计翻译带来的意义不必多说,想必也都能体会出来.Brown等提出IBM模型是在20世纪90年代初,而IBM模型广泛使用和研究的年份竟然是1999年以后!促成这种想象的原因竟是开源工具包的出现!开源工具的出现,降低了研究的准入门槛,使得我们可以正真意义上的站在巨人的肩膀上,来做进一步的探索!感谢那些开源工具们,记住他们,利用他们,让我们的研究更上一层楼! 一.开源工具 1. 首个开源统计机器翻译工具包Egypt (包

最新最全的Cleanflight 无人机开源代码的系统列介绍

Cleanflight can be used on multirotor aircraft and fixed-wing aircraft, it supports a variety for shapes and motor counts, not limited to quadcopters, hexacopters, octocopters, tricopters and planes. Cleanflight is Open-Source flight controller softw

【未完成】《统计机器翻译》读书笔记:系列0,全书概述与个人总结

说明:本系列文章是本人在阅读统计机器翻译后所做的个人读书笔记,会按照每一章的顺序来按章详细叙述内容总结和习题解答. 系列0:全书概述与个人总结 本书是大牛Philipp Koehn的作品,他是开源项目Moses项目的领导者,具体可以去www.statmt.org/moses/查看,我也会在未来的半个月写一些有关Moses学习的博文. 本书分为三个部分:基础知识(介绍机器翻译需要语言学的基础.概率论的基础).核心方法(基于词的翻译模型.基于短语的翻译模型.解码decoding).前沿研究 在绪论部

几款开源的中文分词系统

中文分词是做好中文内容检索.文本分析的基础,主要应用于搜索引擎与数据挖掘领域.中文是以词为基本语素单位,而词与词之间并不像英语一样有空格来分隔,因而中文分词的难点在于如何准确而又快速地进行分词 以下介绍4款开源中文分词系统. 1.ICTCLAS – 全球最受欢迎的汉语分词系统 中文词法分析是中文信息处理的基础与关键.中国科学院计算技术研究所在多年研究工作积累的基础上,研制出了汉语词法分析系统ICTCLAS(Institute of Computing Technology, Chinese Le

【afinal框架】FinalBitmap的简要介绍与使用

首先,afinal开源框架是由国内开发者杨福海编写整理而成,在此,感谢他的无私贡献. afinal框架的github地址 afinal框架有四个部分,分别为FinalActivity.FinalBitmap.FinalDb.FinalHttp组成,分别完成Activity定义.图片加载.数据库使用.网络操作的功能,具体的介绍不再说了,今天这篇文章主要是介绍FinalBitmap,也就是图片加载这个类的使用与介绍. 首先在Android开发中,图片的显示可以说是必不可少的,由于Android运行平

0-Android编译系统简要介绍和学习计划

Android编译系统简要介绍和学习计划 来源:http://blog.csdn.net/luoshengyang/article/details/18466779 导语: 在Android源码环境中,我们开发好一个模块后,再写一个Android.mk文件,就可通过m/mm/mmm/make等命令进行编译.此外,通过make命令还可制作各种系统镜像文件,例如system.img.boot.img和recovery.img等.这一切都得益于Android编译系统,它为我们处理了各种依赖关系,以及提

Android运行时ART简要介绍和学习计划

Android在4.4就已推出新运行时ART,准备替代用了有些时日的Dalvik.不过当时尚属测试版,主角仍是Dalvik. 直到今年的Google I/O大会,ART才正式取代Dalvik.这个消息在科技界引起不小轰动,也吸引不少技术人员对它的"技术分析".可惜这些"技术分析"不过是引用了官方的数据和图表而已.这一系列文章将对ART进行真正的技术分析.老规矩,分析前先进行简要介绍和制定学习计划. 老罗的新浪微博:http://weibo.com/shengyang

SEAndroid安全机制简要介绍和学习计划

与iOS相比,Android最被人诟病的是其流畅性和安全性.然而,从4.0开始,Android不遗余力地改善其流畅性.特别是在即将发布的L版本中,用ART替换了Dalvik,相信会越来越流畅.至于安全性,Android也没有遗忘.从4.3开始,Android引入了一套基于SELinux的安全机制,称为SEAndroid,来加强系统安全性.接下来我们就对SEAndroid进行简要介绍和制定学习计划. 老罗的新浪微博:http://weibo.com/shengyangluo,欢迎关注! 在介绍SE

0-Broadcast机制原理简要介绍

Broadcast机制简要介绍 来源: http://blog.csdn.net/luoshengyang/article/details/6730748 导语 广播机制在Android系统中,也不算是什么创新的东西.如果读者了解J2EE或者COM,就会知道,在J2EE中,提供了消息驱动Bean(Message-Driven Bean),用来实现应用程序各个组件之间的消息传递:而在COM中,提供了连接点(Connection Point)的概念,也是用来在应用程序各个组间间进行消息传递.无论是J