【未完成】《统计机器翻译》读书笔记：系列0，全书概述与个人总结

说明：本系列文章是本人在阅读统计机器翻译后所做的个人读书笔记，会按照每一章的顺序来按章详细叙述内容总结和习题解答。

系列0：全书概述与个人总结

本书是大牛Philipp Koehn的作品，他是开源项目Moses项目的领导者，具体可以去www.statmt.org/moses/查看，我也会在未来的半个月写一些有关Moses学习的博文。

本书分为三个部分：基础知识（介绍机器翻译需要语言学的基础、概率论的基础）、核心方法（基于词的翻译模型、基于短语的翻译模型、解码decoding）、前沿研究

在绪论部分，本书说了机器翻译的简史：

　　Warren Weaver说过（大概意思）汉语文章其实是用一些奇怪编号编码的英文，解码过来就是翻译。

　　早期人们提出了很多的方法，包括直接翻译、转换方法、中间语言方法等等。 ALPAC报告之后，各种研究都跪了....

历史就不多说，还是说本书内容

第二章词、句子和语料

基本的文本处理步骤之一就是词例化（tokenization），比如说中文分词（我听说有个结巴分词托管在github上，有时间来补充地址）

后面叙述了齐夫定律，也就是词的序号r与使用频次f的乘积接近为一常量

写不下去了。。。准备每章写完详细总结再来写

【未完成】《统计机器翻译》读书笔记：系列0，全书概述与个人总结,布布扣,bubuko.com

时间： 2024-10-01 13:32:08

【未完成】《统计机器翻译》读书笔记：系列0，全书概述与个人总结的相关文章

C#刨根究底：《你必须知道的.NET》读书笔记系列

一.此书到底何方神圣? <你必须知道的.NET>来自于微软MVP-王涛(网名:AnyTao,博客园大牛之一,其博客地址为:http://anytao.cnblogs.com/)的最新技术心得和感悟,将技术问题以生动易懂的语言展开,层层深入,以例说理.全书主要,包括了.NET基础知识及其深度分析,以.NET Framework和CLR研究为核心展开.NET本质论述,涵盖了.NET基本知识几乎所有的重点内容.全书分为5个部分,第1部分讲述.NET与面向对象,从底层实现角度分析了.NET如何实现面向

《Mastering Opencv ...读书笔记系列》车牌识别（I）

http://blog.csdn.net/jinshengtao/article/details/17883075/ <Mastering Opencv ...读书笔记系列>车牌识别(I) http://blog.csdn.net/jinshengtao/article/details/17954427 <Mastering Opencv ...读书笔记系列>车牌识别(II) Mastering Opencv ...读书笔记系列>车牌识别(I) 标签: 车牌分割svm西

C#温故知新：《C#图解教程》读书笔记系列

一.此书到底何方神圣? 本书是广受赞誉C#图解教程的最新版本.作者在本书中创造了一种全新的可视化叙述方式,以图文并茂的形式.朴实简洁的文字,并辅之以大量表格和代码示例,全面.直观地阐述了C#语言的各种特性.新版本除了精心修订旧版内容外,还全面涵盖了C# 5.0的新增特性,比如异步编程.调用者信息.case表达式.带参数的泛型构造函数.支持null类型运算等.通过本书,读者能够快速.深入地理解C#,为自己的编程生涯打下良好的基础. 本书是C#入门的经典好书,适合对C#感兴趣的所有读者.Daniel

Web高级征程：《大型网站技术架构》读书笔记系列

一.此书到底何方神圣? <大型网站技术架构:核心原理与案例分析>通过梳理大型网站技术发展历程,剖析大型网站技术架构模式,深入讲述大型互联网架构设计的核心原理,并通过一组典型网站技术架构设计案例,为读者呈现一幅包括技术选型.架构设计.性能优化.Web安全.系统发布.运维监控等在内的大型网站开发全景视图. 本书不仅适用于指导网站工程师.架构师进行网站技术架构设计,也可用于指导产品经理.项目经理.测试运维人员等了解网站技术架构的基础概念:还可供包括企业系统开发人员在内的各类软件开发从业人员借鉴,了解

【英语魔法俱乐部——读书笔记】 0 序&前沿

[英语魔法俱乐部——读书笔记] 0 序&前沿 0.1 以编者自身的经历引入“不求甚解,以看完为目的”阅读方式,即所谓“泛读”.找到适合自己的文章开始“由浅入深”的阅读,在阅读过程中就会见到各种句型和常见单词,在上下文中学习单词和句型.阅读是积累Input的过程,有了足够的Input才能有Output,从而为写作打下基础. 0.2 异国文化.历史.人文的了解,对实事.政治.新闻.暗语双关文体的理解大有益处. 0.3 <文法俱乐部>是解决句子结构和语法的问题,为阅读和写作打下扎实的基础.&

《梦断代码》读书笔记第0篇

<梦断代码>读书笔记第0篇第0章:软件时间第1章:死定了第2章:Agenda之魂从老师布置这个作业之后,我便按照自己的计划开始阅读识字以来的第一本关于软件工程的小说——<梦断代码>,周一至周五每天睡前读几页. 首先,第一遍从第0章至第1章看完,我愣是不知道书上到底在说些什么,感觉这小说跟教科书一样好催眠,说实话,每次还没看多少行就困得不行了.所以,我看了第二遍(而且还寻思着再看不懂也不看第三遍了),果然,我还是没有与作者产生共鸣.不过,在再次阅读的过程中我勾画了一些给自己

读书笔记系列之——《把时间当做朋友》

0x00 前言今天我的单词还没背呢.我的文案还没有写完,明天要交了.下午我要去健身房健身,几个月没去了,又长胖了几斤.很多朋友看到这些,就会默默的想到,这不正是现在我的状态吗?是啊,我们的时间都去哪了,年纪越来越大,时间也过的越来越快.不知不觉中我早已落在了时间的后面,望着他的背影渐渐离去.刚开始还有些勇气去追逐,奔跑.试图追上他的步伐,渐渐的距离越来越远,我们甚至连抬起头的勇气都没有了,任凭时间消磨着我们的意志,像旋涡一样吞噬着你.可是明显有一些人,明显在数量上并不是大多数人,他们在用另一种

<<软件需求最佳实践------SERU过程框架原理与应用>>读书笔记一（全书浅览）

这一学期上了软件需求分析这门课,在老师的建议下自己选择了这本需求最佳实践作为精读课本.大概的阅览了整本书后发现,作者引用各种实例与隐喻意图让读者更好的理解这本书的内容,而且每一部分内容都有一条精炼的SERU诫语来作为一个小结.在我看来,这本书确实对于我们软件需求分析的初学者来说确实是不可多得的“良本“. 全书分为三大部分,其中第一部分:“原理.模型与误区“涵盖前三章的内容.这部分作者主要分析并提及了影响软件项目实施,并导致软件出现“危机”的根本原因,即需求分析阶段. 主要是让我们认识到软件需求在

asp.net MVC4 框架揭秘读书笔记系列2

1.2 MVC 变体 MVC 是一种Pattern 另外一种说法是ParaDigm 范例模式和范例的区别在于前者可以应用到具体的应用上,而后者则仅仅提供一些指导方针 1.2.1 MVP Model View Presenter 交互图 MVC 模式中元素之间 “混乱”的交互主要体现在允许View 和 Model 绕开Controller进行单独交流,这在MVP 模式中得到了充分解决 PV 模式 (passive View) 解决View很难测试的最好方法是让他无需测试,让UI处理更少逻辑,被动

mongoDB的读书笔记(via3.0)(00)_【概览】(02)_mongoDB3.0中的mongod启动方式小试牛刀

mongod启动本来想写Replica的非测试模式的集群架构的,但是实在是手痒痒,把mongoDB的3.0给download下来了,看了一两眼文档后决定还是先大概写一点点关于启动的话题,之后写Replica的时候基本上就用mongoDB 3.0的方式+YAML的配置方式来做了. mongod利用mmapv1启动这个是default的启动方式.mongod的启动参数多如牛毛,本来想有空总结一下的,我勒个去的,有些估计这辈子也用不到的场景也不知道如何写,等我再考虑一下再说吧. 准备配置文件 s

【未完成】《统计机器翻译》读书笔记：系列0，全书概述与个人总结

系列0：全书概述与个人总结

在绪论部分，本书说了机器翻译的简史：

第二章 词、句子和语料

【未完成】《统计机器翻译》读书笔记：系列0，全书概述与个人总结的相关文章

第二章词、句子和语料