Michael Collins自然语言处理课程讲义(翻译:Trey)

第一章 语言模型


(Michael Collins的自然语言处理课程讲义,哥伦比亚大学)

1.1 介绍

在这一节,我们将考虑一个问题,即如何为一个例句集建立语言模型。语言模型最初从语音识别发展起来;对现代的语言识别系统,语言模型依然起着中心作用。语言模型在其他自然语言处理应用中也被广泛应用。我们将在本章讨论参数估计技术。参数估计技术最初为语言模型而生,在很多场合都有用,譬如在接下来的章节中将会讨论到的标注问题和句法分析问题。

我们的任务如下。假设我们有一个语料库——某特定语言的句子集。譬如说,我们可能持有泰晤士报数年内的文档,又或者我们可能拥有非常大量的网络文档。基于这些语料,我们希望评估一个语言模型的参数。

语言模型定义如下。首先,我们将该门语言中的所有单词组成的集合定义为。例如,当我们为英语建立语言模型时,我们可能会有

在实际应用中可以是很大的:它可能包含数千甚至数万个单词。我们假设是一个有限集。该语言的一个句子就是一个单词序列

其中满足,且,且假定是一个特殊符号——STOP(我们假定STOP并非中的元素)。我们将会看到为什么让每个句子以STOP结束是方便的。以下是一些例句:

我们将定义作为取词于的句子的集合:这是一个无限集,因为句子可以是任意长度的。

我们接着给出如下定义:

定义1 (语言模型) 一个语言模型由一个有限集,以及一个函数构成,其中满足:

1. 对任意

2. 此外,

因此中句子的概率分布。

对从训练语料库中学习语言模型的一种(非常差劲的)方法,我们考虑如下。将句子在训练语料库中出现的次数定义为,训练语料库的句子总数为。于是我们可以将定义为

然而,这是一个非常差劲的模型:具体地说,它会将任何未在训练语料库中出现过的句子的概率赋为0。因此它无法遍及那些未在训练语料库中出现过的句子。本章的主要技术贡献就是介绍可以遍及未在训练语料库中出现过的句子的方法。

乍看起来语言模型问题是一个特别奇怪的任务,那么究竟我们为什么要考虑这个问题?有几个理由:

1.
语言模型在非常广泛的应用中都有着重要作用,最明显的或许是语音识别和机器翻译。在很多应用中,获得一个好的先验分布来描述句子在该种语言中是否可能,是非常有用的。例如,在语音识别中,语言模型与一个语音模型绑定,语音模型是为单词发音而建的模型:想象这种语言模型的一个方法是,语音模型生成大量候选句子,每个句子都附带着一个概率值;语言模型则基于每个句子在该种语言中有是否更有可能是一个句子,来重新分配概率。

2.
我们所讨论的技术,即用于定义函数以及用于评估从训练用例中习得的语言模型的参数的技术,将会在课程中提到的其他几个场合下非常有用:例如在我们即将讲到的隐马尔可夫模型中,以及用于语法分析的语言模型中,都非常有用。

1.2 马尔可夫模型

现在我们转到一个重要问题:给定一个训练语料库,我们怎样训练出函数?在这一节我们讨论概率论中的一个核心概念——马尔可夫模型;在下一节,我们讨论三元语言模型,三元模型是直接建立在马尔可夫模型之上的一类语义模型。

1.2.1 针对定长序列的马尔可夫模型

考虑一个随机变量序列。每一个随机变量值可以取有限集中的任意值。现在我们假设序列的长度是一个固定的数(例如,)。在下一节我们将描述怎样将处理方法一般化到本身也是随机变量的情况,从而允许不同序列拥有不同的长度。

我们的目标如下:我们希望为任何序列的概率建模,其中。换言之,就是为如下联合概率建模:

形如的可能序列有个:所以很明显,对合理的,罗列所有个概率值,并不是一个可行的方法。我们希望建立一个更为强大的模型。

在一阶马尔科夫过程中,我们作如下假设,即将模型简化为:

第一步,即公式1.1,是准确的计算方法:根据概率的链式法则,任意分布都可以写成这个形式。因此我们在这一步的推演中并没有做出任何假设。然而,第二步,即公式1.2,并不必然是准确的计算方法:我们作出了如下假设,即对任意,任意的,有

这是其中一个(一阶)马尔可夫假设。我们假设序列中第个单词的特征仅依赖与它前一个单词,。更规范地说,给定的值,我们假设的值条件独立于

在一个二阶马尔可夫过程(二阶马尔可夫过程是建立三元语言模型的基础)中,我们作出一个略微弱一点的假设,即认为序列中的每个单词只依赖于其前两个单词:

从而整个序列的概率写成

为了方便,在定义中,我们假设 ,其中是句子中一个特殊的"星"号。

1.2.2 针对变长句子的马尔科夫序列

在上一节,我们假设句子的长度是固定的。然而在很多应用中,是可变的。因此本身也是一个随机变量。为这个长度变量建模的方法有很多:在本节我们讨论一种最为普遍的语言建模方法。

方法是简单的:我们假设序列中第个单词总是等于一个特殊符号——STOP。这个符号只可出现在序列的末尾。我们使用与前面提到的完全相同的假设:例如在二阶马儿可夫假设下,我们有

对任意的和任意都成立。其中满足

我们已经假设了一个二阶马尔可夫过程,在这个二阶马尔可夫过程中,我们根据如下分布生成符号

其中中元素,或者,如果它居于句末的话,是一个STOP符号。如果我们生成了STOP符号,那么我们就已经生成了整个序列。否则,我们接着生成序列中的下一个符号。

更规范一点来说,生成句子的过程如下:

1. 初始化

2. 根据如下分布生成

3. 如果,返回序列。否则,令,并转到第2步。

至此,我们已经拥有了一个能够生成不定长序列的模型。

第一章1.2节完。

原文页面:http://www.cs.columbia.edu/~mcollins/lm-spring2013.pdf
课程主页:http://www.cs.columbia.edu/~cs4705/
Michael
Collins的个人主页:http://www.cs.columbia.edu/~mcollins/

时间: 2024-07-31 14:17:35

Michael Collins自然语言处理课程讲义(翻译:Trey)的相关文章

Michael Collins NLP课程讲义(翻译:Trey;审校:Shooya)

第一章 语言模型 (自然语言处理课程讲义,Michael Collins,哥伦比亚大学) 1.1 介绍 在这一节,我们将考虑一个问题,即如何为一个例句集建立语言模型.语言模型最初从语音识别发展起来:对现代的语言识别系统,语言模型依然起着中心作用.语言模型在其他自然语言处理应用中也被广泛应用.我们将在本章讨论参数估计技术.参数估计技术最初为语言模型而生,在很多场合都有用,譬如在接下来的章节中将会讨论到的标注问题和句法分析问题. 我们的任务如下.假设我们有一个语料库--某特定语言的句子集.譬如说,我

CS231n课程笔记翻译

CS231n课程笔记翻译:图像分类笔记(上) - 智能单元 - 知乎专栏 https://zhuanlan.zhihu.com/p/20894041 CS231n课程笔记翻译:图像分类笔记(下) - 智能单元 - 知乎专栏 https://zhuanlan.zhihu.com/p/20900216 CS231n课程笔记翻译:线性分类笔记(上) - 智能单元 - 知乎专栏 https://zhuanlan.zhihu.com/p/20918580?refer=intelligentunit

windows server 2016 课程讲义

Windows Server 2016:版本:标准版和数据中心版(功能,合法激活的虚拟机数量) 安装系统时的考虑 安装后的基本任务 计算机名称的命名规范:公司名称简写-地理位置-业务-服务器信息-序号 MAP:微软评估和规划工具包(https://www.microsoft.com/china/sam/default.aspx) 身份:域环境的身份验证模式(推荐) 方式(工具):管理windows server 的操作系统 本地身份验证模式 Powershell:所有产品的通用的管理平台(启用,

windows server 2016 课程讲义 (八)

更新服务:wsus中小型环境 第三方 SCCM windows更新服务(WSUS) windows server 2012以后自带系统角色 用于根据企业需求定制向上游服务器(微软更新服务&本地更新服务)下载指定类型的补丁 WSUS被动下发补丁,当客户端根据组策略定义后定期向WSUS服务器请求更新补丁 适用于中小企业环境:少量计算机: 工作组环境:管理员手动配置更新服务器 域环境:通过组策略定义更新服务器 WSUS更新服务器:不建议加域 WSUS配置: 定义上游服务器(微软&其他) 定义需要

windows server 2016 课程讲义(七)

操作系统部署: 单个操作系统部署 安装映像:微软提供:MSDN下载 MSDN i tell you 安装工具:windows 7 usb      download tool(https://www.microsoft.com/zh-cn/download/windows-usb-dvd-download-tool) 批量操作系统部署 安装源:WIM文件:可定义文件中的内容,定义系统功能和补丁 DISM ImageX 自动应答文件(WADK) 安装方式:本地安装:引导系统和安装系统通过本地设备(

windows server 2016 课程讲义(六)

群集创建: 测试群集节点配置:必须通过测试,保留测试报告 创建:定义群集用于管理的DNS名称和IP地址 群集角色:当前群集支持的可以实现高可用的服务,要求所有节点必须安装相同服务 默认环境群集支持服务高可用时,定义该服务的共享存储磁盘,每个服务独占一格共享磁盘 Hyper-V群集:定义群集中的每个虚拟机为一个独立服务,和传统群集的磁盘盘符独占冲突,必须配置群集共享卷(CSV),实现多个虚拟机使用共享存储位置 虚拟机配置:配置虚拟机高可用:必须将虚拟机的保存位置为群集共享卷的文件夹 直接在群集中新

Office 365课程讲义

Office 365 成本:灵活性 Exchange online    邮件 Skype        Online    即时通讯 SharePoint Online  内部文件服务器(站点),内部流程开发 O365 Pro Plus       完整的Office 应用 版本:中国版:北京,上海数据中心:本地化优势,网络,支持,其他国家和地区通过Internet连接到中国进行使用 https://support.office.com/zh-cn/article/%e4%ba%86%e8%a

行业基础知识课程讲义

太润天业的发展目标是成为中国最具规模和实力的IT应用服务运营商(IT应用服务运营商:太润天业投资建设信息化服务的基础设施.构建系统.组合应用方案,通过有偿的方式,整合企业对计算.存储.网络.应用等资源的需要,透过集中管理.动态优化.市场推广.商务驱动,顺应社会环境高效配置和满足企业的采购需求.).而Internet是在这过程中要使用的一个重要工具.  一.Internet的起源与发展     Internet从何而来呢?简而言之,它是苏美冷战的产物. 早在1957年10月4日苏联成功的发射了世界

windows server 2016 课程讲义 (四)

高可用: 服务:保证服务的持续可用性 由多台部署相同服务的节点,一般使用共享存储(分布式存储),提供服务的高可用性 服务的类型:基于对数据的操作和面向的对象 基于"读操作"服务:访问对象数量和连接:基于连接的负载平衡 DNS轮询:一个域名对应多个IP HLB:基于设备的负载平衡:F5(成本) 第三方 SLB:基于应用层的负载平衡 NLB:基于网络协议的负载平衡 基于"写操作"服务:数据库,虚拟机:写入对象的唯一性 故障转移群集:当群集节点出现故障时,将服务转移到其他