数学之美札记:谈谈中文分词

之前的札记中,提到了使用统计语言模型进行自然语言的处理,而这些语言模型是建立在词的基础上,因为词是表达语义的最小单位。西方的拼音语言,词之间有明确的分界符,统计和使用语言模型处理相对简单。而对于汉语等东方语言,词之间没有明确的分界符,这就需要先对句子进行中文分词。

中文分词最简单的方式是查字典,这种方式最早由北京航空航天大学的梁南元教授提出。简单的来说,就是把一个句子从左到右扫描一遍,遇到字典里有的词就标识出来,遇到复合词(比如“上海大学”)就找最长的词匹配, 遇到不认识的字串就分割成单字词。

这个最简单的分词方法可以解决一部分复杂性不高的分词问题,对于稍微复杂一点的问题就无无能无力了。20世纪80年代,哈尔滨工业大学的王晓龙博士把查字典的方法理论化,发展成最少分词的分词理论,即一句话应该分成数量最少的词串。这种方法明显的不足是当遇到有二义性(即双重意义)的分割时就无能为力了。

这种语言中的歧义性随着语言的发展,困扰了学者们上千年。在中国古代,断句和说文解字从根本上讲,就是消除歧义性。分词的二义性是语言歧义性的一部分。1990年前后,当时在清华大学电子工程系工作的郭进博士用统计语言模型成功解决了分词二义性问题,将汉语分词的错误率降低了一个数量级。郭进是中国大陆自觉地用统计语言模型方法进行自然语言处理的第一人,并且获得了成功。

在郭进博士之后,海内外不少学者利用统计的方法,进一步完善了中文分词。其中值得一提的是清华大学孙茂松教授和香港科技大学吴德凯教授的工作。孙茂松教授的贡献主要在于解决没有词典的情况下的分词问题,而吴德凯教授是较早将中文分词方法用于英文词组的分割,并且将英文词组和中文词在机器翻译时对应起来。

一般来讲,根据不同的应用,汉语分词的颗粒度大小应该不同。比如,在机器翻译中,颗粒度应该大一些,而在语音识别中,颗粒度则相对小一些。因此,不同的应用应该有不同的分词系统。Google早期直接使用Basis Technology公司的通用分词器,分词结果没有针对搜索进行优化。后来Google的葛显平博士和朱安博士,专门为搜索设计和实现了自己的分词系统,以适应搜索特殊的需求。

最后,需要指出的是任何方法都有它的局限性,虽然利用统计语言模型进行分词,可以取得比人工更好的结果,但是也不可能做到完全准确。因为统计语言模型很大程度上是依照“大众的想法”,或者“多数句子的用法”,而在特定情况下可能是错误。另外,有些人为创造出“两难”的句子,比如对联“此地安能居住,其人好不悲伤”,使用什么方法也无法消除二义性。但在真实文本中,这种情况几乎不会发生。

时间: 2024-08-23 06:10:22

数学之美札记:谈谈中文分词的相关文章

数学之美观后感之谈谈中文分词

数学之美观后感谈谈中文分词读后感 不简单的美 简单.高效,一直是人们追捧着的事物,人们讨厌麻烦的事物,希望简洁可以取缔一切.可汉字不同,纵使你万般精简,也褪去不了她独有的魅力.一句话,常常可以分隔成多个部分,每一部分可以比作一个颗粒,然后一个颗粒,一个颗粒的加工.细化.但是汉字不同,有时,相同的颗粒有不同的意思,也就是文中所提到的二义性,就如北京大学,其中北京和大学两个的词的意思完全不同.所以机械翻译时,要将颗粒变大一点,"北京大学"就不能被拆分为两个词.这种方法也可以应用到其它语言当

第四章谈谈中文分词

1.中文分词的演变 由于中文等语言,字与字之间是没有空格隔开的,所以需要分词.最简单的分词就是查字典.就是从左到右或者从右到左扫描一句话,然后找到最长的匹配.这种方法可以解决七八成的分词问题.但是毕竟太简单了一点.后来哈工大王晓龙博士把查字典方法理论化,发展成最少词数的分词理论,即一句话应该分成数量最少的词串.但是他无法解决“北京大学生”这样的二义性分割问题.直到20世纪90年代,郭进博士用统计语言模型成功解决了分词二义性问题.假设我们有几种不同的分词方法,那么最好的方法应该是出现概率最大的划分

数学之美札记:文字和语言 vs 数字和信息

数学.文字和自然语言一样,都是信息的载体,他们之间有着天然的联系.语言和数学的产生都是为了同一样目的--记录和传播信息.本文是<数学之美>第一章札记. 1798年,拿破仑远征军中,皮埃尔●弗朗索瓦●布沙尔中尉在一个叫罗塞塔的地方发现了一块破碎的古埃及石碑,上面有三种语言:埃及象形文字.埃及的拼音文字和古希腊文,这就是著名的罗塞塔(Rosetta)石碑. 1822年,法国语言学家商博良破解了罗塞塔石碑上的古埃及象形文字.随着罗塞塔石碑的破译,帮助我们了解了整个古埃及的历史和文明,这要归功于埃及人

《数学之美》读书记录【思维导图记录】:第四章,谈谈中文分词

原文地址:https://www.cnblogs.com/progor/p/8591907.html

数学之美札记:贾里尼克和现代语言处理

在之前的札记中,尤其是统计语言模型中,我们常提到贾里尼克的名字,弗里德里克·贾里尼克博士是成功将数学原理应用于自然语言处理领域的大师. 贾里尼克博士生于1932年11月18日,卒于2010年9月14日.他生于捷克,少年时经历了二战,父亲是名医生,战争期间死在了集中营,1946年母亲带着全家移民美国. 贾里尼克最初的梦想是成为一名律师,为其父亲辩护,移民美国后,希望子承父业,理想是成为医生,他想进哈佛大学医学院,但他无力承担8年的学费(4年本科加上4年医学院教育).而恰恰麻省理工提供了他一份全额奖

数学之美札记:信息的度量和作用

1948年,香农在著名论文"通信的数学原理"中提出了"信息熵"的概念,解决了信息的度量问题,并且量化出信息的作用. 香农使用了"比特"(Bit)这个概念来度量信息量.一个比特是一位二进制数,计算机中的一个字节是8比特.举个例子,32支球队参加世界杯,赛后猜测谁是冠军,通常只需要5五次,就可以得到答案.(把球队编号1-32,然后提问类似的问题:"冠军在1-16号中吗?",只需要提问五次),可以发现,信息量的比特数和所有情况的对数

数学之美札记:统计语言模型

统计语言模型(Statistical Language Model)是一个数学模型,它是所有自然语言处理的基础,广泛应用于机器翻译.语音识别等领域,它产生的初衷是为了解决语言识别问题. 自然语言处理中,对于如何判断一个文字序列是大家理解且有意义的句子,贾里尼克提出了一个简单的统计模型:一个句子是否合理,就看看它的可能性大小如何.至于可能性就用概率来衡量.通过文字序列组成的句子在人类语言中出现的概率,来判断这个文字序列是否合乎文法.含义是否正确等. 这个方法的核心是通过抽象并计算文字序列中每一个词

数学之美札记:隐含马尔可夫模型

隐含马尔可夫模型是一个数学模型,它被认为是解决大多数自然语言处理问题最为快速.有效的方法.它成功的解决了复杂的语音识别.机器翻译等问题. 人类信息交流的发展贯穿了人类的进化和文明的全过程.而自然语言是人类交流信息的工具,语言和通信的联系是天然的.通信的本质就是一个编解码和传输的过程.当自然语言处理的问题回归到通信系统中的解码问题时,很多问题都迎刃而解了. 所谓语音识别,就是听话的人去猜测说话者要表达的意思.这就像通信中,根据接收端收到的信号去分析.理解.还原发送端传送过来的信息.我们平时在说话时

数学之美札记:自然语言处理——从规则到统计

自然语言的处理,主要是实现人与计算机之间用自然语言进行有效通信的方法和理论,它经历了从规则到统计的阶段,所谓规则,是指根据定义的语法进行语言的处理,所谓统计,是指IBM为解决语音识别问题提出的自然语言处理的方法,基于统计学. 1946年,现代计算机诞生,人类开始考虑通过计算机来处理自然语言,主要涉及两个认知方面的问题:第一,计算机是否能处理自然语言:第二,如果能,它处理自然语言的方法是否和人类一样.现代自然语言处理的高速发展,说明了这两个问题的答案都是肯定的. 计算机科学之父阿兰·图灵最早提出了