第四章谈谈中文分词

1.中文分词的演变

由于中文等语言,字与字之间是没有空格隔开的,所以需要分词。最简单的分词就是查字典。就是从左到右或者从右到左扫描一句话,然后找到最长的匹配。这种方法可以解决七八成的分词问题。但是毕竟太简单了一点。后来哈工大王晓龙博士把查字典方法理论化,发展成最少词数的分词理论,即一句话应该分成数量最少的词串。但是他无法解决“北京大学生”这样的二义性分割问题。直到20世纪90年代,郭进博士用统计语言模型成功解决了分词二义性问题。假设我们有几种不同的分词方法,那么最好的方法应该是出现概率最大的划分。

在分词上,没有一种绝对正确的划分,根据不同的需要,我们可能有不同的划分方法,“北京大学”,我们可以直接分成“北京大学”,或者分成“北京”+“大学”。

另外不止中文需要分词,有时候,英语也需要分词,尤其是单词间空格不清楚的手写体。

最后,虽然统计语言模型分词可以取得比人工更好的结果,但也不是完全正确,我们只能遵循“大多数人的想法”。

2.延伸阅读:工程上的细节问题

2.1 分词一致性

正如上面说的,分词没有绝对正确的,对一个词可能会有不同的分法。我们不能说准确率97%的一定比95%的分词器好,只能说97%的和人工分词结果更吻合。

2.2 词的颗粒度和层次

分词不一致的主要原因在于人们对词的颗粒度的认识问题。有些地方(比如机器翻译),颗粒度大的效果好,但是有些地方(比如网页搜索),颗粒度小的比较好。次要原因是分词的错误造成的,比如把“北京大学生”分成“北京大学”、“生”,这种属于越界型错误;还有就是把“性价比”这样的词分成三个,这是覆盖型错误。

我们不可能对不同的应用构造不同的分词器,最好是让一个分词器同时支持不同层次的词的切分。

首先我们需要“北京”、“大学”这样的即本次和“北京大学”这样的复合词,为它们各建立一个语言模型L1,L2。先用基本词分句,在用复合词整合。

第四章谈谈中文分词

时间: 2024-08-22 22:09:53

第四章谈谈中文分词的相关文章

数学之美观后感之谈谈中文分词

数学之美观后感谈谈中文分词读后感 不简单的美 简单.高效,一直是人们追捧着的事物,人们讨厌麻烦的事物,希望简洁可以取缔一切.可汉字不同,纵使你万般精简,也褪去不了她独有的魅力.一句话,常常可以分隔成多个部分,每一部分可以比作一个颗粒,然后一个颗粒,一个颗粒的加工.细化.但是汉字不同,有时,相同的颗粒有不同的意思,也就是文中所提到的二义性,就如北京大学,其中北京和大学两个的词的意思完全不同.所以机械翻译时,要将颗粒变大一点,"北京大学"就不能被拆分为两个词.这种方法也可以应用到其它语言当

读《数学之美》第四章 谈谈分词

中文分词其实有点像古代的句读(dou),韩愈的<师说>中就有:"彼童子之师,授之书而习其句读者也".古人文章是没有标点符号的,行文一气呵成.如果不懂离经断句,就很难理解古文的意思.从某种程度上,句读就类似今天要讲的中文分词. 北京航空航天大学的梁南元教授提出了查字典的方法 查字典的方法就是把句子从左到右扫描一遍,遇到字典里有的词就标示出来,遇到不认识的字串就分割为单字词.如果分割出的词与后面的字不会组成更长的词,那么分割点就最终确定了.这种最简单的方法可以解决七八层以上的分

第四章 谈谈.NET Core下如何使用

[敬请期待] 上一章:第三章 谈谈.NET下如何使用 下一章:没有了 真没有了 源码地址:https://github.com/xiexingen/AutoMapper.RegExtension [欢迎fork.欢迎star.欢迎watch]

数学之美札记:谈谈中文分词

之前的札记中,提到了使用统计语言模型进行自然语言的处理,而这些语言模型是建立在词的基础上,因为词是表达语义的最小单位.西方的拼音语言,词之间有明确的分界符,统计和使用语言模型处理相对简单.而对于汉语等东方语言,词之间没有明确的分界符,这就需要先对句子进行中文分词. 中文分词最简单的方式是查字典,这种方式最早由北京航空航天大学的梁南元教授提出.简单的来说,就是把一个句子从左到右扫描一遍,遇到字典里有的词就标识出来,遇到复合词(比如"上海大学")就找最长的词匹配, 遇到不认识的字串就分割成

《数学之美》读书记录【思维导图记录】:第四章,谈谈中文分词

原文地址:https://www.cnblogs.com/progor/p/8591907.html

《数学之美》——第四章 个人笔记

第四章     谈谈分词 1 中文分词方法的演变 最早的方法(北航):查字典,可以解决七八成问题,成本不高,效果还行. 随后(哈工大):最少词数的分词理论,即一句话应该分词数量最少的词串.不足之处在于二义性. 郭进(清华):统计语言模型方法,文中有详细的公式说明.就是对一句话可能有S种分法,其中有一种分法出现的概率最大.里面涉及到动态规划和维特比算法,有张图表示过程: 这里提到:统计语言模型很大程度是依照''大众的想法'',或者说''多数句子的用法'',百分百是不可能的. 有关分词的两点说明:

第三章 谈谈.NET下如何使用

[敬请期待] 上一章:第二章 核心实现解说 下一章:第四章 谈谈.NET Core下如何使用 源码地址:https://github.com/xiexingen/AutoMapper.RegExtension [欢迎fork.欢迎star.欢迎watch]

solr8.2 环境搭建 配置中文分词器 ik-analyzer-solr8 详细步骤

一.下载安装Apache Solr 8.2.0 下载地址:http://lucene.apache.org/solr/downloads.html 因为是部署部署在windows系统上,所以下载zip压缩包即可. 下载完成后解压出来. 二.启动solr服务 进入solr-7.3.0/bin目录: Shift+右键 在此处打开命令窗口: 在控制台输入以下命令: solr start -p 9090 看到Started Solr server on port 9090. Happy searchin

java读取中文分词工具(四)

import java.io.BufferedReader; import java.io.File; import java.io.FileInputStream; import java.io.IOException; import java.io.InputStreamReader; import java.io.RandomAccessFile; import java.io.Serializable; import java.util.ArrayList; import java.ut