《数学之美》——第四章 个人笔记

第四章     谈谈分词

1 中文分词方法的演变

最早的方法(北航):查字典,可以解决七八成问题,成本不高,效果还行。

随后(哈工大):最少词数的分词理论,即一句话应该分词数量最少的词串。不足之处在于二义性。

郭进(清华):统计语言模型方法,文中有详细的公式说明。就是对一句话可能有S种分法,其中有一种分法出现的概率最大。里面涉及到动态规划和维特比算法,有张图表示过程:

这里提到:统计语言模型很大程度是依照‘’大众的想法‘’,或者说‘’多数句子的用法‘’,百分百是不可能的。

有关分词的两点说明:

?①不值得花大精力去进一步提高准确率,提升空间有限。

?②英文和主要西方语言原本无须分词的,手写体的原因(词与词之间写的时候常常无停顿)

2 延伸阅读:如何衡量分词的结果

2.1    分词的一致性

一个准确率在97%的分词器很难讲比一个准确率在95%的分词器要好,因为要看他们选用的所谓正确的人工分词的数据是如何得来的。

2.2    词的颗粒度和层次

人工分词产生不一致性的原因主要在于人们对词的颗粒度的认识问题。不同的应用中,会有一种颗粒度比另一种更好的情况。

机器翻译中颗粒度大好——"联想公司";网页搜索中小颗粒度好——"清华大学"。

不同的应用构造不同的分词器?不必要且浪费。?好的做法是让一个分词器同时支持不同层次的词的切分(原理和实现文中有具体说明)

?分词的不一致可以分为错误颗粒度不一致两种

错误又分成两类:一类是越界型错误,‘北京大学生’分成‘北京大学-生’;另一类是覆盖性错误,‘贾里尼克’分成四个字。

颗粒度不一致:人工分词的不一致大多属于此类,要不断完善复合词的词典。

原文地址:https://www.cnblogs.com/NEWzyz/p/8933014.html

时间: 2024-10-09 23:38:13

《数学之美》——第四章 个人笔记的相关文章

《数学之美》——第二章 个人笔记

第二章    自然语言处理--从规则到统计 这一章开头这句话:字母,文字,数字是信息编码的不同单位.任何一种语言都是一种编码的方式,而语言的语法规则是编解码的算法.我们表达一个意思要通过语言表达出来,就是用这种语言的编码方式表示出来,结果就输出一串文字.别人懂这门语言的编码方式,就会理解.这里说的输出一串文字,可以是字母,数字(计算机理解),和开头说的信息编码的不同单位是符合的,就很好理解了.这就是语言的数学本质. ?①计算机能处理自然语言 ?②它处理自然语言的方法和人类一样 1 机器智能 有意

Android深度探索——第四章读书笔记及心得

源代码的下载及编译 ——第四章读书笔记及心得 通过阅读书籍知道了Android源代码和Linux源代码的区别,了解了什么是Android移植.知道了Android移植就是Linux内核移植,而Linux内核移植主要就是Linux的驱动移植.为了开发和测试内核环境需要对环境进行搭建,进而知道了如何搭建环境.知道了如何下载Android/Linux源代码及配置Android源代码下载环境(并且知道Android源代码的下载并非一定要将4MB多的东西全部下载,也可以挑选着自己需要的东西下载,,可以利用

第四章读书笔记 进程调度

第四章读书笔记 进程调度 什么是进程调度 现在的操作系统都是多任务的,为了能让更多的任务能同时在系统上更好的运行,需要一个管理程序来管理计算机上同时运行的各个任务(也就是进程). 这个管理程序就是调度程序,它的功能说起来很简单: 决定哪些进程运行,哪些进程等待 决定每个进程运行多长时间 此外,为了获得更好的用户体验,运行中的进程还可以立即被其他更紧急的进程打断. 总之,调度是一个平衡的过程.一方面,它要保证各个运行的进程能够最大限度的使用CPU(即尽量少的切换进程,进程切换过多,CPU的时间会浪

Linux内核分析第四章 读书笔记

Linux内核分析第四章 读书笔记 第一部分--进程调度 进程调度:操作系统规定下的进程选取模式 面临问题:多任务选择问题 多任务操作系统就是能同时并发地交互执行多个进程的操作系统,在单处理器机器上这会产生多个进程在同时运行的幻觉,在多处理器机器上,这会使多个进程在不同的处理机上真正同时.并行地运行.无论在单处理器或者多处理器机器上,多任务操作系统都能使多个进程处于堵塞或者睡眠状态,也就是说,实际上不被投入执行,直到工作确实就绪. 多任务系统可以划分为两类:非抢占式多任务和抢占式多任务.Linu

android驱动开发第三、四章读书笔记

第三章讲解了git及git操作的基本命令 1.git是一款免费.开源的分布式版本控制系统,符合linux的开源思想,且相对于svn cvs等,git有自己的优势,且广受开发者欢迎 2.git的安装: apt-get install git apt-get install git-doc git-svn apt-get install git-email git-gui gitk 3.常见命令: man git—checkout   /  git help git-checkout    查看gi

《Linux内核设计与实现》第四章学习笔记

第四章 进程调度 [学习时间:1小时45分 撰写博客时间:2小时10分钟] [学习内容:Linux的进程调度实现.抢占和上下文切换.与调度相关的系统调用] 调度程序负责决定将哪个进程投入运行,何时运行以及运行多长时间.进程调度程序可看做在可运行态进程之间分配有限的处理器时间资源的内核子系统. 最大限度利用处理器时间的原则:只要有可以执行的进程,那么总会有程序正在执行. 一.多任务 1.概念:多任务操作系统就是能同时并发地交互执行多个进程的操作系统,在单处理器机器上这会产生多个进程在同时运行的幻觉

JavaScript高级程序设计(第3版)第四章读书笔记

第四章 变量.作用域和内存问题 ECMAScript变量可能包含两种不同数据类型的值:基本类型值和引用类型值.基本类型指的是简单的数据段,而引用类型值指那些可能由多个值构成的对象.基本数据类型是:Undefined.Null.Boolean.Number和String.引用类型的值是保存在内存中的对象.JavaScript不允许直接访问内存中的位置,即不能直接操作对象的内存空间. 不能给基本类型的值添加属性,只能给引用类型值动态地添加属性. 从一个变量向另一个变量复制基本类型值时,两个变量可以参

《Linux内核设计与实现》第四章读书笔记

第四章 进程调度 第4章 进程调度 调度程序负责决定将哪个进程投入运行,何时运行以及运行多长时间,进程调度程序可看做在可运行态进程之间分配有限的处理器时间资源的内核子系统.只有通过调度程序的合理调度,系统资源才能最大限度地发挥作用,多进程才会有并发行的效果. 调度程序没有太复杂的原理,最大限度地利用处理器时间的原则是只要有可以执行的进程,那么就总会有进程正在执行,但是只要系统中可运行的进程的数目比处理器的个数多,就注定某一给定时刻会有一些进程不能执行,这些进程在等待运行,在一组处于可运行状态的进

数学之美 第1章 文字和语言 vs 数字和信息

参考书籍:<数学之美> 吴军著 语言和数学的产生都是为了同一个目的:记录和传播信息 1. 文字的起源:当语言和词汇积累到一定程度(记不住)的时候,产生了高效记录信息的需求-->文字. 2. 文字发展的阶段 象形文字(物体的外表):<亚尼的死者之书>:象形文字增加到一定程度(记不住)的时候,概念开始进行概括和归纳,如日即可表示太阳,也可以表示一天(类比机器学习中的聚类):但是由于文字按照意思来聚类,会导致歧义性(文言文解读),通常借助上下文去除歧义: 楔形文字/拼音文字(抽象编