自然语言处理学习笔记(1)——绪论

  暑假开始研究NLP,先从宗成庆老师的《统计自然语言处理》开始学起。

一、语言:语言是由语音、词汇和语法构成的,语音和文字是构成语言的两个基本属性,语音是语言的物质外壳,文字则是记录语言的书写符号系统。

二、语音学:1)发音语音学(articulatory phonetics)

      2)声学语音学(acoustic phonetics)

      3)听觉语音学(auditory phonetics)

      4)仪器语音学(instrumental phonetics)

三、自然语言处理的概念:利用计算机为工具对人类特有的书面形式和口头形式的自然语言的信息进行各种类型加工、处理的技术。

  交叉学科:语音识别(speech recongnition)

       语音合成(speech synthesis)

  语音应用:1)人机对话系统

       2)语音翻译

       3)语音文档摘要

       4)语音文档检索

四、NLP研究的内容:1)机器翻译;2)自动文摘;3)信息检索;4)文档分类;5)问答系统;6)文字编辑和自动校对;7)信息过滤;8)语音教学;9)文字识别;

10)语音识别ASR;11)文语转换;12)说话人识别、认证、验证

五、自然语言处理设计的层次:1)形态学

              2)语法学

              3)语义学

              4)语用学

六、面临的困难:1)歧义消解(disambiguation)

        2)未知语言现象处理(如网络语言、火星语、游戏语言)

  歧义分析结果随着介词短语数目的增加呈现指数上升

  组合数开塔兰数

  歧义的种类:1)句法结构歧义;2)词类歧义;3)词义歧义;4)语义歧义

七、NLP的基本方法和步骤

  1)收集语料作为统计模型建立的基础

  2)筛选加工

八、需要课后百度的关键词:上下文无关文法、HMM、噪声信道模型、语义的形式化与计算问题、句法分析问题、指代歧义消解问题、汉语自动分词中的未登录词识别问题

  

自然语言处理学习笔记(1)——绪论

时间: 2024-07-30 10:07:45

自然语言处理学习笔记(1)——绪论的相关文章

NLP自然语言处理学习笔记二(初试)

前言: 用Python对自然语言处理有很好的库.它叫NLTK.下面就是对NLTK的第一尝试. 安装: 1.安装Pip 比较简单,得益于CentOS7自带的easy_install.执行一行命令就可以搞定. *在终端控制台->easy_install pip 2.检验Pip是否可用 Pip是Python的包管理工具.我们运行Pip确定CentOS下可用. *在终端控制台->pip -V 注意参数大小写 3.使用Pip安装NLTK *在终端控制台->pip install -U nltk N

python自然语言处理——学习笔记:Chapter3纠错

第三章,P87有一段处理html的代码: >>>raw = nltk.clean_html(html) >>>tokens = nltk.word_tokenize(raw) >>>tokens 可是我们执行会有如下错误: >>> raw = nltk.clean_html(html) Traceback (most recent call last): File "<stdin>", line 1,

数字语音信号处理学习笔记——绪论(1)

1.绪论 1.1概述 语言是人类交换信息最方便.最快捷的一种方式,在高度发达的信息社会中,用数字化的方法进行语音的传送.存储.识别.合成和增强等是整个数字化通信网中最重要.最基本的组成部分之一. 语音信号处理技术主要可以应用到: 1) 数字电话通信 2) 高音质的窄带语音通信系统 3) 语言学习机 4) 声控打字机 5) 自动翻译机 6) 智能机器人 7) 新一代计算机语音智能终端 8) 许多军事上的应用 语音信号处理是一门新兴的边缘科学,它是语音学与数字信号处理两个学科相结合的产物.它和认知科

NLTK学习笔记(四):自然语言处理的一些算法研究

自然语言处理中算法设计有两大部分:分而治之 和 转化 思想.一个是将大问题简化为小问题,另一个是将问题抽象化,向向已知转化.前者的例子:归并排序:后者的例子:判断相邻元素是否相同(与排序). 这次总结的自然语言中常用的一些基本算法,算是入个门了. 递归 使用递归速度上会受影响,但是便于理解算法深层嵌套对象.而一些函数式编程语言会将尾递归优化为迭代. 如果要计算n个词有多少种组合方式?按照阶乘定义:n! = n*(n-1)*...*1 def func(wordlist): length = le

编译原理学习笔记 -- 绪论1

1. 语言处理器 语言处理系统 _________ 经过预 _______ 源程序 --> |预处理器| --> 处理的 --> |编译器| --> 目标汇编程序 -------- 源程序 ------- _______ 可重定位的 ______________ --> |汇编器| --> 机器代码 --> |链接器/加载器| --> 目标机器代码 ------- -------------- ↑ 库文件/可重定位对象文件 预处理器:把源程序聚合在一起,并宏

数据结构学习笔记——绪论

数据结构学习笔记——绪论 为了更贴切的描述一种数据结构,通常采用二元组表示:(对于一种数据结构其逻辑结构唯一) B=(D,R)其中,B是一种数据结构,它由数据元素的集合D和D上二元关系的集合R所组成.即D={ di | 1 <= i<= n, n > 0}R={ rj | 1 <= j<= n, n > 0}D 上的一个关系r是序偶的集合,对于r中任一序偶<x,y>(x,y属于集合D),把x叫做偶序第一节点,把y叫做偶序第二结点,又称序偶的第 一结点为第二结

数字语音信号处理学习笔记——绪论(2)

1.2.2 语音编码 语音编码的目的是在保证一定语音质量的前提下,尽可能降低编码比特率,以节省频率资源. 语音编码技术的鼻祖: 研究开始于1939年军事保密通信的需要,贝尔电话实验室的Homer Dudley提出并实现了在低频带宽电话电报电缆上传输语音信号的通道声码器. 20世纪70年代:国际电联(ITU-T,原CCITT)64kbit/s脉冲编码调制(PCM)语音编码算法的G.711建议,它被广泛应用于数字通信.数字交换机等领域,从而占据统治地位. 1980年:美国政府公布了一种2.4kbit

数字图像处理学习笔记之一 DIP绪论与MATLAB基础

写在前面的话 数字图像处理系列的学习笔记是作者结合上海大学计算机学院<数字图像处理>课程的学习所做的笔记,使用参考书籍为<冈萨雷斯数字图像处理(第二版)(MATLAB版)>,同时学习过程中会参考网络学习资源.对于数字图像处理的学习不可能仅仅依靠作者所写的这一系列笔记,而是需要花时间和精力学习,本文只可作参考和交流之用.由于涉及此学科不久,在学习过程中难免存在错误,请读者不吝赐教. 数字图像处理绪论 数字图像处理(DIP)的研究目标和处理对象: DIP的研究目标是获取信息,处理对象是

数据库系统概论学习笔记-第一章绪论

数据库系统概论-第一章绪论 写在前面:寒假来临,除却走亲戚和同学聚餐,王者荣耀等游戏上分花销一点时间之外,自认为要花一点时间学习数据库和Android,以此来为下学期和共建项目打下一丢丢的基础.为了鞭策自己,定了一个小目标( 一个亿),每个两至三天我会发表一篇数据库或Android学习笔记.还是那句话你的才华撑不住你的野心时,那就静下来学习吧 . 数据库系统概述 数据库常用的术语和基本概念 数据库基本概念 数据(Data) 数据是数据库中存储的基本对象,可以对数据做如下定义:描述事物的符号记录称