自然语言理解——数学基础

一、信息论基础:

熵:

联合熵:实际上就是描述一对随机变量平均所需要的信息量。

条件熵:给定随机变量 X 的情况下,随机变量 Y 的条件熵定义为:

熵率:

相对熵(KL距离):两个概率分布 p(x) 和 q(x) 的相对熵定义为:

交叉熵:如果一个随机变量 X ~ p(x),q(x)为用于近似 p(x)的概率分布,那么,随机变量 X 和模型 q 之间的交叉熵定义为:

由此,我们可以根据模型 q 和一个含有大量数据的 L 的样本来计算交叉熵。在设计模型 q 时,我们的目的是使交叉熵最小,从而使模型最接近真实的概率分布
p(x)。

困惑度:

互信息:

当两个汉字 x 和 y 关联度较强时,其互信息值 I(x, y)>0;x 与y 关系弱时,I(x, y)≈0;而当I(x, y)<0时,x 与
y 称为 “互补分布”。在汉语分词研究中,有学者用双字耦合度的概念代替互信息:设
ci,ci+1是两个连续出现的汉字,统计样本中ci,ci+1连续出现在一个词中的次数和连续出现的总次数,二者之比就是ci,ci+1的双字耦合度:

有些汉字在实际应用中出现虽然比较频繁,但是连续在一起出现的情况比较少,一旦连在一起出现,就很可能是一个词。这种情况下计算出来的互信息会比较小,而实际上两者的结合度应该是比较高的。而双字耦合度恰恰计算的是两个连续汉字出现在一个词中的概率,并不考虑两个汉字非连续出现的情况。

例如:词汇消歧:

*概率p*(a|b)的推导说明:

自然语言理解——数学基础,布布扣,bubuko.com

时间: 2024-10-28 22:48:45

自然语言理解——数学基础的相关文章

自然语言理解——introduction

1.基本概念: NLP:自然语言处理是研究如何利用计算机技术对语言文本(句子.篇章或话语等)进行处理和加工的一门学科,研究内容包括对词法.句法.语义和语用等信息的识别.分类.提取.转换和生成等各种处理方法和实现技术. 语言的基本属性:语音和文字 2.研究内容: 3.基本问题: a)形态学(morphology)问题:研究词(word) 由有意义的基本单位-词素(morphemes)的构成问题.单词的识别/ 汉语的分词问题.词素:词根.前缀.后缀.词尾. b)语法学(syntax)问题:研究句子结

自然语言理解——NLP中的形式语言自动机

1.形式语言:是用来精确地描述语言(包括人工语言和自然语言)及其结构的手段.形式语言学 也称代数语言学. 2.自动机:识别器是有穷地表示无穷语言的另一种方法.每一个语言的句子都能被一定的识别器所接受. *有限状态转换机(FST) 除了前面提到的单词拼写检查.词法分析.词性标注等工作以外,有限状态自动机还广泛地应用于句法分析.短语识别.机器翻译和语音识别等很多方面. 自然语言理解--NLP中的形式语言自动机,布布扣,bubuko.com

机器学习: 专家系统、认知模拟、规划和问题求解、数据挖掘、网络信息服务、图象识别、故障诊断、自然语言理解、机器人和博弈等领域。

机器学习 编辑 本词条由“科普中国”百科科学词条编写与应用工作项目 审核 . 机器学习(Machine Learning, ML)是一门多领域交叉学科,涉及概率论.统计学.逼近论.凸分析.算法复杂度理论等多门学科.专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能. 它是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域,它主要使用归纳.综合而不是演绎. 中文名 机器学习 外文名 Machine Learning

从研究到应用:腾讯AI Lab的自然语言理解和生成

3月16日在腾讯AILab第二届学术论坛上,腾讯AI Lab高级研究员李菁博士介绍了实验室目前在NLP方面重点关注的两大方向--如何理解和生成自然语言,并介绍了实验室的相关研究和应用成果. 自然语言的理解 自然语言理解的目标是使得机器能够像人一样进行阅读.机器不能像人一样通过直觉和感知来理解文本,只能通过计算和逻辑.因此,自然语言的理解需要通过表征学习(Representation Learning)的手段把文本信号转化为比如向量.矩阵等等可计算的形式.然后通过信息抽取(Information

汇率换算自然语言理解功能IOS DEMO

原文地址 http://blog.csdn.net/dfman1978/article/details/78468318 前言 目前使用语音输入越来越普遍.语音输入不仅高效,而且更加自然,符合人类的输入方式.在这里开发了一个汇率换算的 APP,展示了如何使用语音输入和语音识别. APP简介 这个 APP可以识别用户的输入,然后返回结果,并使用自然语言读出来.  用户可以点击话筒图标,进行语音输入:"1元人民币兑换多少美元".或者说"350泰铢兑换多少人民币"等等.结

自然语言理解 之 统计词频

统计词频,中文字体编码格式:GB2312. 1 #include <iostream> 2 #include <fstream> 3 #include <algorithm> 4 #include <functional> 5 #include <string> 6 #include <vector> 7 #include <map> 8 #include <unordered_map> 9 #include

自然语言处理怎么最快入门?

http://www.zhihu.com/question/19895141 stanford NLP课程网址 https://class.coursera.org/nlp/lecture 14 个回答 赞同337反对,不会显示你的姓名 吴俣,自然语言处理民工 杨泽.林斌.王汪汪 等人赞同 推荐<数学之美>,这个书写得特别科普且生动形象,我相信你不会觉得枯燥.这个我极力推荐,我相信科研的真正原因是因为兴趣,而不是因为功利的一些东西. 接下来说,<统计自然语言处理基础>这本书,这书实

自然语言处理一些读书笔记和自己的思考。

在知乎上搜索相关问题,有人推荐<数学之美>,之前粗略看过一次,这次想重新看一下并且做个读书笔记.下面是关于自然语言理解方面的一些读书笔记和自己的思考. 一. 自然语言处理历史: 自然语言处理最初发展的20多年里,相关科学家都极力通过电脑模拟人脑,试图用这种方式来处理人类语言,但是这种方式被证明是行不通的,成功几乎为零.NLP发展的第二阶段是70年代之后,科学家们终于找到了基于数学模型和统计的方法. 第一阶段的时候,学术界对人工智能和自然语言理解的普遍认识是:要让机器完成翻译或者语音识别等等,必

浅谈自然语言处理基础(下)

命名实体识别 命名实体的提出源自信息抽取问题,即从报章等非结构化文本中抽取关于公司活动和国防相关活动的结构化信息,而人名.地名.组织机构名.时间和数字表达式结构化信息的关键内容,所以需要从文本中去识别这些实体指称及其类别,即命名实体识别和分类. 21世纪以后,基于大规模语料库的统计方法成为自然语言处理的主流,以下是基于统计模型的命名实体识别方法归纳: 基于CRF的命名实体识别方法 基于CRF的命名实体识别方法简便易行,而且可以获得较好的性能,广泛地应用于人名.地名和组织机构等各种类型命名实体的识