NLP概述

1,词法分析

待续

2,文本分类

文本表示:

重点是贝叶斯模型:二项表示法和多项表示法。(向量维度为词库大小,一个是01,一个是频次)。模型重点在于化后验为先验。

还有其他模型:机器学习模型,分布式模型等等。

特征选择:重要的是TF-IDF。它的意思是一个词在单个文本中出现的次数越多,在其他文本中出现的次数较少,那么这个词的区分度就越高。

模型检验:accuracy = (TP +TN)/TP+FP+TN+FN  precision = TP / (TP+FP)  recall = TP/(TP+FN)   F=2PR/(P+R)

3,词性标注(句法分析预处理)

给每个词标上它的语法属性。

难点:兼类词的存在。如果没有兼类词,我们查表即可。

形式化:分类问题。

假设:有限视野,时间独立,输出独立。

重点:HMM模型。viterbi算法(动态规划)。复杂度从($N^T$降到$N^2T$)

welch-Baum算法。

4,语法分析

CFG(上下文无关文法): (T,N,S,R)。T:终结符号。N:非终结符号。S:开始符号。R:语法规则。

自顶向下:目标驱动。自底向上:数据驱动。转换消除法。(shift-Reduce parsing)

传统的CFG语法解析问题:语法太紧,则应用广度不够,太松,则解析精度不够。

解决方法:给规则引入概率,结果去概率最大的解析结果。

PCFG:(T,N,S,R,P)P(R),每条规则概率。

P(W1n) = 所有解析树的概率和。P(t1)= 该解析树所有分支概率乘积。 解析结果去概率最大的树。

解析结果往往有指数级别个。常用Inside Probability或Outside Probability计算。

viterbi取最高的inside probability结果。

概率从何而来?有树库:从树库提取。没有:EM估计。

时间: 2024-10-15 10:55:11

NLP概述的相关文章

NLP复习之Attention概述

Preview 这一部分主要对注意力机制(Attention Mechanism)做一个概述,整合一下之前学习的内容,免得遗忘. 来源 注意力机制的设计,或者说命名,是借鉴了人类的注意力机制.人类的注意力机制属于生物的天性之一,无论是视觉还是听觉,都可以让我们在大量信息中筛选并关注高价值信息,获取更多所需要关注目标的细节信息,而抑制其他无用信息,极大地提高了信息处理的效率与准确性. 而应用于深度学习的注意力机制,其核心目标也是在海量信息中挑选出最有价值的信息. Encoder-Decoder(S

【NLP】十分钟学习自然语言处理

十分钟学习自然语言处理概述 作者:白宁超 2016年9月23日00:24:12 摘要:近来自然语言处理行业发展朝气蓬勃,市场应用广泛.笔者学习以来写了不少文章,文章深度层次不一,今天因为某种需要,将文章全部看了一遍做个整理,也可以称之为概述.关于这些问题,博客里面都有详细的文章去介绍,本文只是对其各个部分高度概括梳理.(本文原创,转载注明出处:十分钟学习自然语言处理概述  ) 1 什么是文本挖掘? 文本挖掘是信息挖掘的一个研究分支,用于基于文本信息的知识发现.文本挖掘的准备工作由文本收集.文本分

自然语言处理第一讲:简介和概述

这堂课将要回答的问题: 1.什么是自然语言处理? 2.为什么自然语言处理比较难? 3.我们能够构建一个可以从文本中学习的程序吗? 4.这门课程将包含哪些内容? 一. 什么是自然语言处理 1.计算机将自然语言作为输入或输出: 输入对应的是自然语言理解: 输出对应的是自然语言生成: 2.关于NLP的多种观点: A.人类语言处理的计算模型: --程序内部按人类行为方式操作 B. 人类交流的计算模型: --程序像人类一样交互 C.有效处理文本和语音的计算系统 3.NLP的应用: A."宝贝鱼"

(转 )十分钟学习自然语言处理概述

(转 )十分钟学习自然语言处理概述 作者:白宁超 2016年9月23日00:24:12 摘要:近来自然语言处理行业发展朝气蓬勃,市场应用广泛.笔者学习以来写了不少文章,文章深度层次不一,今天因为某种需要,将文章全部看了一遍做个整理,也可以称之为概述.关于这些问题,博客里面都有详细的文章去介绍,本文只是对其各个部分高度概括梳理.(本文原创,转载注明出处:十分钟学习自然语言处理概述  ) 1 什么是文本挖掘? 文本挖掘是信息挖掘的一个研究分支,用于基于文本信息的知识发现.文本挖掘的准备工作由文本收集

word2vec概述

既然是概述,那么我也只会在文中谈一点关于 Word2Vec 的思想和大概的方法.对于这个算法,如果一开始学习就深入到算法细节中,反而会陷入局部极值点,最后甚至不知道这个算法是干嘛的.在了解算法大概的思路后,如果有进一步研究的必要,再去深究算法细节,这时一切都是水到渠成的. 先申明,由于我不是做 NLP 相关的,因此本文参考的主要是文末提供的博客,在算法理解上有很多不成熟的地方,还请见谅. 什么是Word2Vec Word2Vec,顾名思义,就是把一个 word 变成一个 vector.其实,早在

利用Tensorflow进行自然语言处理(NLP)系列之一Word2Vec

写在前面的话(可略过): 一直想写下.整理下利用Tensorflow或Keras工具进行自然语言处理(NLP)方面的文章,对比和纠结了一段时间,发现博众家之长不如静下心来一步一个脚印地去看一本书来得更实在,虽然慢但是心里相对踏实些.近期刚把Thushan Ganegedara写的<Natural Language Processing with TensorFlow>(2018年5月第一次出版),目前没看到中文版.讲真,看原版书确实很耗费精力,但原版书的好处是可以原汁原味地探索.写博文的过程中

6个顶级Python NLP库的比较!

http://blog.itpub.net/31509949/viewspace-2212320/ 自然语言处理(NLP)如今越来越流行,在深度学习开发的背景下变得尤为引人注目.在人工智能领域中,自然语言处理(NLP)从文本中理解和提取重要信息,并基于文本数据进行进一步的数据训练,其主要任务包括语音识别和生成.文本分析.情感分析.机器翻译等. 在过去的几十年中,只有那些精通语言教育的专家才能从事自然语言处理.除了具有数学和机器学习知识以外,他们还精通一些关键的语言概念.而现在,我们可以使用已编译

聊天机器人(chatbot)终极指南:自然语言处理(NLP)和深度机器学习(Deep Machine Learning)

在过去的几个月中,我一直在收集自然语言处理(NLP)以及如何将NLP和深度学习(Deep Learning)应用到聊天机器人(Chatbots)方面的最好的资料. 时不时地我会发现一个出色的资源,因此我很快就开始把这些资源编制成列表. 不久,我就发现自己开始与bot开发人员和bot社区的其他人共享这份清单以及一些非常有用的文章了. 在这个过程中,我的名单变成了一个指南,经过一些好友的敦促和鼓励,我决定和大家分享这个指南,或许是一个精简的版本 - 由于长度的原因. 这个指南主要基于Denny Br

史上最详尽的NLP预处理模型汇总

文章发布于公号[数智物语] (ID:decision_engine),关注公号不错过每一篇干货. 转自 | 磐创AI(公众号ID:xunixs) 作者 | AI小昕 编者按:近年来,自然语言处理(NLP)的应用程序已经无处不在.NLP使用率的快速增长主要归功于通过预训练模型实现的迁移学习概念,迁移学习本质上是在一个数据集上训练模型,然后使该模型能够适应在不同的数据集上执行不同的NLP操作.这一突破使得每个人都能轻松地开启NLP任务,尤其是那些没有时间和资源从头开始构建NLP模型的人.所以,使用预