斯坦福大学深度学习与自然语言处理第一讲

我学习自然语言是从Christopher D.Manning的统计自然语言处理基础这本书开始的，很多文本分析也是应用统计方法，或者机器学习的方法，而近年来深度学习逐渐渗入各个领域，其在自然语言处理领域中也取得了令人惊叹的效果，这成功的引起了我的重视，决定学习一下。何其所幸，让我找到了斯坦福大学深度学习与自然语言的课程，深得我心啊，所以打算好好学习一下，鉴于我爱自然语言处理中有相关课程的slides，我就直接复制粘贴了，接下来打算做的工作是对该课程中推荐阅读的部分论文做一些笔记。本人才疏学浅，专业水平不高，理解错误或不足之处，希望大家可以拿出来一同探讨，共同进步~

本文转载出处“我爱自然语言处理”：http://www.52nlp.cn

本文链接地址：斯坦福大学深度学习与自然语言处理第一讲：引言

第一讲：引言-自然语言处理与深度学习简介(Intro to NLP and Deep Learning)

推荐阅读材料：

线性代数相关知识点回顾：[Linear Algebra Review]
概率相关知识点回顾：[Probability Review]
凸优化相关知识点回顾: [Convex Optimization Review]
优化相关的另一篇介绍（来自于斯坦福CS231课程资料），随机梯度下降相关[More Optimization (SGD) Review]
语义向量空间模型的一篇综述[From Frequency to Meaning: Vector Space Models of Semantics]
课程第一部分的Notes，涉及第一讲和第二讲[Lecture Notes 1]
python及numpy简介[python tutorial]
第一讲Slides[slides]
第一讲视频[video]

以下是第一讲的相关笔记，主要参考自课程的slides，视频和其他相关资料。

什么是自然语言处理（NLP）

自然语言处理是一门交叉学科，包括计算机科学，人工智能和语言学
目标：让计算机去处理或“理解”自然语言, 完成一些有用的任务例如问答系统，机器翻译
完全理解或者表示语言的意义（甚至去定义它）都是一个虚幻的目标
完美的理解语言是一个“AI-complete”的问题

自然语言处理的层次

自然语言处理的应用

应用范围从简单到复杂
拼写检查, 关键词提取&搜索，同义词查找&替换
从网页中提取有用的信息例如产品价格，日期，地址，人名或公司名等
分类，例如对教科书的文本进行分级，对长文本进行正负情绪判断
机器翻译
口语对话系统
复杂的问答系统

工业届里的NLP应用

搜索引擎
在线广告
自动的或辅助的翻译技术
市场营销或者金融交易领域的情感分析
语音识别

NLP为什么这么难

语言在表达上就很复杂，使用的时候要综合考虑使用情境
Jane hit June and then she [fell/ran].
歧义问题：“I made her duck”

什么是深度学习（DL）

深度学习是机器学习的一个分支
大多数机器学习方法很有效主要依靠人工精心设计的特征，例如下表是一个命名实体识别任务中设计的特征模板(Finkel, 2010)

最终这些机器学习问题会变成优化问题：优化这些特征权重以达到最好的预测效果

机器学习 vs 深度学习

什么是深度学习（DL）续

表示学习 or 表达学习（Representation Learning）尝试自动的学习合适的特征及其表征
深度学习（Deep Learning) 算法尝试学习（多层次）的表征以及输出
从一个“原生”的输入x(例如“单词”）

深度学习的历史

这门课主要关注至今为止在解决NLP问题上有效果的深度学习技术
关于深度学习模型的相关历史，推荐参考《Deep Learning in Neural Networks: An Overview》

探索深度学习的原因

人工设计的特征常常定义过多，不完整并且需要花费大量的时间去设计和验证
自动学习的特征容易自适应，并且可以很快的学习
深度学习提供了一个弹性的，通用的学习框架用来表征自然的，视觉的和语言的信息。
深度学习可以用来学习非监督的（来自于生文本）和有监督的（带有特别标记的文本，例如正向和负向标记）
在2006年深度学习技术开始在一些任务中表现出众，为什么现在才热起来？

深度学习技术受益于越来越多的数据
更快的机器与更多核CPU/GPU对深度学习的普及起了很大的促进作用
新的模型，算法和idea层出不穷

通过深度学习技术提升效果首先发生在语音识别和机器视觉领域，然后开始过渡到NLP领域

面向语音识别的深度学习

“深度学习”在大数据集上的第一个突破性进展发生在语音识别领域
Paper：Context-Dependent Pre-trained Deep Neural Networks for Large Vocabulary Speech Recognition Dahl et al. (2010)

面向计算机视觉的深度学习

很多深度学习研究小组把大量的精力放在计算机视觉上（直到现在也是）
突破性的Paper: ImageNet Classification with Deep Convolutional Neural Networks by Krizhevsky et al. 2012

Deep Learning + NLP = Deep NLP

综合使用一些深度学习的方法来解决NLP的相关问题
近几年在NLP的一些应用领域效果有了较大的提升

层次：语音，词形，句法，语义
应用：机器翻译，情感分析，问答系统

音位学层次的表示

传统的方法：音素

深度学习：通过声音特征并将这些特征表示为向量直接来预测音素（或词语）

形态学层次的表示

传统的方法：语素，例如前缀，词干，后缀等
深度学习：

每个语素都用向量表示
神经网络用于向量的两两合并
Thang et al. 2013

句法层次的表示

传统的方法：将一个短语或句子划分到多个句法标记，例如NP，VP等

深度学习

每个单词或者短语都是一个向量
神经网络用于向量的两两合并
Socher et al. 2011

语义层次的表示

传统的方法： Lambda算子 or Lambda演算(Lambda calculus)

非常精细的函数设计
需要指定其他函数的输入
没有相似性的概念或者模糊语言

深度学习

每个单词或者短语或者逻辑表达式都是一个向量
神经网络用于向量的两两合并
Bowman et al. 2014

NLP应用：情感分析

传统的方法：精选的情感词典+词袋模型（忽略词序）+人工设计的特征（很难覆盖所有的信息）
深度学习：和上述词素，句法和语义相似的深度学习模型–>RNN
Demo: http://nlp.stanford.edu/sentiment/

NLP应用：问答系统

传统的方法：用了非常多的特征工程去获取相关的知识，例如正则表达式，Berant et al. (2014)

深度学习：和上述词素，句法，语义，情感分析相似的深度学习模型
知识可以储备在向量中

NLP应用：机器翻译

过去尝试过很多层次的机器翻译方法
传统的机器翻译系统是一个非常大的复杂系统
可以思考一下在深度学习中中间语（interlingua）对于翻译系统是如何起作用的？

深度学习：

源句子首先映射为向量，然后在输出的时候进行句子生成

Sequence to Sequence Learning with Neural Networks by Sutskever et al. 2014
方法很新但是可以替换传统非常复杂的机器翻译架构

可以发现所有NLP层次的表示都涉及到向量（Vectors), 下一讲将讲到如何来学习词向量以及这些向量表示了什么？

注：原创文章，转载请注明出处“我爱自然语言处理”：http://www.52nlp.cn

时间： 2024-08-01 17:49:28

斯坦福大学深度学习与自然语言处理第一讲的相关文章

斯坦福大学深度学习与自然语言处理第一讲：引言

斯坦福大学在三月份开设了一门"深度学习与自然语言处理"的课程:CS224d: Deep Learning for Natural Language Processing ,授课老师是青年才俊Richard Socher,他本人是德国人,大学期间涉足自然语言处理,在德国读研时又专攻计算机视觉,之后在斯坦福大学攻读博士学位,拜师NLP领域的巨牛 Chris Manning和Deep Learning 领域的巨牛 Andrew Ng ,其博士论文是< Recursive Deep Le

斯坦福大学深度学习与自然语言处理第二讲

第二讲:简单的词向量表示:word2vec, Glove(Simple Word Vector representations: word2vec, GloVe) 转载请注明出处及保留链接“我爱自然语言处理”:http://www.52nlp.cn 本文链接地址:斯坦福大学深度学习与自然语言处理第二讲:词向量推荐阅读材料: Paper1:[Distributed Representations of Words and Phrases and their Compositionality]]

Deep Learning 十_深度学习UFLDL教程：Convolution and Pooling_exercise（斯坦福大学深度学习教程）

前言理论知识:UFLDL教程和http://www.cnblogs.com/tornadomeet/archive/2013/04/09/3009830.html 实验环境:win7, matlab2015b,16G内存,2T机械硬盘实验内容:Exercise:Convolution and Pooling.从2000张64*64的RGB图片(它是the STL10 Dataset的一个子集)中提取特征作为训练数据集,训练softmax分类器,然后从3200张64*64的RGB图片(它是th

Deep Learning九之深度学习UFLDL教程：linear decoder_exercise（斯坦福大学深度学习教程）

前言实验内容:Exercise:Learning color features with Sparse Autoencoders.即:利用线性解码器,从100000张8*8的RGB图像块中提取彩色特征,这些特征会被用于下一节的练习理论知识:线性解码器和http://www.cnblogs.com/tornadomeet/archive/2013/04/08/3007435.html 实验基础说明: 1.为什么要用线性解码器,而不用前面用过的栈式自编码器等?即:线性解码器的作用? 这一点,Ng

Deep Learning 12_深度学习UFLDL教程：Sparse Coding_exercise（斯坦福大学深度学习教程）

前言理论知识:UFLDL教程.Deep learning:二十六(Sparse coding简单理解).Deep learning:二十七(Sparse coding中关于矩阵的范数求导).Deep learning:二十九(Sparse coding练习) 实验环境:win7, matlab2015b,16G内存,2T机械硬盘本节实验比较不好理解也不好做,我看很多人最后也没得出好的结果,所以得花时间仔细理解才行. 实验内容:Exercise:Sparse Coding.从10张512*51

Deep Learning 十一_深度学习UFLDL教程：数据预处理（斯坦福大学深度学习教程）

理论知识:UFLDL数据预处理和http://www.cnblogs.com/tornadomeet/archive/2013/04/20/3033149.html 数据预处理是深度学习中非常重要的一步!如果说原始数据的获得,是深度学习中最重要的一步,那么获得原始数据之后对它的预处理更是重要的一部分. 1.数据预处理的方法: ①数据归一化: 简单缩放:对数据的每一个维度的值进行重新调节,使其在 [0,1]或[ − 1,1] 的区间内逐样本均值消减:在每个样本上减去数据的统计平均值,用于平稳的数

深度学习与自然语言处理(3)_斯坦福cs224d Lecture 3

原文作者:Rohit Mundra, Richard Socher 原文翻译:@熊杰([email protected]) && @王昱森([email protected]) && @范筑军老师( [email protected]) && @OWEN([email protected]) 内容校正:寒小阳 && 龙心尘时间:2016年6月出处:http://blog.csdn.net/han_xiaoyang/article/deta

深度学习与自然语言处理(4)_斯坦福cs224d 大作业测验1与解答

深度学习与自然语言处理(4)_斯坦福cs224d 大作业测验1与解答作业内容翻译:@胡杨([email protected]) && @胥可([email protected]) 解答与编排:寒小阳 && 龙心尘时间:2016年6月出处: http://blog.csdn.net/han_xiaoyang/article/details/51760923 http://blog.csdn.net/longxinchen_ml/article/details/51765

车万翔《基于深度学习的自然语言处理》中英文PDF+涂铭《Python自然语言处理实战核心技术与算法》PDF及代码

自然语言处理是人工智能领域的一个重要的研究方向,是计算机科学与语言学的交叉学科.随着互联网的快速发展,网络文本尤其是用户生成的文本呈爆炸性增长,为自然语言处理带来了巨大的应用需求.但是由于自然语言具有歧义性.动态性和非规范性,同时语言理解通常需要丰富的知识和一定的推理能力,为自然语言处理带来了极大的挑战. 近年来快速发展的深度学习技术为解决自然语言处理问题的解决提供了一种可能的思路,已成为有效推动自然语言处理技术发展的变革力量. 推荐将深度学习理论运用至NLP中的资料<基于深度学习的自然语言处理

猜你喜欢

smarty详细使用教程（韩顺平smarty模板技术笔记）

MVC是一种开发模式,强调数据的输入.处理.显示是强制分离的 Smarty使用教程1.如何配置我们的smarty解压后把libs文件夹放在网站第一级目录下,然后创建两个文件夹templates 存放模 ...

重定向IO

引用自:http://www.cnblogs.com/liunanjava/p/4307793.html 1.三个静态变量 java.lang.System提供了三个静态变量 System.in(默认 ...

numpy 练习

numpy学习,为后续机器学习铺垫参考网址 # coding=utf-8 __author__ = 'dahu' from numpy import * import numpy as np a = ...

UIScrollView与UIPageController结合使用实现轮播

1 #import "ViewController.h" 2 #define WIDTH self.view.frame.size.width 3 #define HEIGHT s ...

Git 使用方法

Git 常用命令 git init here -- 创建本地仓库(repository),将会在文件夹下创建一个 .git 文件夹,.git 文件夹里存储了所有的版本信息.标记等内容 git remo ...

随着ScrollView的滑动，渐渐的执行动画View

今天是实现了一个小功能的东西.看看效果图: 实现方式: 1.自定义ScrollView 复写onScrollChange方法,来计算滑动的位置. 2.自定义接口,通过接口来在ScrollView中 ...

Filter与Servlet的区别与联系

转自 http://blog.csdn.net/gaibian0823/article/details/51027495 在我们写代码时,在web.xml中总能发现类似下面的代码: <span ...

使用python更新haproxy配置文件

老板现在给你任务,公司有haproxy配置文件,希望通过python程序可以对ha配置文件进行增删改,不再是以往的打开文件进行直接操作了. 现有ha配置文件如下: 1 global 2 log 127 ...

「SSH 黑魔法」：代理、端口转发和 shell 共享

在好朋友的推荐下,我看了这个视频: The Black Magic Of SSH 这个视频里面,介绍了 ssh 的一些高级应用:结合工作的经历,两类问题会对我们平时的工作帮助很大: 1. 两个人怎么 ...

Debug 介绍

Debug 设置如上图标注 1 所示,表示设置 Debug 连接方式,默认是 Socket.Shared memory 是 Windows 特有的一个属性,一般在 Windows 系统下建议使用此设 ...

浅谈JAVA ThreadPoolExecutor（转）

这篇文章分为两部分,前面是ThreadPoolExecutor的一些基本知识,后一部分则是Mina中一个特殊的ThreadPoolExecutor代码解析.算是我的Java学习笔记吧. 基础在我看来 ...

Mongodb在window上启动

MongoDB 是目前在IT行业非常流行的一种非关系型数据库(NoSql),其灵活的数据存储方式备受当前IT从业人员的青睐.这里主要讲如何在windows平台下安装MongoDB. 安装最新版本mon ...

java 中的2个接口 Comparable和Comparator

像Integer.String这些类型的数据都是已经实现Comparable接口的,所以对这些类型可以直接通过Arrays.sort(...)和Collections.sort(...)方法进行排序. ...

oracle海量数据中提升创建索引的速度

基本信息情况: 数据库版本:Oracle Database 11g Enterprise Edition Release 11.2.0.1.0 - 64bit Production 操作系统版本:Ce ...

--2015新春羊年小作生了三个大胖小子但都夭折还有一子流产第五子残疾四六风也差点没了败血病医院手术,疤痕累累多少苦难和悲痛娘忍过来了母亲坚强兄妹五人都是娘抚养成人侄子也是娘一手带大七十五岁 ...

微信获取用户的openid和详细信息

获取用户的信息的原理,首先用户会点击一个url,这个url会包含一个参数redirect_uri,这个url是指向微信那边的服务器的,然后微信会把这个http请求重定向到redirect_uri,即我 ...

mac安装 git npm Yeoman node.js等

mac 打开“终端” 1. 下载 git 2.下载node.js 自带npm但版本较低,升级版本: sudo npm install -g npm 3.安装yeman sudo npm install ...

base64/62 加解密的实现。

base64/62加解密代码下载地址: http://files.cnblogs.com/files/Kingfans/base64(62)加解密.zip base64: base62:

[转]国内各大互联网公司相关技术站点2.0版（集合腾讯、阿里、百度、搜狐、新浪、360等共49个）

利用闲暇时间整理了一份国内各大互联网公司的相关技术站点,希望能够对大家有所帮助,也欢迎各位帮忙补充. 腾讯系列(13) 阿里系列(18) 百度系列(3) 搜狐系列(3) 新浪系列(2) 36 ...

专题

随机推荐

© 2024 憋错料 | info#biecuoliao.com | 10 q. 0.021 s.