七月算法12月机器学习在线班---第二十次课笔记---深度学习--RNN

七月算法12月机器学习在线班---第二十次课笔记---深度学习--RNN

七月算法(julyedu.com)12月机器学习在线班学习笔记http://www.julyedu.com

  1. 循环神经网络

复习之前的知识点:

全连接前向网络: 学习出来的是函数

卷积网络:卷积操作,部分链接,共享操作,逐层提取原始图像的特征(语音,NLP)

学习出来的特征

局部相关性

浅层宽网络很难做成神经网络

?

1.1状态和模型

1, ID数据

·分类问题

·回归问题

·特征表达

2, 大部分数据都不满足ID

·大部分数据都不满足旧

·序列分析(Tagging, Annotation)

·序列生成,如语言翻译,自动文本生成

·内容提取(Content Extraction),如图像描)

需要将之前的状态加入当前层

1.2 序列样本

1,输入和输出的映射关系(序列的应用)

a, 一对一:普通的神经网络,不带循环

b. 一对多,看图说话

c. 多对一:情感判断

d: 多对多:语言翻译

e: 序列到序列 L/R/U/D

·RNN不仅仅能够处理序列输出,也能得到序列输出,这里序列

指的是向量的序列。

. RNN学习出来的是程序,不是函数

?

1.3 序列预测

·输入的是时间变化向量序列:

. 在t时刻通过模型来估计:

?

·问题:

·对内部状态难以建模和观察

·对长时间范围的场景(Context)难以建模和观察

·解决方案: 引入内部隐含状态变量

内部的状态,对应的是位置

?

1.4 序列预测模型

·输入离散列序列

·在时间t的更新计算

上面两幅图等价, 上一次t-1时刻的的H和当前的当前的时刻,一同作用输出。

·预测计算

  1. 整个计算过程中,W保持不变
  2. H在0时刻初始化

?

1.4 RNN训练(1)

1, 前向计算,相同的W矩阵需要乘以多次

2, 多步之前的输入X,会影响当前的输出

3, 在后向计算的时候,同样相同的矩阵也会乘以多次

1.4.1 B PTT算法一BackProp Through Time

1,RNN前向计算

2,计算W的偏导,需要把所有Time Step加起来, 每一步的损失函数一样

3, 应用链式规则

?

1.4.2 BPTT算法:计算实现

链式规则求目标,使用向量的微分

计算目标是求和,

序列要是16的话,W转置要乘以16次,产生一个爆炸现象,按时间展开,容易发生,出现了连乘,,普通的网络,W有大有小,梯度消失,不会很严重,每一层的W都不一样

?

BPTT算法 梯度vanishing/ exploding现象分析

?

?

1.4.3 BPTT算法的解决的方案

1, clipping

2, W初始化为1,将激活函数使用Relu替换成Tanh

?

2 LSTM (Long Short Term Memory) Cell 长时间记忆能力

通过结构的方法解决,梯度离散和梯度爆炸的现象,避免了一个W从头到尾连乘,具备了一定的常识记忆的能力

应用最为广泛、成功的RNN

?

2.1 cell state (单元状态)

?

1, 可以长期保存某个状态, cell state值通过forget gat(图中的乘)控制实现保留多少"老"的状态,

2, Layer把输入维度X变成输出维度h

?

2.2 Forget /input unit

至于是[0,1],b是偏移量

2.3 Update cell

2.4 output

下图为总结,四个矩阵Wf ,Wi,Wc,Wo

?

时间: 2024-08-09 22:02:24

七月算法12月机器学习在线班---第二十次课笔记---深度学习--RNN的相关文章

七月算法--12月机器学习在线班-第十一次课笔记—随机森林和提升

七月算法--12月机器学习在线班-第十一次课笔记-随机森林和提升 七月算法(julyedu.com)12月机器学习在线班学习笔记http://www.julyedu.com ? 随机森林:多棵树,对当前节点做划分是最重要的 1,决策树 决策树学习采用的是自顶向下的递归方法,其基本思想是以信息熵为度量构造一棵熵值下降最快的树 叶子节点处的熵值为零,此时每个叶节点中的实例都属于同一类. ? 下面的重点是选择什么样的熵值下降最快 1.2, 决策树的生成算法: 建立决策树的关键,即在当前状态下选择哪个属

七月算法-12月机器学习在线班--第十六次课笔记—采样和变分

七月算法-12月机器学习--第十六次课笔记—采样和变分 七月算法(julyedu.com)12月机器学习在线班学习笔记http://www.julyedu.com 第一部分 采样 引言 为什么要研究采样? 根据采样结果估算分布的参数,完成参数学习. 前提:模型已经存在,但参数未知: 方法:通过采样的方式,获得一定数量的样本,从而学习该系统的参数. 1 采样算法 现需要对概率密度函数f(x)的参数进行估计,若已知的某概率密度函数g(x)容易采样获得其样本,可以如何估计f(x)的参数? g(x)很容

七月算法--12月机器学习在线班-第十九次课笔记-深度学习--CNN

七月算法--12月机器学习在线班-第十九次课笔记-深度学习--CNN 七月算法(julyedu.com)12月机器学习在线班学习笔记http://www.julyedu.com 1,卷积神经网络-CNN 基础知识 三个要点 1: 首先将输入数据看成三维的张量(Tensor) 2: 引入Convolution(卷积)操作,单元变成卷积核,部分连接共享权重 3:引入Pooling(采样)操作,降低输入张量的平面尺寸 ,1.1 张量(Tensor) 高,宽度,深度,eg:彩色图像:rgb,3个深度,图

七月算法--12月机器学习在线班-第十三次课笔记—贝叶斯网络

七月算法--12月机器学习在线班-第十三次课笔记-贝叶斯网络 七月算法(julyedu.com)12月机器学习在线班学习笔记http://www.julyedu.com ? 1.1 贝叶斯公式带来的思考:给定结果推原因: 1.2朴素贝叶斯的假设 1,一个特征出现的概率,与其他特征(条件)独立(特征独立性) 2, 每个特征同等重要 例如:文本分类 ,词出现为1,不出现为0 贝叶斯公式: 分解: ? 拉普拉斯平滑 判断两个文档的距离:夹角余弦 判断分类器的正确率:交叉验证 若一个词出现的次数多,一个

七月算法--12月机器学习在线班-第三次课笔记—矩阵和线性代数

七月算法--12月机器学习在线班-第三次课笔记—矩阵和线性代数 七月算法(julyedu.com)12月机器学习在线班学习笔记 http://www.julyedu.com

七月算法--12月机器学习在线班-第五次课笔记—回归

七月算法--12月机器学习在线班-第五次课笔记—回归 七月算法(julyedu.com)12月机器学习在线班学习笔记 http://www.julyedu.com

七月算法--12月机器学习在线班-第一次课笔记—微积分与概率论

七月算法--12月机器学习在线班-第一次课笔记—微积分与概率论 七月算法(julyedu.com)12月机器学习在线班学习笔记 http://www.julyedu.com

七月算法--12月机器学习在线班-第六次课笔记—梯度下降和拟牛顿

七月算法--12月机器学习在线班-第六次课笔记—梯度下降和拟牛顿 七月算法(julyedu.com)12月机器学习在线班学习笔记 http://www.julyedu.com

七月算法--12月机器学习在线班-第四次课笔记—凸优化

七月算法--12月机器学习在线班-第四次课笔记—凸优化 七月算法(julyedu.com)12月机器学习在线班学习笔记 http://www.julyedu.com