【深度学习篇】---CNN和RNN结合与对比,实例讲解

一、前述

CNN和RNN几乎占据着深度学习的半壁江山,所以本文将着重讲解CNN+RNN的各种组合方式,以及CNN和RNN的对比。

二、CNN与RNN对比

1、CNN卷积神经网络与RNN递归神经网络直观图

2、相同点:
    2.1. 传统神经网络的扩展。
    2.2. 前向计算产生结果,反向计算模型更新。
    2.3. 每层神经网络横向可以多个神经元共存,纵向可以有多层神经网络连接。

3、不同点
    3.1. CNN空间扩展,神经元与特征卷积;RNN时间扩展,神经元与多个时间输出计算
    3.2. RNN可以用于描述时间上连续状态的输出,有记忆功能,CNN用于静态输出
   3. 3. CNN高级100+深度,RNN深度有限

三、CNN+RNN组合方式

1. CNN 特征提取,用于RNN语句生成图片标注。

2. RNN特征提取用于CNN内容分类视频分类。

3. CNN特征提取用于对话问答图片问答。

四、具体应用

1、图片标注

基本思路
       目标是产生标注的语句,是一个语句生成的任务,LSTM?
       描述的对象大量图像信息,图像信息表达,CNN?
       CNN网络中全连接层特征描述图片,特征与LSTM输入结合。

具体步骤:

1.1 模型设计-特征提取
全连接层特征用来描述原图片
LSTM输入:word+图片特征;输出下一word。

1.2 模型设计-数据准备

1. 图片CNN特征提取
2. 图片标注生成Word2Vect 向量
3. 生成训练数据:图片特征+第n单词向量:第n+1单词向量。

1.3 模型训练:
1. 运用迁移学习,CNN特征,语句特征应用已有模型
2. 最终的输出模型是LSTM,训练过程的参数设定:梯度上限(gradient clipping), 学习率调整(adaptivelearning)
3. 训练时间很长。

1.4 模型运行:

1. CNN特征提取
2. CNN 特征+语句开头,单词逐个预测

2、视频行为识别 :

视频中在发 生什么?

2.1常用方法总结:

RNN用于CNN特征融合

1. CNN 特征提取

2. LSTM判断

3. 多次识别结果分析。

不同的特征不同输出。

或者:所有特征作为一个输出。

2.2 RNN用于CNN特征筛选+融合:

1. 并不是所有的视频 图像包含确定分类信息

2. RNN用于确定哪些frame 是有用的

3. 对有用的图像特征 融合。

2.3 RNN用于,目标检测:

1. CNN直接产生目标候选区

2. LSTM对产生候选区融合(相邻时刻位置近 似)

3. 确定最终的精确位置。

2.4 多种模型综合:

竞赛/应用中,为了产生最好结果,多采用 多模型ensemble形式。

 3、图片/视频问答

3.1 问题种类

3.2 图片问答意义
1. 是对纯文本语言问答系统的扩展
2. 图片理解和语言处理的深度融合
3. 提高人工智能应用范围-观察,思考,表达

原文地址:https://www.cnblogs.com/LHWorldBlog/p/9581918.html

时间: 2024-11-07 21:07:21

【深度学习篇】---CNN和RNN结合与对比,实例讲解的相关文章

CVPR 2015 之深度学习篇 Part 2 - deep learning在计算机视觉各个子领域的应用

CVPR 2015 之深度学习篇 Part 2 - deep learning在计算机视觉各个子领域的应用 Image Classification (图像分类)deep learning 的腾飞归功于其在 image classification 上的巨大成功.2012年的 AlexNet 的分类效果遥遥领先于第二名.后来各种 deep architectures 被采用,其中有名的是 VGG-Net 和 GoogLeNet,他们比 AlexNet 使用了更多的层.其次,GoogLeNet 还

用深度学习(CNN RNN Attention)解决大规模文本分类问题 - 综述和实践

转自https://zhuanlan.zhihu.com/p/25928551 近来在同时做一个应用深度学习解决淘宝商品的类目预测问题的项目,恰好硕士毕业时论文题目便是文本分类问题,趁此机会总结下文本分类领域特别是应用深度学习解决文本分类的相关的思路.做法和部分实践的经验. 业务问题描述: 淘宝商品的一个典型的例子见下图,图中商品的标题是"夏装雪纺条纹短袖t恤女春半袖衣服夏天中长款大码胖mm显瘦上衣夏".淘宝网后台是通过树形的多层的类目体系管理商品的,覆盖叶子类目数量达上万个,商品量也

行人检测 深度学习篇

樊恒徐俊等基于深度学习的人体行为识别J武汉大学学报2016414492-497 引言 行为识别整体流程 前景提取 行为识别过程 实验分析 芮挺等 基于深度卷积神经网络的行人检测 计算机工程与应用 2015 引言 卷积神经网络结构与特点 行人检测卷积神经网络结构 实验对比总结 张 阳 基于深信度网络分类算法的行人检测方法J 计算机应用研究 20163302 总体来说大部分浏览下就行. 樊恒,徐俊等.基于深度学习的人体行为识别[J].武汉大学学报,2016,41(4):492-497. 0 引言 目

深度学习:浅谈RNN、LSTM+Kreas实现与应用

主要针对RNN与LSTM的结构及其原理进行详细的介绍,了解什么是RNN,RNN的1对N.N对1的结构,什么是LSTM,以及LSTM中的三门(input.ouput.forget),后续将利用深度学习框架Kreas,结合案例对LSTM进行进一步的介绍. 一.RNN的原理 RNN(Recurrent Neural Networks),即全称循环神经网络,它是一种对序列型的数据进行建模的深度模型.如图1.1所示. 图1.1 1.其中 为序列数据.即神经网络的输入,例如nlp中,X1可以看作第一个单词.

深度学习之六,基于RNN(GRU,LSTM)的语言模型分析与theano代码实现

引言 前面已经介绍过RNN的基本结构,最基本的RNN在传统的BP神经网络上,增加了时序信息,也使得神经网络不再局限于固定维度的输入和输出这个束缚,但是从RNN的BPTT推导过程中,可以看到,传统RNN在求解梯度的过程中对long-term会产生梯度消失或者梯度爆炸的现象,这个在这篇文章中已经介绍了原因,对于此,在1997年 的Grave大作[1]中提出了新的新的RNN结构:Long Short Term Dependency.LSTM在传统RNN的基础上加了许多的"门",如input

【深度学习】CNN模型可视化

神经网络本身包含了一系列特征提取器,理想的feature map应该是稀疏的以及包含典型的局部信息.通过模型可视化能有一些直观的认识并帮助我们调试模型,比如:feature map与原图很接近,说明它没有学到什么特征:或者它几乎是一个纯色的图,说明它太过稀疏,可能是我们feature map数太多了(feature_map数太多也反映了卷积核太小).可视化有很多种,比如:feature map可视化.权重可视化等等,我以feature map可视化为例. 模型可视化 用了keras做实验,以下图

Nginx详解十八:Nginx深度学习篇之Rewrite规则

Rewrite规则可以实现对url的重写,以及重定向 作用场景: 1.URL访问跳转,支持开发设计,如页面跳转,兼容性支持,展示效果等 2.SEO优化 3.维护:后台维护.流量转发等 4.安全 配置语法 配置语法:rewrite regex replacement [flag];默认状态:-配置方法:server.location.if如:rewrite ^(.*)$ /pages/maintain.html break; 常用的正则表达式 在linux下,可以用pcretest来测试 flag

Nginx详解二十一:Nginx深度学习篇之配置苹果要求的openssl后台HTTPS服务

配置苹果要求的证书: 1.服务器所有的连接使用TLS1.2以上的版本(openssl 1.0.2) 2.HTTPS证书必须使用SHA256以上哈希算法签名 3.HTTPS证书必须使用RSA2048位或ECC256位以上公钥算法 4.使用前向加密技术 首先看openssl版本:openssl version,为1.0.1,需要升级 查看当前使用的自签算法类型:openssl x509 -noout -text -in ./jesonc.crt,使用的是sha1,位数是1024位,都不符合规定 升级

Nginx详解二十四:Nginx深度学习篇之灰度发布

实战场景 - 灰度发布 灰度发布的作用:按照一定的关系区别,分部分的代码进行上线,使代码的发布能平滑过渡上线实现方式: 1.用户的信息cookie等信息区别 2.根据用户的IP地址 安装memcached:yum -y install memcached 准备好两个tomcat,9090代表生产环境,8080代表预发布环境 为避免冲突,修改tomcat9090的端口号 这里分别在同个tomcat/webapp/ROOT/下放了同样内容的jsp文件 把8080下的jsp问价内容改一下区别于9090