CNCC2017中的深度学习与跨媒体智能

转载请注明作者:梦里茶

目录

  • 机器学习与跨媒体智能
  • 传统方法与深度学习
    • 图像分割
    • 小数据集下的深度学习
    • 语音前沿技术
  • 生成模型
    • 基于贝叶斯的视觉信息编解码
    • 珠算:基于别噎死推断的深度生成模型库
    • 图像与视频生成的规则约束
    • 景深风景生成
    • 骨架约束的人体视频生成
  • 跨媒体智能
    • 视频检索的哈希学习
    • 多媒体与知识图谱
    • 基于锚图的视觉数据分析
    • 视频问答
    • 细粒度分类
    • 跨媒体关联与检索(待补充)

正片开始

传统方法与深度学习

图像分割

图像分割是医疗图像中一个很重要的任务,通常分为分割,配准,可视化几个子任务。这里贴一张广义的图像分割的图:

存在的困难:

  • 不同目标区域亮度一致,区分度小,
  • 不同目标区域边界模糊,
  • 图像采集存在噪声

常用分割步骤

检测(定位)-> 边界寻优

常用分割方法

  • 按照图像中区域的能量与联系,建立图模型,用图割,图搜索的方法对图像进行分割
  • 外观模型:特定的目标区域往往具有特殊的外观,包括轮廓,形状,可以用外观模型进行匹配,做粗粒度的分割,或者对细粒度处理后的图像进行校正
  • 多模态图像处理:融合结构信息功能信息进行分割
  • 对准两个模型(结构和功能)的图像,对两个模型的预测结果进行约束(比如希望两个模型的输出相近)
  • 双模型交互迭代优化
  • 多边形近似
  • 对于某种目标区域,有着固定的多边形外观,可通过多边形近似的方法,标记出图像中近似的特征点

语音前沿技术

任务

降噪,增强,杂音分离,消除回响

结合领域知识和DNN

  • 数据标注:结合领域知识提出需要标注哪些数据
  • 不直接学习目标,而是根据领域知识将目标任务进行分解

    - 比如识别字母,分解为识别摩擦音,爆破音

  • 将传统模型中里程碑式的东西拿过来用

移动端语音挑战

模型压缩,轻量化

生成模型

基于贝叶斯的视觉信息编解码

任务

  • 视觉信息编码:视觉信息通过人脑转为神经活动的过程
  • 视觉信息解码:神经活动新号转为视觉信息的过程

模型(基于卷积和反卷积的自编码器)

  • 推理网络:卷积神经网络,得到中间特征,建立中间特征与神经活动信号之间的关联,从而得到神经活动得到编码
  • 生成网络:将神经活动进行反卷积,得到图像
  • 对于两个信号,学习两个信号产生于同一对象的概率(相似度分析),建立起一个贝叶斯推断模型

多视图生成式自编码器

除了视觉数据之外,还有其他模态的数据,可以根据多个模态的数据构建多视图的生成时自编码器

珠算:基于贝叶斯推断的深度生成模型库

任务

大数据中有许多不确定因素,需要学习对不确定性建模

模型

给定一个输入z,用神经网络学习变量x的分布的参数(均值和方差),约束生成样本与真实样本的相似性

有约束的GAN

在GAN的基础上,加一个分类器C,对生成器G生成的对象加中间约束,使得生成的对象更符合实际需求,比如生成不同姿态的人脸,要求不同人的人脸尽量不同,同个人的人脸尽量相同。

珠算

  • 基于Tensorflow的python库,无监督生成模型
  • 贝叶斯推断
  • 适合传统多层贝叶斯推断模型以及深度生成模型
  • 可用于

    - 多变量回归

    - 变分自编码器实现

  • http://zhusuan.readthedocs.io

图像与视频生成的规则约束学习

  • GAN成为无监督领域的新框架
  • WGAN,DCGAN

    - 在生成中,往往通过随机性引入创意

  • 已有工作

    - 人脸姿态转换,人脸年龄转换,人脸表情转换

    - 图像超分辨率生成,画风转换,字体转换,图像转视频

  • 应用

    - 动画自动制作,手语生成

    - 视频自动编辑(如生成不同天气情况下的风景)

  • 创意+规则约束+复杂场景+复杂交互
  • 难点

    - 解空间巨大:需要找出解所在的低维子空间

    - 宏观结构的一致性(视频生成需要的像素感受野(pooling)很大,难以预测长期运动变化)

    - 微观结构的清晰度,要同时逼近多模分布,避免单模生成的结果不够精确

  • 解决方法
  • 用领域中的规则去约束GAN,加入破坏规则的代价

    - 缩小预测空间,保证宏观结构,加快细节生成

景深风景生成

  • 难点:要求空间结构合理,不能有严重的模糊
  • 约束:从现有风景图像中对景深关系建模(对区域进行标注, 不同区域,即图层,有不同的远近限制)
  • 建立位置和对象的关系,得到某个位置有某个对象的概率分布
  • Hawkes过程模型
  • 根据对象对图层做分解,由概率约束建立图层约束(树在人之前的概率有多大)
  • 层内DCGAN,层间LSTM聚合出整图

骨架约束的人体视频生成

  • 骨架运动有约束
  • 骨架提取很鲁棒,可以得到很多有标签知识(传统方法用来提取知识),作为约束条件
  • 静图+动作序列变动图
  • CNN编码解码,孪生网络双输入进行生成
  • 判别器:对生成和实际帧做Triplet loss优化
  • gan loss和视频相似度loss相加
  • 交互运动视频生成

视频检索的哈希学习

Learning Multifunctional Binary Codes for Both Category and Attribute Oriented Retrieval Tasks

视频检索基于图像检索,大规模图像检索对性能要求较高

  • 图像检索
  • 任务:通常图像特征很大,直接检索特征太慢

    - 方法:

    - 用二进制编码出一个哈希值来表达特征

    - 对哈希值做高效的异或运算求相似度

    - 模型(添加了对二进制编码的约束,希望绝对值与1尽量相近):

多媒体与知识图谱

Cross-media analysis and reasoning: advances and directions

  • 任务:
  • 将文本,图像,语音,视频及其交互属性进行混合
  • 多源融合+知识演化+系统演化
  • 难点:
  • 解决语义鸿沟(机器认识世界是什么)
  • 意图鸿沟(机器理解人要达到什么目标)
  • 离散的知识和连续的特征如何转化如何关联
  • 典型问题:
  • 跨媒体知识学习推理,多媒体情感分析
  • 现状:
  • 机器学习助力多媒体效果很好
  • 多媒体助力机器学习还不成熟
  • 任务:
  • 跨媒体深度分析和综合推理
  • 方法:
  • 从浅层到深度
  • 知识图谱指导多媒体分析,属性补全
  • 深度学习+反馈(知识和规则进行反馈/强化学习)(黑箱方法)
  • 统计推理,贝叶斯推理(白盒方法)
  • 趋势:

    - 知识表达理解,多媒体理解

基于锚图的视觉数据分析

  • 图学习

    - 对视觉数据可以计算相似度,对于整个数据集就可以得到一个相似度矩阵,学过图论的同学都知道,矩阵就是图

    - 相似度矩阵 -> 图的邻接矩阵 -> 用图的方法对邻接矩阵进行优化

  • 标号建模 标号平滑 标号学习
  • 锚图学习(速度+)

    - 这是一种coarse to fine的思路

    - 利用数据点图,生成锚点图,先采一部分有代表性的数据(例如聚类中心)生成一个图模型,然后推理出其他图

    - 图模型中需要建立表示矩阵(特征工程),邻接矩阵(度量学习),并加快相似度计算

  • 高效锚图(性能速度+)

    - 从数学上优化锚图的约束条件,使得优化问题的复杂度大大降低

  • 层次化锚图(速度++)

    - 建立多层的锚图,也就是对采样点再采样

    - 锚点是线性增加的,也会增加得很快

  • 对第一层采样的点做再采样,多层采样减少了锚点数目,从最少的锚点的层逐层推理
  • 标号预测器(速度+++)

    - 优化对锚点的标号(打伪标签进行半监督学习)

    - 对最小的锚点层接一个优化器进行标号预测

  • 主动学习(样本选择)

    - 是一种hard mining的思路,选择更有用的样本作为锚点

    - 减小标号的误差损失

  • 对比Google Expander Graph Learning平台:经典方法,并行运算,而锚图可以通过并行进一步提升速度

视频问答

  • 任务:
  • 输入视频,问题,输出答案
  • 模型(层次记忆网络+视频时序推理):
  • 对图像进行分层
  • 对问题进行记忆
  • 用文本和图像特征一同训练生成答案
  • 用LSTM做时序推理

细粒度分类

  • 任务:

    - 识别图像同一大类中的子类

  • 挑战:

    - 姿态视角不同导致类内差异大,外形颜色相似导致类间差异小

基于模型动态扩容的增量深度学习方法

论文:Error-Driven Incremental Learning in Deep Convolutional Neural Network for Large-Scale Image Classification

  • 将目标的多个类别按相似度划分为几个大类,
  • 增加一个新的类别时,将其归入最相近的大类中,重用大类的参数,扩展小类分类层参数
  • 利用类别子集合划分实现模型动态扩容,利用特征迁移学习实现训练加速(对类别做聚类)

局部两级注意力深度模型

The Application of Two-level Attention Models in Deep Convolutional Neural Network for Fine-grained Image Classification

给定图片-类别,不给出对象位置(bounding box)和局部的位置(part location),用Attention学习对象位置和局部特征

  • Object level: 首先用公开的数据集预训练模型,top-down地作用在整图上,选出跟目标相关的区域(响应度最高的区域),相当于抠图,对抠过的区域再加上类别标签进行迁移学习。

  • Part level:
  • 对于Object level得到的模型,对卷积层的filter做相似度聚类,同一类的卷积层合为一个part detector,用来为具体的对象局部做识别

  • 结合总体评分和局部评分来对对象做细粒度分类

空间约束的显著性部件选择模型

Weakly Supervised Learning of Part Selection Model with Spatial Constraints for Fine-grained Image Classification

  • 显著性提取和协同分割定位对象
  • 先通过显著性聚类提出备选局部,
  • 再对局部位置关系提出两个空间约束:局部和整体必须有尽可能多的重叠,局部之间有尽可能少的重叠。

上面两篇都是不需要局部组件的标注,就学到了局部的特征和约束

显著性引导的细粒度辨识性定位方法

Fine-grained Discriminative Localization via Saliency-guided Faster R-CNN

结合分类模型和检测模型做更高精度的细粒度分类

  • 显著性模型提供弱标记的图片训练faster r-cnn检测模型
  • 检测模型提供更精确的备选区域进行分类

视觉文本联合建模的图像细粒度表示

Fine-grained Image Classification via Combining Vision and Language

  • 在图片数据集的基础上,增加对图片的描述文本,利用这两个模态的数据提供更高精度的细粒度分类
  • 卷积做图像分类,CNN+LSTM做文本分类,两个分类结果合起来

跨媒体关联与检索

  • 跨媒体统一表征学习:使用相同的特征类型表征不同媒体的数据
  • 跨媒体相似度计算:通过分析跨媒体关联关系,计算不同媒体数据的语义相似性

这里的六篇论文我还没读完,读完之后补具体的理解

跨媒体关联传递方法

IJCV2013: Exhaustive and Efficient Constraint Propagation

基于稀疏和半监督的统一表征方法

Learning Cross-Media Joint Representation With Sparse and Semisupervised Regularization

基于跨媒体语义单元的统一表征方法

Semi-Supervised Cross-Media Feature Learning with Unified Patch Graph Regularization

基于跨媒体多深度网络的统一表征方法

Cross-media Shared Representation by Hierarchical Learning with Multiple Deep Networks

基于多粒度层级网络跨媒体关联学习方法

CCL: Cross-modal Correlation Learning with Multi-grained Fusion by Hierarchical Network

跨媒体混合迁移网络方法

Cross-modal Common Representation Learning by Hybrid Transfer Network, IJCAI2017

跨媒体检索数据集PKU-XMedia

  • www.icst.pku.edu.cn/mlpl/XMedia
  • 五种媒体类型(图像、文本、视频、音频、3D)
  • 10万标注数据,200个语义类别,基于wordNet的层次结构
  • 来自Wikipedia, Flickr, Youtube, Findsounds, Freesound, Yobi3D
时间: 2025-01-08 23:15:09

CNCC2017中的深度学习与跨媒体智能的相关文章

图像识别中的深度学习 转

转:http://mp.weixin.qq.com/s?__biz=MzAwNDExMTQwNQ==&mid=209152042&idx=1&sn=fa0053e66cad3d2f7b107479014d4478#rd#opennewwindow 1.深度学习发展历史 深度学习是近十年来人工智能领域取得的重要突破.它在语音识别.自然语言处理.计算机视觉.图像与视频分析.多媒体等诸多领域的应用取得了巨大成功.现有的深度学习模型属于神经网络.神经网络的起源可追溯到20世纪40年代,曾经

ui2code中的深度学习+传统算法应用

背景 在之前的文章中,我们已经提到过团队在UI自动化这方面的尝试,我们的目标是实现基于 单一图片到代码 的转换,在这个过程不可避免会遇到一个问题,就是为了从单一图片中提取出足够的有意义的结构信息,我们必须要拥有从图片中切割出想要区块(文字.按钮.商品图片等)的能力,而传统切割算法遇到复杂背景图片往往就捉襟见肘了(见下图),这个时候,我们就需要有能力把复杂前后景的图片划分为各个层级图层,再交给切割算法去处理,拿到我们期望的结构信息. 经过传统切割算法处理,会无法获取图片结构信息,最终只会当成一张图

在浏览器中进行深度学习:TensorFlow.js (八)生成对抗网络 (GAN

Generative Adversarial Network 是深度学习中非常有趣的一种方法.GAN最早源自Ian Goodfellow的这篇论文.LeCun对GAN给出了极高的评价: "There are many interesting recent development in deep learning-The most important one, in my opinion, is adversarial training (also called GAN for Generativ

在ubuntu中配置深度学习python图片分类实验环境

1 安装numpy,scipy, matplotlib, sudo apt-get install python-numpy sudo apt-get install python-scipy sudo apt-get install python-matplotlibsudo apt-get install python-dev 2 图片处理相关的科学库 pip install scikit-image

深度学习在图像识别中的研究进展与展望

深度学习在图像识别中的研究进展与展望 深度学习是近十年来人工智能领域取得的最重要的突破之一.它在语音识别.自然语言处理.计算机视觉.图像与视频分析.多媒体等诸多领域都取得了巨大成功.本文将重点介绍深度学习在物体识别.物体检测.视频分析的最新研究进展,并探讨其发展趋势. 1.深度学习发展历史的回顾 现在的深度学习模型属于神经网络.神经网络的历史可以追溯到上世纪四十年代,曾经在八九十年代流行.神经网络试图通过大脑认知的机理,解决各种机器学习的问题.1986年Rumelhart.Hinton和Will

【王晓刚】深度学习在图像识别中的研究进展与展望

深度学习是近十年来人工智能领域取得的最重要的突破之一.它在语音识别.自然语言处理.计算机视觉.图像与视频分析.多媒体等诸多领域都取得了巨大成功.本文将重点介绍深度学习在物体识别.物体检测.视频分析的最新研究进展,并探讨其发展趋势. 1. 深度学习发展历史的回顾 现有的深度学习模型属于神经网络.神经网络的历史可追述到上世纪四十年代,曾经在八九十年代流行.神经网络试图通过模拟大脑认知的机理,解决各种机器学习的问题.1986 年Rumelhart,Hinton 和Williams 在<自然>发表了著

机器码农:深度学习自动编程

转自原文机器码农:深度学习自动编程 作者简介:张俊林,中科院软件所博士,曾担任阿里巴巴.百度.新浪微博资深技术专家,目前是用友畅捷通工智能相关业务负责人,关注深度学习在自然语言处理方面的应用. 责编:何永灿,欢迎人工智能领域技术投稿.约稿.给文章纠错,请发送邮件至[email protected] 本文为<程序员>原创文章,未经允许不得转载,更多精彩文章请订阅2017年<程序员> 机器自动编程是人工智能一直以来期望攻克的重要应用领域,随着深度学习的逐步流行,最近在自动编程方向获得了

搜狗大数据总监、Polarr 联合创始人关于深度学习的分享交流

架构师小组交流会:每期选择一个时下最热门的技术话题进行实践经验分享. 邀请到了 Polarr 联合创始人宫恩浩.搜狗大数据总监高君.七牛云 AI 实验室负责人彭垚,对深度学习框架选型.未来趋势展开了交流. 自由交流 Polarr 宫恩浩 我是宫恩浩,现在在斯坦福在读,主要做深度学习研究,特别是医学影像相关的研究.同时也在一家创业公司,国内叫泼辣修图,在美国是 Polarr,做图片的大数据,有云端的,也有手机端的,PC 端的.我们的 App 收集数据,建立优化的算法,我们在云端提供图片整理.图片选

(转载)深度学习三十年创新路

转载自:http://36kr.com/p/533832.html 编者注:深度学习火了,从任何意义上,大家谈论它的热衷程度,都超乎想象.但是,似乎很少有人提出不同的声音,说深度学习的火热,有可能是过度的繁荣,乃至不理性的盲从.而这次,有不同的想法出现了. 本篇文章来自依图科技 CEO Leo的投稿,依图科技是一家专注研究CV(Computer Vison,计算机视觉)的以技术驱动的创业公司,Leo自己也在这一领域有深入研究,因此这次写下这篇文章,希望回顾一下深度学习三十年的创新之路. 近期Na