Note_Fast Image Processing with Fully-Convolutional Networks

基本介绍

ICCV 2017

Fast Image Processing with Fully-Convolutional Networks

笔记

  1. 作者想建立一个神经网络模型去近似一些图像里的操作,比如图像风格迁移,图像铅笔画,去雾,上色,增加细节等等。主要考虑三个方面,近似的精度、运行时间、内存占用多少。
  2. 现在加快图像处理的一种通用的手段,是downsample-evaluate-upsample approach。这种方法的主要问题是:
    • 操作主要低分辨率图像上,这个不利于交互式使用。
    • 主要的操作是针对低分辨率图像的,对精度有影响。
  3. 作者想用一个模型来拟合十种图像操作。

    All operators are approximated using an identical architecture with no hyperparameter tuning.

  4. 已经有很多中,图片处理的加速算法,比如中值滤波器等等,但是他们的问题没有一般性。有一般性的是上面提到的下采样方法。
  5. 整个网络是Context aggregation networks(CAN),核心就是:

    \[ L_i^s = \phi\left ( \psi^s(b_i^s+\sum_jL_j^{s-1}*_{r_s}K_{i,j}^s) \right) \]

    其中,\(L_i^s\)是\(s\)层\(L^s\)的第\(i\)个特征层,\(*_{r_s}\)代表空洞卷积操作,\(K_{i,j}^s\)代表3X3的卷积核,\(b_i^s\)是偏置项,$ \psi^s\(是自适应的归一化函数,\) \phi$ 是像素级的非线性单元LReLU:\(\phi(x) = max(\alpha x,x)\) 。其中\(\alpha\)取的是0.2。

  6. 在使用batch Normalization的时候,也就是在给网络添加了BN层,作者发现对风格迁移、铅笔画有帮助,在其他操作上的表现不是很好,越是提出来自适应的BN,也就是自适应归一化函数。

    \[\phi^s(x) = \lambda_s x + \mu_s BN(x)\]、

    其中,\(\lambda_s ,\mu_s \in \mathbb{R}\) 是在反向传播中学习的参数。

  7. 训练是时候,是输入图片对,进行有监督训练,用了很多loss函数训练,最后发现均方误差才是最好的。

    \[\ell(\mathcal{K},\mathcal{B}) = \sum_i \frac{1}{N_i} \parallel \hat{f} (I_i;\mathcal{K},\mathcal{B}) - f(I_i)\parallel \]

    那些复杂的loss,b并没有给实验提高精度。

  8. 为了提高模型对分辨率的使用能力,在训练的过程中,随机选择图片的分辨率在(320p到1440p)之间。这些图片是随机裁剪的获得的。训练的采用Adam ,迭代500k次,耗时一天。
  9. 实验进行近似模拟的十个操作如下:
    • Rudin-Osher-Fatemi:是一种图像复原模型。
    • TV-L1 image restoration:是一种图像复原模型。
    • L0 smoothing:L0范式的图像平滑。
    • relative total variation:一种通过剥离细节来提取图像结构的操作。
    • image enhancement by multiscale tone manipulation:通过多尺度进行图像增强。
    • multiscale detail manipulation based on local Laplacian filtering:通过低级算子仿造图像细节。
    • photographic style transfer from a reference image:图像风格迁移。
    • dark-channel dehazing :暗通道去雾。暗通道先验(Dark Channel Prior)是基于统计意义上的观测得到的结果。总结了大量的室外无雾的图像,提出基于暗通道先验的去雾算法,在大部分无雾图像的无天空区域,像素中至少存在一个颜色通道存在很低非常低的亮度值。这个最低的亮度值几乎等同于0。
    • nonlocal dehazing :非局部去雾。
    • pencil drawing :铅笔画风格。
  10. 网络的具体细节:

    上图只是演示图,实际上的更深。圆圈表示非线性函数LReLU。除了第一层和最后一层是三个通道外,其余均是多个通道,倒数第二层使用1X1的卷积,无非线性转化,得到最后的一层。

    CAN 32的结构(d = 10 and w = 32 )如下:

  11. 关于横向对比实验。
    • 对比的网络设计一个plain,就是将上面的网络的空洞卷积全部换了,换成普通的卷积。作者说这样是为了保证结构的相似性。
    • Encoder-decoder网络。说是参考U-Net搞得一个hourglass-shaped networks (沙漏型网络,这个形容词不错)。对于U-Net主要的修改是,为了减少计算量和内存,减少了一半的卷积核;缩放了最后结果输出,使得输出图片和输入一样大。(关于这个修改,我觉得很不科学啊,既然要和它对比,为什么要阉割之后再对比呢?)

      文章给出的理由是:

      we found that this is sufficient to get high accuracy and it matches our configuration of the other baselines.

      然后又说,能够获得差不多的精度,甚至更快~缺点主要是参数太多,高出两个数量级。

    • 还有一个是FCN-8s。这个模型的问题是,参数多,精度低。

  12. 泛化能力的训练和测试:(每个模型,分别两次训练,然后两个都数据集测试):
    • MIT-Adobe test set 和RAISE test set
    • MIT-Adobe training set 、 RAISE training set
  13. 作者另外做了关于深度和宽度(应该说是通道数)的实验。

    ?

总结

作者工作量不少,可能也跟任务特别多有关,相当于整合了很多任务。模型最大的特点就是参考那篇ICLR 2016,大量使用空洞卷积。这个模型我也想过,只是没想到去用来代替这么多任务。实验有些地方不是很好,比如Unet那块。还是有些启发的。2333。

原文地址:https://www.cnblogs.com/blog4ljy/p/9064799.html

时间: 2024-10-16 16:33:57

Note_Fast Image Processing with Fully-Convolutional Networks的相关文章

中文版 R-FCN: Object Detection via Region-based Fully Convolutional Networks

R-FCN: Object Detection via Region-based Fully Convolutional Networks 摘要 我们提出了基于区域的全卷积网络,以实现准确和高效的目标检测.与先前的基于区域的检测器(如Fast/Faster R-CNN [6,18])相比,这些检测器应用昂贵的每个区域子网络数百次,我们的基于区域的检测器是全卷积的,几乎所有计算都在整张图像上共享.为了实现这一目标,我们提出了位置敏感分数图,以解决图像分类中的平移不变性与目标检测中的平移变化之间的困

论文阅读笔记:Fully Convolutional Networks for Semantic Segmentation

这是CVPR 2015拿到best paper候选的论文. 论文下载地址:Fully Convolutional Networks for Semantic Segmentation 尊重原创,转载请注明:http://blog.csdn.net/tangwei2014 1.概览&主要贡献 提出了一种end-to-end的做semantic segmentation的方法,简称FCN. 如下图所示,直接拿segmentation 的 ground truth作为监督信息,训练一个端到端的网络,让

论文阅读(BaiXiang——【CVPR2016】Multi-Oriented Text Detection with Fully Convolutional Networks)

BaiXiang--[CVPR2016]Multi-Oriented Text Detection with Fully Convolutional Networks 目录 作者和相关链接 方法概括 方法细节 创新点和贡献 实验结果 问题讨论 总结与收获点 作者和相关链接 作者: paper下载 方法概括 Step 1--文本块检测: 先利用text-block FCN得到salient map,再对salient map进行连通分量分析得到text block: Step 2--文本线形成:

RCNN学习笔记(8):Fully Convolutional Networks for Semantic Segmentation(全卷积网络FCN)

[论文信息] <Fully Convolutional Networks for Semantic Segmentation> CVPR 2015 best paper Reference link: http://blog.csdn.net/tangwei2014 http://blog.csdn.net/u010025211/article/details/51209504 概览&主要贡献 提出了一种end-to-end的做semantic segmentation的方法,简称FC

论文笔记《Fully Convolutional Networks for Semantic Segmentation》

<Fully Convolutional Networks for Semantic Segmentation>,CVPR 2015 best paper,pixel level, fully supervised. 主要思路是把CNN改为FCN,输入一幅图像后直接在输出端得到dense prediction,也就是每个像素所属的class,从而得到一个end-to-end的方法来实现image  semantic segmentation. 我们已经有一个CNN模型,首先要把CNN的全连接层

论文学习:Fully Convolutional Networks for Semantic Segmentation

发表于2015年这篇<Fully Convolutional Networks for Semantic Segmentation>在图像语义分割领域举足轻重. 1 CNN 与 FCN 通常CNN网络在卷积层之后会接上若干个全连接层, 将卷积层产生的特征图(feature map)映射成一个固定长度的特征向量.以AlexNet为代表的经典CNN结构适合于图像级的分类和回归任务,因为它们最后都期望得到整个输入图像的一个数值描述(概率),比如AlexNet的ImageNet模型输出一个1000维的

FCN笔记(Fully Convolutional Networks for Semantic Segmentation)

FCN笔记(Fully Convolutional Networks for Semantic Segmentation) (1)FCN做的主要操作 (a)将之前分类网络的全连接层都换成卷积层, FCN将全连接层换成了卷积层,最后可以生成一个heatmap.卷积层的大小即为 (1,1,4096).(1,1,4096).(1,1,1000).FCN在做前向和后向计算时,都比之前的方法要快,FCN生成一个10*10的结果,需要22ms,而之前的方法生个1个结果,就需要1.2ms,如果是100个结果,

Fully Convolutional Networks for semantic Segmentation(深度学习经典论文翻译)

摘要 卷积网络在特征分层领域是非常强大的视觉模型.我们证明了经过端到端.像素到像素训练的卷积网络超过语义分割中最先进的技术.我们的核心观点是建立"全卷积"网络,输入任意尺寸,经过有效的推理和学习产生相应尺寸的输出.我们定义并指定全卷积网络的空间,解释它们在空间范围内dense prediction任务(预测每个像素所属的类别)和获取与先验模型联系的应用.我们改编当前的分类网络(AlexNet [22] ,the VGG net [34] , and GoogLeNet [35] )到完

论文笔记之:Visual Tracking with Fully Convolutional Networks

ICCV 2015  CUHK 本文利用 FCN 来做跟踪问题,但开篇就提到并非将其看做是一个 黑匣子,只是用来提取特征,而是在大量的图像和 ImageNet 分类任务上关于 CNN 的 feature 做了大量的深度的研究.这些发现促使他们设计了该跟踪系统,他们发现: 不同的卷积层会从不同的角度来刻画目标.顶层的 layer 编码了更多的关于 语义特征并且可以作为种类检测器,而底层的层懈怠了更多的具有判别性的信息,并且可以更好的区分具有相似外观的目标.在跟踪的过程中利用这两种层的不断切换而完成

FCN:Fully Convolutional Networks for Semantic Segmentation

今天来看一看一个比较经典的语义分割网络,那就是FCN,全称如题,原英文论文网址:https://people.eecs.berkeley.edu/~jonlong/long_shelhamer_fcn.pdf 三位大佬:Jonathan Long Evan Shelhamer Trevor Darrell 这个网址是网上一个大佬记录的FCN的博客,同时深深感受到了自己与大佬的差距,但还是硬着头皮把论文阅读完成,贴出网址,和大家一起学习:https://blog.csdn.net/happyer8