【Paper Reading】Improved Textured Networks: Maximizing quality and diversity in Feed-Forward Stylization and Texture Synthesis

Improved Textured Networks: Maximizing quality and diversity in Feed-Forward Stylization and Texture Synthesis

https://arxiv.org/abs/1701.02096v1

本文最主要的贡献有两点: 1. 引入instance normalization 代替 batch normalization 2. 通过使得生产器从Julesz ensemble无偏采样来增加texture 的多样性.

一、背景知识

texture synthesis中generator目标是:

将 I.I.d. noise  vector $z~N(0,I) 映射成 图像x, x = g(z)$, 记 生成图像x分布为$q(x)$, 真实目标texture 的分布为p(x); 那么生成器的目标应该是使得q(x)无限逼近p(x).

这里有一个问题:在训练generator的过程中我们的目标函数:p(x)没有一个具体的形式. 

二、uniformly sample the Julesz ensemble:

1. Julesz 的发现: 

视觉系统通过不同 image filters 的 average response 来区分不同的texture.

2. 什么是Julesz ensemble?

定义:

设$x$为image, $ x: \Omega /rightArrow R^3 $, \Omega = {1,...,H} x {1,...W} $.

设$ F_l $为滤波器, $F_l: \chi x \Omega \rightArrow  R, l = 1,...,L, F_l(x,u)表示F_l在图像x,u$处的响应.

Loss function定义为: $L(x) = \sum_{l=1}^{L}(\mu_l(x) - \hat{\mu}_l)^2$.

对于图像x. Julesz ensemble是满足$ \tau_\epsilon = {x \in \chi: L(x) \leq \epsilon$的x的集合.

Julesz ensemble 的分布为: $p(x) = \frac{e^{-L(x)/T}}{\int e^{-L(y)/T}dy}.

这使得$p(x)$具有具体的分布形式.

3. KL散度(Kullback-Leibler divergence):用来衡量两个概率分布之间的偏离度记作:$D_{KL}(P||Q)$在实际应用中P常代表数据真实分布,Q代表理论模型对P分布的近似. 可以通过最小化KL散度来使得Q逼近P.

对于连续变量:

$$D_{KL}(P||Q) = \int_{-\infty}^{\infty} p(x) log \frac{p(x)}{q(x)} dx$$

对于离散变量

$$D_{KL}(P||Q) = \sum_i p(i) log \frac{P(i)}{Q(i)} .$$

三、instance normalization/constract normalization

batch normalization: 全局

instance normaliztion: 局部

时间: 2024-10-26 14:26:24

【Paper Reading】Improved Textured Networks: Maximizing quality and diversity in Feed-Forward Stylization and Texture Synthesis的相关文章

【Paper Reading】R-CNN(V5)论文解读

R-CNN论文:Rich feature hierarchies for accurate object detection and semantic segmentation 用于精确目标检测和语义分割的丰富特征层次结构作者:Ross Girshick, Jeff Donahue, Trevor Darrell, Jitendra Malik,UC Berkeley(加州大学伯克利分校)一作者Ross Girshick的个人首页:http://www.rossgirshick.info/,有其

【Paper Reading】Object Recognition from Scale-Invariant Features

Paper: Object Recognition from Scale-Invariant Features Sorce: http://www.cs.ubc.ca/~lowe/papers/iccv99.pdf SIFT 即Scale Invariant Feature Transfrom, 尺度不变变换,由David Lowe提出.是CV最著名也最常用的特征.在图像目标识别的应用中,常常要求图像的特征有很好的roboust即不容易受到平移,旋转,尺度缩放,光照,仿射的英雄.SIFT算子具有

【Paper Reading】Learning while Reading

Learning while Reading 不限于具体的书,只限于知识的宽度 这个系列集合了一周所学所看的精华,它们往往来自不只一本书 我们之所以将自然界分类,组织成各种概念,并按其分类,主要是因为我们是整个口语交流社会共同遵守的协定的参与者,这个协定以语言的形式固定下来.除非赞成这个协定中规定的有关语言信息的组织和分类,否则我们根本无法交谈. --Benjamin Lee Whorf Learning and Asking 为什么选择面向对象? 机器语言.汇编语言.面向过程的语言,通过一层层

【Paper Reading】Bayesian Face Sketch Synthesis

Contribution: 1) Systematic interpretation to existing face sketch synthesis methods. 2) Bayesian face sketch synthesis: apply the spatial neighboring constraint to both the neighbor selection model and the wieght computation model. Problem: s代表targe

Paper Reading: Perceptual Generative Adversarial Networks for Small Object Detection

Perceptual Generative Adversarial Networks for Small Object Detection 2017-07-11  19:47:46   CVPR 2017 This paper use GAN to handle the issue of small object detection which is a very hard problem in general object detection. As shown in the followin

【论文笔记】Spatial Transformer Networks

参考文献:**Jaderberg M, Simonyan K, Zisserman A. Spatial transformer networks[C]//Advances in Neural Information Processing Systems. 2015: 2017-2025. 摘要 卷积神经网络(CNN)已经被证明能够训练一个能力强大的分类模型,但与传统的模式识别方法类似,它也会受到数据在空间上多样性的影响.这篇Paper提出了一种叫做空间变换网络(Spatial Transfor

【Network Architecture】Feature Pyramid Networks for Object Detection(FPN)论文解析(转)

目录 0. 前言 1. 博客一 2.. 博客二 0. 前言 ??这篇论文提出了一种新的特征融合方式来解决多尺度问题, 感觉挺有创新性的, 如果需要与其他网络进行拼接,还是需要再回到原文看一下细节.这里转了两篇比较好的博客作为备忘. 1. 博客一 这篇论文是CVPR2017年的文章,采用特征金字塔做目标检测,有许多亮点,特来分享. 论文:feature pyramid networks for object detection 论文链接:https://arxiv.org/abs/1612.031

【语义分割】Stacked Hourglass Networks

Stacked Hourglass Networks(级联漏斗网络) 姿态估计(Pose Estimation)是 CV 领域一个非常重要的方向,而级联漏斗网络的提出就是为了提升姿态估计的效果,但是其中的经典思想可以扩展到其他方向,比如目标识别方向,代表网络是 CornerNet(预测目标的左上角和右下角点,再进行组合画框). CNN 之所以有效,是因为它能自动提取出对分类.检测和识别等任务有帮助的特征,并且随着网络层数的增加,所提取的特征逐渐变得抽象.以人脸识别为例,低层卷积网络能够提取出一些

【POJ 3320】Jessica's Reading Problemc(尺取法)

题 题意 P个数,求最短的一段包含P个数里所有出现过的数的区间. 分析 尺取法,边读边记录每个数出现次数num[d[i]],和不同数字个数n个. 尺取时,l和r 代表区间两边,每次r++时,d[r]知识点出现次数+1,d[l]知识点出现次数大于1时,次数--,l++,直到d[l]出现次数为1,当不同知识点数量达到n,且区间更小,就更新答案. 代码 #include <cstdio> #include <map> using namespace std; map <int,in