paper | Generative Adversarial Network-Based Intra Prediction for Video Coding

摘要

提出一种新的帧内预测方法，使用GAN来消除空间冗余。基于GAN的方法的方法使用更多的信息来产生更灵活的预测模式。帧内预测被建模为一个去瑕疵过程，使用GAN来充满重建帧中丢失的部分。GAN模型被加入到编码器和解码器中，与传统的预测模型进行率失真比较。HM、VTM节约6%-8%的比特。

1.介绍

更好的预测导致更少的残差，也就需要更少的编码bit。与传统的基于解码样本的空间外推extrapolation的帧内预测不同，我们把帧内预测视作一个去瑕疵inpainting问题，采用GAN来预测像素。这篇文章的主要贡献有：

intra预测的过程被表述为一个基于学习的inpainting task，利用GAN的generator在已经解码的block的基础上对缺失的部分进行预测，充分利用邻域信息，可以更好的预测当前待编码单元。
使用提出的GAN方法对intra预测模块进行了重新设计，并进行了率失真操作(RDO)，以在传统方法和GAN方法之间选择最佳方法，并附加一个标记。
在编码器和解码器中都实现了基于GAN的帧内预测，提高了帧内编码性能。大量的实验结果表明，与目前最先进的基于深度学习的intra预测方法相比，该方法具有更好的性能。

2.相关工作

intra coding

inpainting image

图像inpainting的目的是填补一个图像缺失的部分，使其完整和自然。图像inpainting的方法可以分为两类：（1）邻像素插值的方法；（2）深度学习的方法。

第一类是根据相邻信息的相互关系来推断缺失的部分。Li等人提出了[23]提出了一种基于颜色方向块稀疏性的图像绘制方法，以保持缺失部分的结构一致性、纹理清晰度和内在一致性。该方法利用超小波变换对多目标信号进行估计退化图像的方向特征。Jin等人提出了[24]摘要提出了一种基于小块稀疏的平面方向导数图像绘制算法，保证了缺失区域边界元的连续性。在[25]中提出了一种基于马尔可夫随机场(MRF)的图像inpainting算法，该算法从一组patch中选取合适的搜索空间来选择候选patch。

近年来，基于深度学习的方法也被应用到图像inpainting中。在[26]中提出了一种基于上下文像素预测的无监督视觉特征学习算法。Yu等人提出了一种新的基于深度学习的图像inpainting系统，利用自由形式的mask和输入来完成图像。该系统是由门控卷积从数百万图像中学习而来，无需额外的标签。Yang等人使用条件GANs作为主干，并引入了一种新的基于块的程序方案来稳定训练阶段，以生成高质量的逼真的inpainting效果。在[29]中提出了一种基于全局GAN和局部GAN的图像融合方法。针对局部和全局一致的[30]图像，提出了一种新的图像补全方法。

3.动机和问题表达

H.264和HEVC的多种预测模式来预测都有一个缺点，那就是可参考的像素有限。通过实验，尝试了每种预测模式，发现它们不够灵活，结果都不够完美。因此，内部预测问题如图3所示，从左上、左和上的块都是可用信息，待编码块位于右下。使用邻居信息来完成inpainting任务。与HEVC中只利用最邻近的列和行的像素相比，可以利用更多的信息。此外，还可以根据生成模型生成可伸缩的预测模式。具体来说，可以生成圆形和椭圆形模式，以弥补传统内部预测的局限性。然而，直接将GAN应用于内层预测还存在一些挑战性的问题。特别是与传统inpainting方法解决缺部在中心的问题相比，缺少了周围的信息，只剩下上面和左边的方块，很难恢复结构信息。这促使我们设计一个先进的inpainting模型，专门用于内部预测任务。

4.提出的基于GAN的帧内预测方法

在本节中，我们将intra预测过程嵌入到inpainting框架中，开发了基于深度学习的intra编码方案。特别地，我们的intra预测策略采用了基于GAN的inpainting，因为它在推断缺失像素方面有很好的表现。更具体地说，第4-A节讨论了用于内部预测的基于GAN的inpainting的体系结构。第4-B节比较了两种方案。利用基于GAN的模型，我们将其整合到HEVC编解码器中进行intra预测。最后，第四部分对GAN模型的训练进行了讨论。

原文地址：https://www.cnblogs.com/yijun009/p/12312937.html

时间： 2024-08-09 18:06:39

paper | Generative Adversarial Network-Based Intra Prediction for Video Coding的相关文章

论文阅读之：Photo-Realistic Single Image Super-Resolution Using a Generative Adversarial Network

Photo-Realistic Single Image Super-Resolution Using a Generative Adversarial Network 2016.10.23 摘要: Contributions: GANs 提供了强大的框架来产生高质量的 plausible-looking natural images.本文提供了一个 very deep ResNet architure,利用 GANs 的概念,来形成一个 perceptual loss function 来靠

论文阅读：Single Image Dehazing via Conditional Generative Adversarial Network

Single Image Dehazing via Conditional Generative Adversarial Network Runde Li? Jinshan Pan? Zechao Li Jinhui Tang? School of Computer Science and Engineering, Nanjing University of Science and Technology 研究方向: Dehazing,cGAN motivation 对于直接通过算法复原有雾的图像

SEGAN: Speech Enhancement Generative Adversarial Network

论文分析: 论文原文地址一.引言经典的语音增强(speech enhancement)方法有谱减法(spectral subtraction).维纳滤波(Wiener filtering).统计模型(statistical model-based methods)和子空间算法(subspace algorithms). 论文结合GAN网络提出了SEGAN,并通过实验发现,SEGAN主要优势有以下三点: 1.提供一个快速语音增强过程,没有因果关系是必要的,因此没有像RNN那样的递归操作. 2.

GAN (Generative Adversarial Network)

https://www.bilibili.com/video/av9770302/?p=15 前面说了auto-encoder,VAE可以用于生成 VAE的问题, AE的训练是让输入输出尽可能的接近,所以生成出来图片只是在模仿训练集,而无法生成他完全没有见过的,或新的图片由于VAE并没有真正的理解和学习如何生成新的图片,所以对于下面的例子,他无法区分两个case的好坏,因为从lost上看都是比7多了一个pixel 所以产生GAN, 大家都知道GAN是对抗网络,是generator和discri

CSAGAN：LinesToFacePhoto: Face Photo Generation from Lines with Conditional Self-Attention Generative Adversarial Network - 1 - 论文学习

ABSTRACT 在本文中,我们探讨了从线条生成逼真的人脸图像的任务.先前的基于条件生成对抗网络(cGANs)的方法已经证明,当条件图像和输出图像共享对齐良好的结构时,它们能够生成视觉上可信的图像.然而,这些模型无法合成具有完整定义结构的人脸图像,例如眼睛.鼻子.嘴巴等,特别是当条件线图缺少一个或多个部分时.为了解决这一问题,我们提出了一个条件自注意生成对抗网络(CSAGAN).我们在cGANs中引入了条件自注意机制来捕获面部不同区域之间的长范围依赖关系.我们还建立了一个多尺度判别器.大规模判别