深度学习之图片压缩算法

近年来,深度学习在计算机视觉领域已经占据主导地位,不论是在图像识别还是超分辨重现上,深度学习已成为图片研究的重要技术;现在深度学习技术已进入图片压缩领域。以图鸭科技最新研发的图片压缩——Tiny Network Graphics (TNG) 为例,其以深度学习卷积神经网络为内核,在保持相同图片质量的情况下,其图片大小仅为 JPEG 的 45%。

本文将和大家分享如何使用深度学习卷积神经网络技术设计图像压缩算法。

说到图像压缩算法,目前市面上影响力比较大的图片压缩技术是 WebP 和 BPG。

WebP:谷歌在 2010 年推出的一款可以同时提供有损压缩和无损压缩的图片文件格式,其以 VP8 为编码内核,在 2011 年 11 月开始可以支持无损和透明色功能。目前 facebook、Ebay 等网站都已采用此图片格式。

BPG:知名程序员、ffmpeg 和 QEMU 等项目作者 Fabrice Bellard 推出的图像格式,它以 HEVC 为编码内核,在相同体积下,BPG 文件大小只有 JPEG 的一半。另外 BPG 还支持 8 位和 16 位通道等等。尽管 BPG 有很好的压缩效果,但是 HEVC 的专利费很高,所以目前的市场使用比较少。

就压缩效果来说,BPG 更优于 WebP,但是 BPG 采用的 HEVC 内核所带来的专利费,导致其无法在市场进行大范围使用。在这种情况下,运用深度学习来设计图片压缩算法就应运而生。

如何用深度学习技术设计图片压缩算法

通过深度学习技术设计压缩算法的目的之一是设计一个比目前商用图片压缩更优的压缩算法,同时借助于深度学习技术还可以设计更简洁的端到端算法。在图片、视频压缩领域,主要用到的深度学习技术是卷积神经网络 (CNN)。如图 1 所显示,像搭积木一样,一个卷积神经网络由卷积、池化、非线性函数、归一化层等模块组成。最终的输出根据应用而定,如在人脸识别领域,我们可以用它来提取一串数字(专业术语称为特征)来表示一幅人脸图片,然后通过比较特征的异同进行人脸识别。

图 1 卷积神经网络示意图

用深度学习设计的图片压缩完整框架包括 CNN 编码器、量化、反量化、CNN ×××、熵编码、码字估计、码率 - 失真优化等几个模块。编码器的作用是将图片转换为压缩特征,×××就是从压缩特征恢复出原始图片。其中编码器和×××,可以用卷积、池化、非线性等模块进行设计和搭建。

(图 2 用深度学习进行图片压缩示意图)

如何评判压缩算法

在深入技术细节前,我们先来了解一下如何评判压缩算法。评判一个压缩算法好坏的重要指标有三个:PSNR(Peak Signal to Noise Ratio)、BPP(bit per pixel)和 MS-SSIM(multi-scaleSSIM index)。我们知道,任何数据在计算机内都是以比特形式存储,所需比特数越多则占据的存储空间越大。PSNR 用来评估解码后图像恢复质量,BPP 用于表示图像中每个像素所占据的比特数,MS-SSIM 值用来衡量图片的主观质量,简单来说在同等的 Rate/BPP 下 PSNR 更高,恢复质量越好,MS-SSIM 更高,主观感受越好。

举个例子,假设长宽为 768×512 的图片大小为 1M,利用深度学习技术对它编码,通过编码网络后产生包括 96×64×192 个数据单元的压缩特征数据,如果表示每个数据单元平均需要消耗 1 个比特,则编码整张图需要 96×64×192 个比特。经过压缩后,编码每个像素需要的比特数为(96×64×192)/(768×512)=3,所以 BPP 值为 3bit/pixel,压缩比为 24:3=8:1。这意味着一张 1M 的图,通过压缩后只需要消耗 0.125M 的空间,换句话说,之前只能放 1 张照片的空间,现在可以放 8 张。

如何用深度学习做压缩

谈到如何用深度学习做压缩,还是用刚才那个例子。将一张大小 768×512 的三通道图片送入编码网络,进行前向处理后,会得到占据 96×64×192 个数据单元的压缩特征。有计算机基础的读者可能会想到,这个数据单元中可放一个浮点数、×××数、或者是二进制数。那到底应该放入什么类型的数据?从图像恢复角度和神经网络原理来讲,如果压缩特征数据都是浮点数,恢复图像质量是最高的。但一个浮点数占据 32 个比特位,按之前讲的比特数计算公式为(96×64×192×32)/(768×512)=96,压缩后反而每个像素占据比特从 24 变到 96,非但没有压缩,反而增加了,这是一个糟糕的结果,很显然浮点数不是好的选择。

所以为了设计靠谱的算法,我们使用一种称为量化的技术,它的目的是将浮点数转换为整数或二进制数,最简单的操作是去掉浮点数后面的小数,浮点数变成整数后只占据 8 比特,则表示每个像素要占据 24 个比特位。与之对应,在解码端,可以使用反量化技术将变换后的特征数据恢复成浮点数,如给整数加上一个随机小数,这样可以一定程度上降低量化对神经网络精度的影响,从而提高恢复图像的质量。

即使压缩特征中每个数据占据 1 个比特位,可是 8:1 的压缩比在我们看来并不是一个很理想的结果。那如何进一步优化算法?再看下 BPP 的计算公式。假设每个压缩特征数据单元占据 1 个比特,则公式可写成:(96×64×192×1)/(768×512)=3,计算结果是 3 bit/pixel,从压缩的目的来看,BPP 越小越好。在这个公式中,分母由图像决定,可以调整的部分在分子,分子中 96、64、192 这三个数字与网络结构相关。很显然,当我们设计出更优的网络结构,这三个数字就会变小。

那 1 与哪些模块相关?1 表示每个压缩特征数据单元平均占据 1 个比特位,量化会影响这个数字,但它不是唯一的影响因素,它还与码率控制和熵编码有关。码率控制的目的是在保证图像恢复质量的前提下,让压缩特征数据单元中的数据分布尽可能集中、出现数值范围尽可能小,这样我们就可以通过熵编码技术来进一步降低 1 这个数值,图像压缩率会进一步提升。

用深度学习做视频压缩,可以看作是在深度学习图片压缩基础上的扩展,可结合视频序列帧间的光流等时空信息,在单张压缩的基础上,进一步降低码率。

深度学习图片压缩的优势

图鸭科技通过深度学习技术研发的图片压缩 TNG 在内部的测试上已经超过 webp 与 BPG,下图是在 kodak24 标准数据集上测评结果, 分别是 PSNR 值与 MS-SSIM 值。

图 3 图 4 在 kodak24 标准数据集上测评结果,上图为 PSNR 结果,下图为 MS-SSIM 的结果

熟悉图像压缩的朋友可以直接通过 PSNR 和 MS-SSIM 值看出:TNG 的 PSNR 值与 MS-SSIM 值明显高于 WebP、jpeg2000 和 jpeg;且 TNG 在高码字的情况下 PSNR 值高于 BPG,且其 MS-SSIM 值基本一致高于 BPG。

  • 在低码字情况下 TNG 与 WebP 压缩效果对比

图 5 图 6 低码字情况下 TNG 与 WebP 压缩效果对比 图 5 TNG,图 6 webp

相比 TNG,WebP 尽管保留了更多的细节,但是其失真更多,不利于后期恢复。而 TNG 采用了保边滤波的方法,让其失真更少,整体图像效果优于 WebP。

  • 在高码字情况下 TNG 与 BPG 对比

图 7 图 8 高码字情况下 TNG 与 BPG 压缩效果对比,图 7 TNG 图 8 BPG

上面两幅图是高码字的情况,在实际的测试中,BPG 会出现上图所示的颜色失真情况;而反观 TNG 其基本不会出现这类的失真状况。

这是因为 BPG 在编码压缩时尽管图片时,其 YUV 通道是分开进行编解码,产生了一些色差。

而 TNG 在编码时考虑到了整体图片的情况,采用了同一编码,也就避免了上述的情况。

  • 在低码字的情况下 TNG 与 BPG 的对比

图 9 图 10 低码字情况下 TNG 与 BPG 压缩效果对比,图 9 TNG 图 10 BPG

在低码字的情况下,BPG 压缩图片中出现了伪轮廓和块效应等问题,整个图片的连续性比较差;而 TNG 的图片连续性和物体的轮廓保持的更好。

图片压缩的使用领域可以说的极其广泛了,从社交应用、新闻客户端到游戏等领域,可以说有图片的地方就有图片压缩功能。使用更先进的图片压缩技术,可以帮助大量使用图片的企业节省大量图片带宽成本,且能帮助用户节省图片流量,减少加载图片所需时间。

总结

总体而言,借助于深度学习设计图像压缩算法是一项非常具有前景但也非常具有挑战性的技术。深度学习技术图片压缩可以使大家在全面高清屏的时代有更优质的视觉体验,同时在游戏、空间图像传感等领域,深度学习图片压缩技术可以帮助图片达到更高分辨率,更小存储空间,从而为用户提供更好的视觉体验。

这里附上 TNG 的测试链接:

http://www.tucodec.com/picture/index

大家可以自行进行测试(建议在 PC 端进行测试),测试完成后可以下载压缩后图片和二进制文件,下载安装×××后也可以对已经压缩的图片进行恢复处理。

原文地址:http://blog.51cto.com/13566690/2105295

时间: 2024-10-10 08:10:44

深度学习之图片压缩算法的相关文章

在ubuntu中配置深度学习python图片分类实验环境

1 安装numpy,scipy, matplotlib, sudo apt-get install python-numpy sudo apt-get install python-scipy sudo apt-get install python-matplotlibsudo apt-get install python-dev 2 图片处理相关的科学库 pip install scikit-image

深度学习应用在哪些领域让你觉得 “我去,这也能行!”?

Z Stupid 田渊栋. 周若凡等 439 人赞同 Pointer Networks (https://arxiv.org/pdf/1506.03134.pdf) NIPS15的论文,通过改进RNN用来解决一些传统cs问题,比如凸包,三角剖分,甚至是TSP,最神奇的地方在于这玩意效果竟然还不错,甚至比一些近似算法效果好.OI/ACM党出身的我表示三观都被毁了…… Synthesizing Dynamic Textures and Sounds by Spatial-Temporal Gener

深度学习(综述,2015,应用)

0. 原文 Deep Learning Algorithms with Applications to Video Analytics for A Smart City: A Survey 1. 目标检测 目标检测的目标是在图像中精确定位目标的位置.已经提出了许多使用深度学习算法的工作.我们回顾如下一些有代表性的工作: Szegedy[28]修改了深度卷积网络,用回归层代替最后一层,目的是针对目标的box产生一个binary mask,如图3所示.另外,还提出多尺度策略,来提高检测精度.他们做的

深度学习在数据挖掘的应用

深度学习是我们明略重要的研究方向,是目前工业界学术界实现了很多令人惊叹功能的工具,也是通向人工智能的必经之路. 我们先来看看深度学习能做什么,Google研究的无人驾驶,其组件由两个部分组成,一个是眼睛,一个是大脑,眼睛是激光测距仪和视频摄像头,汽车收集到这些视频信号之后,并不能很好的识别,为了让汽车能理解我们需要一个大脑,这个大脑就是深度学习,通过深度学习我们可以告诉我们的车载的计算机,现在前面有什么样的物体,并且结构化的抽取出来. 比如说这个是通过挡风玻璃看到的画面,让机器理解,必须要判断视

主流深度学习框架对比

深度学习研究的热潮持续高涨,各种开源深度学习框架也层出不穷,其中包括TensorFlow.Caffe.Keras.CNTK.Torch7.MXNet.Leaf.Theano.DeepLearning4.Lasagne.Neon,等等.然而TensorFlow却杀出重围,在关注度和用户数上都占据绝对优势,大有一统江湖之势.表2-1所示为各个开源框架在GitHub上的数据统计(数据统计于2017年1月3日),可以看到TensorFlow在star数量.fork数量.contributor数量这三个数

阿里PAI深度学习组件:Tensorflow实现图片智能分类实验

PAI简介 阿里云机器学习PAI(Platform of Artificial Intelligence)是一款一站式的机器学习平台,包含数据预处理.特征工程.常规机器学习算法.深度学习框架.模型的评估以及预测这一整套机器学习相关服务.由于目前PAI还属于公测阶段,所以是不收费的.但是PAI底层依赖于maxcompute(计算)和oss(存储),所以会收取一定的托管费和深度学习存储费用.不过实测发现每天差不多一两分钱,充10块能玩好久. 实验准备 实验的整个过程都在官方文档有很详细的说明:htt

TensorFlow【机器学习】:如何正确的掌握Google深度学习框架TensorFlow(第二代分布式机器学习系统)?

本文标签:   机器学习 TensorFlow Google深度学习框架 分布式机器学习 唐源 VGG REST   服务器 自 2015 年底开源到如今更快.更灵活.更方便的 1.0 版本正式发布,由 Google 推出的第二代分布式机器学习系统 TensorFlow一直在为我们带来惊喜,一方面是技术层面持续的迭代演进,从分布式版本.服务框架 TensorFlow Serving.上层封装 TF.Learn 到 Windows 支持.JIT 编译器 XLA.动态计算图框架 Fold 等,以及

Spark MLlib Deep Learning Convolution Neural Network (深度学习-卷积神经网络)3.3

3.Spark MLlib Deep Learning Convolution Neural Network(深度学习-卷积神经网络)3.3 http://blog.csdn.net/sunbow0 第三章Convolution Neural Network (卷积神经网络) 3实例 3.1 测试数据 按照上例数据,或者新建图片识别数据. 3.2 CNN实例 //2 测试数据 Logger.getRootLogger.setLevel(Level.WARN) valdata_path="/use

重磅︱文本挖掘深度学习之word2vec的R语言实现

笔者寄语:2013年末,Google发布的 word2vec工具引起了一帮人的热捧,大家几乎都认为它是深度学习在自然语言领域的一项了不起的应用,各种欢呼"深度学习在自然语言领域开始发力 了". 基于word2vec现在还出现了doc2vec,word2vec相比传统,考虑单词上下文的语义:但是doc2vec不仅考虑了单词上下文的语义,还考虑了单词在段落中的顺序. 如果想要了解word2vec的实现原理,应该读一读官网后面的三篇参考文献.显然,最主要的应该是这篇: Distributed