用一个玩具例子说明基于视频的超分辨率重建的基本思想

本文是基于知乎上的一个答案

基于视频的超分辨率重建是指从许多帧连续的低分辨率图像中重建出一幅高分辨率的图像,并且这幅高分辨率的图像能够显示出单帧低分辨率图像中丢掉的细节,比如下面是一个2秒视频(176x144)中的一帧:

为了方便和分辨率重建之后的图片对比,用Nearest Neighbor放大到了704x576。而下面是重建后的超分辨率图像:

可以看到,许多丢失的细节被重建了,这就是基于视频序列的超分辨率重建。

接下来用一个玩具例子来说明基本原理,首先打开画图板,写下一个

线条分明,软绵无力,面对这么屌的一个字,我决定拍一段长达24帧的8x8分辨率的视频:

因为手抖,并且相机分辨率低,已经没了屌样。

其实上面的视频是我先把原图的图像随机平移,然后线性插值降采样到8x8分辨率得到的。在这个过程中我模拟了两件事:1) 随机平移模拟视频拍摄过程中的随机抖动,这是从多帧图像中重建超分辨率图像的关键,后面我会讲到,同时这也是符合现实生活规律的,虽然宏观来说拍摄一段禁止的视频很容易,可是在像素级别任何微小的画面移动都可以被体现出来。2) 线性插值降采样模拟在CMOS上成像时图像元素小于像素时细节的丢失,线性插值是因为像素记录的值是在像素原件有效感光面积上的平均曝光强度。这两个过程的示意图如下:

首先看第一个图中两个圆的例子,这两个圆大小完全一样,因为成像位置不同,圆在每个像素上覆盖的面积也不一样,对应像素的灰度会不一样,最后在像素阵列上对应了不同的图案,而这个信息正是进行超分辨率重建的基础。同样的对于写下的屌字,在不同的抖动位置上,也会得到不一样的低分辨率图案。

所以问题可以描述为,一幅高分辨率的图像\(I_{H}\),经过n次某种变换\({{I}_{L}}=F\left( {{I}_{H}} \right)\)后得到了n幅低分辨率图像,其中第i幅图像为\(I_{L,i}\)。而具体到视频录制中,"某种变换"就是每次拍摄每一帧的时候记录图像的过程,具体到这个例子中\(F()\)就是手抖导致的图像平移和线性插值的降采样。

所以本质上来讲从多帧低分辨率图像中进行超分辨率重建是个Inference的问题,高分辨率图像中的细节信息在录制成低分辨率帧的时候导致了丢失,然而抖动带来的位移相当于给了多一个维度的信息让我们可以通过算法对信息进行恢复,从某种意义上讲抖动保存了原来图像的细节信息。抖动有多重要呢,先来做一个简单的试验,尽管采样到的帧分辨率都低得可怜,可是我们如果把抖动的信息恢复出来,也就是把抖动后的这些低分辨率图片对齐,然后求一个平均,结果如下:

这时候已经可以勉强看出屌样了。。

进一步的,我们想推断出更高分辨率的图像,一个很自然的想法就是对超分辨率图像进行猜测,把猜测的图像变换后的结果和录制采样到的结果进行对比,然后把差异作为目标函数进行优化:
\[\min \sum\limits_{i=1}^{n}{\left| {{I}_{L,i}}-F\left( {{I}_{H,i}} \right) \right|}\]

对于上面这个优化问题,如果抖动的范围完美覆盖了一个像素周期以内的所有区域,并且每一帧都采样到了这个区域内的所有的点的话,那么理论上是可以恢复出高分辨率图像的,然而通常情况并非如此,比方说我想把我例子中24帧8x8的视频恢复成一幅48x48的高分辨率图像,也就是6倍的分辨率提升,那么24帧显然不够,这种情况叫做ill-posed,也就是说有无数个解可以满足这个优化问题,所以需要一些regularization。通常而言我们看到的图像一般都是较为平滑的,而不是像老式电视机里没信号是那样满屏的雪花斑噪声,所以可以加入一项抑制图像梯度的项:

\[\min \sum\limits_{i=1}^{n}{\left| {{I}_{L,i}}-{{F}_{i}}\left( {{I}_{H}} \right) \right|}+\left| \nabla {{I}_{H}} \right|\]

注意我这里用的都是L1 Norm,一般来说L1的优点是使梯度的分布更为稀疏,这样能更好的保存边缘,另外计算量也小。
用GA来解这个优化问题试试,得到结果如下:

进化过程的示意图:

因为是GA,所以看上去还是比较粗糙,不过屌样已经很明显了,如果继续优化应该能得到更接近原图的效果。当然了,如前所述,我只是用一个玩具例子讲一下超分辨率重构的基本思想,具体的问题中,除了抖动和低分辨率采样,还有镜头PSF(Point Spread Function),图像的转动和其他形变,场景中的物体移动等因素,优化算法也不会是GA这种相比起来漫无目的的搜索(虽然我还修改了变异和交叉函数)。另外降采样我这里用的是线性插值,这包含一个假设,就是每个像素的感光元件的有效感光面积接近这个元件在传感器表面占用的面积,而这个假设通常是不严格成立的,尤其是对现在消费级相机和手机中流行的CMOS。

而对于比较实际的情况下的超分辨率图像重建,在OpenCV里实现已经非常简单了,代码如下:

1 cv::Ptr<cv::superres::FrameSource> frames = cv::superres::createFrameSource_Video( "diao.mp4" );
2 cv::Ptr<cv::superres::SuperResolution> super_res = cv::superres::createSuperResolution_BTVL1();
3 super_res->setInput( frames );
4
5 cv::Mat super_resolved_image;
6 super_res->nextFrame( super_resolved_image );
7
8 cv::imshow( "Super Resolved Image", super_resolved_image );
9 cv::waitKey( 0 );

这个代码的测试结果就是文章一开始的两幅对比图。通常情况下超分辨率重建运算量还是比较大的,所以实际情况代码不会这么简单,一个用到GPU的的例子可以在OpenCV的sample code里找到。

时间: 2024-08-15 07:19:01

用一个玩具例子说明基于视频的超分辨率重建的基本思想的相关文章

基于学习的超分辨率算法

基于学习的超分辨率技术最早是由卡耐基一梅隆实验室的 Baker S在2000年提出的.他们提出一种基于识别先验 知识的方法,通过算法去学习训练指定类别,将得到的先验 知识用于超分辨率.随后,多伦多大学的 Hertzmann a等提 出了基于多尺度自动回归的图像类比算法.麻省理工学院的 Freeman WT5等提出了一个基于例子的方法,利用马尔可夫 网络来学习训练库中与低分辨率图像不同区域相对应的高分 辨率图像的细节,再用学习得到的关系来预测输入低分辨率 图像的细节信息. Christopher

图像超分辨率重建之srcnn,基于tensorflow实现

本篇适用人群对于那些知道srcnn的每个步骤的人但是不是很会打代码的人 首先,附上我的github:https://github.com/zzydashuaibi/srcnn_tensorflow 在写代码之前,我们需要明白一件事就是我们每一次训练实际上是训练图片的某一部分(33*33)最后输出的是卷积后的大小只有22*22,所以srcnn的预处理要比其他的图像重建的模型要复杂一点. 他除了一般的预处理操作,还需要将图片分割,最后的训练完还做实验的时候还需要将图片结合起来,至于其他的,相信你自己

【超分辨率专题】—基于深度学习的图像超分辨率最新进展与趋势

1.简介 图像超分辨率是计算机视觉和图像处理领域一个非常重要的研究问题,在医疗图像分析.生物特征识别.视频监控与安全等实际场景中有着广泛的应用.随着深度学习技术的发展,基于深度学习的图像超分方法在多个测试任务上,取得了目前最优的性能和效果.本文介绍的一篇综述(Deep Learning for Image Super-resolution:A Survey)给出了一个统一的深度学习视角,来回顾最近的超分技术进展,主要包括三个方面: 给出了综合性的基于深度学习的图像超分技术综述,包括问题设置.数据

最简单的基于FFmpeg的移动端例子:Android 视频解码器

本文记录一个安卓平台下基于FFmpeg的视频解码器.该视频解码器C语言的源代码来自于<最简单的基于FFMPEG+SDL的视频播放器>.相关的概念就不再重复记录了. 源代码 项目的目录结构如图所示.Java源代码位于src目录,而C代码位于jni目录. Android程序Java端代码位于src\com\leixiaohua1020\sffmpegandroiddecoder\MainActivity.java,如下所示. /** * 最简单的基于FFmpeg的视频解码器-安卓 * Simple

最简单的基于FFmpeg的移动端例子:Android 视频解码器-单个库版

本文记录另一个安卓平台下基于FFmpeg的视频解码器.与前一篇文章记录的解码器不同,本文记录的解码器不再使用libavcodec.so.libavformat.so等类库,而只使用了一个类库--libffmpeg.so.该视频解码器C语言的源代码来自于<最简单的基于FFMPEG+SDL的视频播放器>.相关的概念就不再重复记录了. FFmpeg类库的打包 记录一下FFmpeg类库打包的方法.Android平台下FFmpeg类库一共包含下面几个: libavformat-56.solibavcod

基于视频的车辆识别技术

一.智能交通技术概述 智能交通系统(Intelligence Transport System ,ITS)是目前世界交通运输领域的前沿研究课题,它融合了电子信息技术,通信技术,自动控制理论,计算机技术和传统的交通工程学理论等多个学科的理论,并将其应用于现代的交通运输管理体系中,从而实现交通运输服务和管理智能化. 交通监视系统是智能交通系统中的一个重要环节,这一子系统主要负责采集有关道路交通流量的各种参数,例如车流量,车速,车型,排队时间和长度等.目前,道路参数检测的方法很多,主要有超声波检测,红

用一个实际例子理解Docker volume工作原理

要了解Docker Volume,首先我们需要理解Docker文件系统的工作原理.Docker镜像是由多个文件系统的只读层叠加而成.当一个容器通过命令docker run启动时,Docker会加载只读镜像层并在镜像栈顶部添加一个读写层.如果运行中的容器修改了现有的一个已经存在的文件,那该文件将会从读写层下面的只读层复制到读写层,但是该文件的只读版本依然存在,只不过已经被读写层中该文件的副本所隐藏. 当删除Docker容器,并通过该镜像重新启动时,之前在读写层的更改将会丢失.在Docker中,只读

go webssh 简单例子 (基于gin+ws+ssh)

项目地址 https://github.com/hequan2017/go-webssh go-webssh go版本 webssh 核心 本项目代码来自 https://github.com/dejavuzhou/felix ,只是把里面的webssh拿出来,修改了一下,做成webssh,特此说明.有需要可以查看此项目. 安装 修改 core/ssh.go 里面的账号密码地址等信息. 也可以自己修改成用密钥登录. func NewSshClient() (*ssh.Client, error)

从一个简单例子来理解js引用类型指针的工作方式

? 1 2 3 4 5 6 7 <script> var a = {n:1};  var b = a;   a.x = a = {n:2};  console.log(a.x);// --> undefined  console.log(b.x);// --> [object Object]  </script> 上面的例子看似简单,但结果并不好了解,很容易把人们给想绕了--"a.x不是指向对象a了么?为啥log(a.x)是undefined?".&