腾讯优图&港科大提出一种基于深度学习的非光流 HDR 成像方法

目前最好的高动态范围（HDR）成像方法通常是先利用光流将输入图像对齐，随后再合成 HDR 图像。然而由于输入图像存在遮挡和较大运动，这种方法生成的图像仍然有很多缺陷。最近，腾讯优图和香港科技大学的研究者提出了一种基于深度学习的非光流 HDR 成像方法，能够克服动态场景下的大范围前景运动。

论文：Deep High Dynamic Range Imaging with Large Foreground Motions

论文链接：https://arxiv.org/abs/1711.08937

摘要：本文章基于深度学习，提出了一种非光流的高动态范围（HDR）成像方法，能够克服动态场景下的大范围前景运动。目前最好的 HDR 成像方法，例如 Kalantari 在 2017 年提出的方法，通常是先利用光流将输入图像对齐，随后再合成 HDR 图像。然而由于输入图像存在遮挡和较大运动，这种方法生成的图像仍然有很多缺陷。与此相反，我们避免了光流，直接将 HDR 成像视为图像转换的问题，这为 HDR 成像提供了重要启示。而且，即使出现了完全遮挡、过曝、曝光不足等问题，简单的翻译网络也能够生成逼真的细节，这也是传统优化方法所做不到的。此外，这种方法还能根据不同的指定参照图生成 HDR 图像。我们通过足量定性和定量的对比，展示了这种方法能够生成高质量的 HDR 图像，与现有技术相比，生成结果的颜色缺陷和形状畸变都大幅减少了，而且对于不同输入具有鲁棒性，甚至是未进行辐射校正过的图像。

贡献：现有的数码相机一般都不足以记录整个场景的动态范围，而一些用于拍摄 HDR 图像的特制设备通常都过于昂贵或沉重，因此，合并多张在不同曝光拍摄的低动态范围（LDR）图像是另一种比较现实的方法。如果这些 LDR 图像是完美对齐的，也就是说拍摄时相机以及物体都没有移动，合并的问题已经基本被解决。但是在大范围前景位移与轻度相机位移存在的情况下，前景与后景的错位是不可避免的。后者很大程度上可以用单应性变换来解决，然而前景位移会让合并过程变得困难。很多已有的方法很容易在最终生成的高动态图中引入鬼影等缺陷。本文提出了一种用简易的端到端的卷积神经网络，即使有较大范围的前景位移的情况下也能学习如何把多张低动态图合并成没有鬼影的高动态图。不像 Kalantari 的方法，我们的神经网络是在没有光流对齐的情况下进行端到端的训练，从而在本质上避免了错误光流造成扭曲等问题。而且，通常由于饱和以及阻挡，一些内容在所有的 LDR 图像中都没有被拍摄到，神经网络同样可以幻化出合理的细节，这是在处理大范围的前景位移时是非常实用的。

网络结构：

我们利用翻译网络去学习多张 LDR 到 HDR 图像的映射。网络主体是对称的编码器解码器架构加以 Unet 与 ResNet 变化。Unet 是映射学习的常用工具。它主要是一个具有跳跃连接的编码器解码器的架构，编码器的输出的特征图直接与相应层的解码器的输入拼接。除了简单的 Unet, 我们也尝试了 ResNet，用残差模块取代中间层。整体来看，网络结构可以分为 3 个部分，编码器，合并器，解码器，对于每个不同的曝光输入，编码器的前两层是分立的，其余层共享参数。在抽取特征之后，合并器学习如何去合并他们，而解码器则负责生成 HDR 图像。

定性比较：