066 - 文章阅读笔记:盲图像超分辨综述 - CSDN - AD--gai
本文最后更新于:3 个月前
原文链接:
于 2022-12-16 21:17:50 发布
ps:本文为依据个人日常阅读习惯,在原文的基础上记录阅读进度、记录个人想法和收获所写,关于原文一切内容的著作权全部归原作者所有。
[√] 摘要
- 盲图像超分辨率(SR),旨在超分辨低分辨率图像,因其在促进现实应用中的意义而受到越来越多的关注。
- 最近提出了许多新的和有效的解决方案,特别是使用强大的深度学习技术。尽管经过了多年的努力,但它仍然是一个具有挑战性的研究问题。
- 本文系统综述了盲图像SR的研究进展,提出了根据退化建模方法和数据将现有方法分为三个不同类别的分类法。这个分类法有助于总结和区分现有的方法。
- 我们希望提供对当前研究状态的见解,并揭示值得探索的新研究方向。
- 最后,我们总结了常用的数据集和以往有关盲图像SR的比赛。最后,通过对不同方法的比较,详细分析了不同方法的优缺点。
[√] 1、介绍
- 单图像超分辨率(SISR)长期以来一直是低水平视觉的一个基本问题,目的是从观察到的低分辨率(LR)输入中恢复高分辨率(HR)图像。
- 研究界多年的努力在这一领域取得了显著的进展,特别是随着深度学习技术的蓬勃发展,[1],[2],[3],[4],[5]。
- 然而,大多数现有的方法都假设一个预先定义的退化过程(例如,双边降采样)从HR图像到LR图像,这对于具有复杂退化类型的真实图像很难成立。
- 为了填补这一空白,近年来人们越来越关注未知降解的方法,即盲SR。
- 尽管有许多令人兴奋的改进,但这些被提出的方法在许多现实世界的场景中往往会失败,因为它们的性能通常仅限于某些类型的输入,并且在其他情况下会大幅下降。主要原因是他们仍然对与输入LR相关的退化类型做出了一些假设。
- 读者可以看到图1(a),它显示了四种不同的LR输入,假设一些最先进的方法的退化类型,但针对相同的HR。因此,当给定一个任意的输入偏离其假设的数据分布时,这些方法不可避免地会产生远不那么令人满意的结果。
- 图1(b)展示了从著名电影《阿甘正传》中裁剪出的真实图像的不同SR结果,这些图像由四种最先进的方法生成。我们可能会发现,这些方法都没有达到我们对良好的观看体验的期望,因为这个真实世界的图像并没有严格遵循他们对输入的假设。
- 事实上,我们很少对手头的图像选择哪种方法感到困惑,或者我们是否真的可以使用现有的方法得到高质量的结果。
在本文中,我们试图通过自己的见解对盲SR的研究进展进行系统的调查来缓解这种混淆。更重要的是,我们非常有必要回顾和反思所提出的方法,以清楚地了解当前的研究状态和剩余的差距。
如上所述,当面对这么多的方法时,我们经常很难选择合适的方法:单一图像的KernelGAN [6]看起来很酷,但是使用迭代方案的IKC [7]或使用未配对训练数据的CinCGAN [8]呢?
此外,即使每一种盲SR方法都对真实图像很有效,我们可能仍然难以为自己的图像获得满意的输出,就像图1中的情况一样。在这个发展阶段,是时候问一下了:我们在多大程度上解决了这个问题?是什么阻碍了我们,我们未来的努力应该去哪里?
因此,本文的目标是服务的不仅仅是一系列最近的进展。具体来说,我们提出了一种分类法来有效地对现有的方法进行分类,它可以清楚地区分不同的方法,并自然地揭示了一些研究差距。
基于这种分类法,我们的目标是让每种方法在由现有工作组成的全貌中都有自己的位置。这幅图可以为今后工作中不同方法之间的合理、公平的比较提供指导。
此外,我们还将对应用程序的范围以及每种方法的局限性进行总结,以帮助读者有效地为各种场景选择合适的方法。
请注意,本文主要关注一般自然图像的SISR,而不包括特定领域的主题,如人脸SR或深度地图SR。
我们的贡献主要有三方面:
1)我们对盲图像超分辨率的最新进展进行了系统的调查,包括改进和局限性不同的方法。
2)我们提出了一种分类法来有效地分类现有的方法,并揭示了一些研究差距。
3)我们对当前的研究现状和有前途的未来发展方向提供了深刻的见解
[√] 2、问题公式化
图2:非盲和盲SR差异的域解释。SR结果和期望的高质量HR之间存在很大的域差距,这是由于对LR输入应用了预先训练的非盲模型,其退化偏离了假设的模型(例如,降采样)。
在本节中,我们将介绍SISR问题的一些数学公式。具体来说,SISR是指从给定的LR输入中重建HR图像的任务,特别是HR中的高频内容。从HR到LR的潜在退化过程一般可以用以下公式来表示:
$$
y = f (x;s)
$$
式中,x、y分别表示HR图像和LR图像,f为具有尺度因子s的退化函数。因此,SR问题等价于建模和求解逆函数f−1。在非盲SR的背景下,f通常被认为是双边降采样:
$$
y = x ↓_s^{bic}
$$
或者结合降采样和一个固定的高斯模糊与核kg:
$$
y = (x \otimes k_g) ↓_s
$$
其中,⊗为卷积运算。在任何一种假设下,相应的SR模型只能处理这种特定退化的LR输入。对于其他具有不同退化类型的LR图像,SR模型与输入的内在退化之间的不匹配可能会导致SR结果[7]、[12]中出现严重的伪影。
图2给出了一个说明从图像域适应的角度:如果一个SR模型对应于预定义的退化应用于任意LR输入,将有一个大的领域差距输出和期望的图像样本之间的目标自然人力资源领域,从而导致一个质量差的结果。
因此,提出了未知退化的盲SR的主题,试图弥补这一差距。
到目前为止,已经有两种不同的方法来建模盲SR的退化过程:
基于公式(3)扩展的显式建模,以及通过外部数据集的固有分布进行隐式建模。具体来说,显式建模通常采用所谓的经典退化模型,这是公式(3)的一种更一般的形式:
$$
y = (x \otimes k) ↓_s + n
$$
其中,SR模糊核k和加性噪声n是退化过程中涉及的两个主要因素,对于任意LR输入,与这两个因素相关的参数将是未知的。
图3(a)显示了几个具有不同k和n的图像例子,它们比双次降采样对应的图像退化得多。
一些方法利用外部数据集来学习一个SR模型,它可以很好地适应各种k或n的大集合,如IKC[7]和SRMD[13]。
除了模糊和噪声,更复杂和更现实的退化类型也可以涉及到公式中,如JPEG压缩与质量因子q [14]:
$$
y = ((x \otimes k) ↓_s + n)JPEG_q
$$
另一组方法利用来自经典退化模型的单个图像中的内部统计数据,因此不需要外部数据集进行训练,如ZSSR [12]和DGDML-SR [15]。
事实上,内部统计数据只是反映了图像的补丁递归特性,读者可以参考图3(b)作为说明。
然而,现实世界的降解通常过于复杂,不能用多种降解类型的显式组合来建模,如图3©.所示因此,隐式建模试图规避显式建模函数。
相反,它通过数据分布隐式地定义了退化过程f,并且所有现有的隐式建模方法都需要一个外部数据集来进行训练。
通常,这些方法利用生成对抗网络(GAN)[16]的数据分布学习来掌握训练数据集中拥有的隐式退化模型,如CinCGAN [8]。
虽然在盲SR中提出了这么多模型,但还有很长的路要走,因为我们只处理了一小组真实世界的图像。现有的方法通常声称自己专注于真实世界的设置,但它们实际上是假设了一个特定的场景,比如由一些数码相机[17],[18]拍摄的图像。
事实上,现实世界的图像在底层退化类型上有很大的不同,而为特定类型设计的SR模型很容易为另一种类型而失败。在下一节中,我们将简要讨论不同类型的真实世界图像,这些图像对盲SR领域提出了严峻的挑战。
[√] 3、来自现实世界的挑战
随着现代成像设备的发展,我们现在正以视觉数据的激增来拥抱世界。这样多种多样的图像源也带来了更多的挑战,特别是在退化类型方面。一般来说,有三个主要因素导致不同的降解:
- (1)不同的成像设备。这个科技时代催生了一系列令人眼花缭乱的数码相机,更不用说拥有先进摄像系统的智能手机了。然而,这些设备在[11]拍摄的照片的特征上有很大的不同。例如,DSLR(数码单反)相机能够捕捉高质量的图像与立体的通过调整其焦距,而智能手机相机远接近DSLR-qeuced,倾向于产生一个“扁平”和嘈杂的场景由于其物理限制传感器大小和镜头。另一种低质量的成像类型是监控视频,它经常会遭受严重的焦点损失。读者可以看到图4中的一些图像示例。因此,用不同的设备捕获的图像彼此之间可能有不同的退化。
- (2)图像处理算法。这个问题主要与数码相机和智能手机相机有关,因为它是芯片上的一个图像信号处理器,实际上可以将数字信号处理成图像。处理管道通常涉及多个步骤,如像素校正、白平衡校正、去噪和锐化。在这个过程中,可以引入复杂的未知降解的[21],这是不可预测的,并且在不同的设备之间是不同的。一个典型的管道如图5所示。
- (3)由存储器引起的退化。减少传输和存储的资源消耗数据、图像和视频总是被压缩的。伴随的压缩图像是压缩伪影,这将导致退化,如模糊和块状效果。此外,时间本身会逐渐恶化图像,特别是对于在电影上录制的老照片和电影。这种退化主要是由于成像设备较差或空气中的侵蚀造成的,包括薄膜颗粒、棕褐色效应和褪色[22]。图6中给出了一些示例图像。这种退化很难用显式函数来表示,也不能被一些外部数据集覆盖,因此在设计恢复算法需要更多的努力。
- 上面讨论的现实世界的图像都承受着它们自身的退化和挑战。尽管如此,之前的工作通常集中于单一类型的真实图像,比如智能手机拍摄的图像,这极大地限制了它们在不同场景中的表现。我们希望在未来能看到更多关于不同类型的现实世界图像的探索。具体来说,对于每一种不同类型的有效解决方案,即使不是针对所有类型的通用解决方案,也应该是我们研究界的最终目标。
[√] 4、分类
- 在本节中,我们将详细介绍我们所提出的分类法,以作为我们的审查和分析的指南。根据Sec2、有两种方法来建模盲SR中涉及的退化过程:基于经典退化模型或其变体的显式建模,以及使用外部数据集之间的数据分布进行隐式建模。显式建模的基本思想是学习一个SR模型的外部训练数据覆盖了大量的退化,通常用式(4)中的k和n参数化。具有代表性的方法包括SRMD [13]、IKC [7]和KMSR [23]。另一组方法提出利用补丁递归的内部统计数据,如KernelGAN [6]和ZSSR [12],它们可以直接工作于单个输入图像。这种建模主要是基于经典的退化模型。另一方面,具有隐式建模的方法不依赖于任何显式参数化,它们通常通过在外部数据集中的数据分布来隐式地学习底层的SR模型。这些方法包括CinCGAN [8]和FSSR [24]。
因此,我们提出了一种分类方法,根据现有方法的退化建模方法和解决SR模型所使用的数据进行有效的分类:显式建模或隐式建模、外部数据集或单个输入图像,如图7所示。我们采用这种分类的原因有三方面:第一,区分显式建模和隐式建模有助于我们理解某种方法的假设,即这种方法旨在处理什么样的退化;第二,无论是使用外部数据集还是单一输入图像表明显式建模的图像特定适应策略;最后,在将现有方法分类为这些类之后,剩下的研究差距自然地揭示了自己——用单一图像进行隐式建模。我们认为,这个方向是有希望的,在对不同内容的真实图像进行处理,并将尝试为这个方向的新解决方案提出可行的建议。
在接下来的章节中,我们首先快速概述非盲SISR,它为盲SR方法奠定了基础。然后在第六节中介绍了具有显式建模的方法。并在第七章节中讨论那些使用隐式建模的方法。 对于每种类型的方法,我们将在其发展过程中展开回顾,并分析它们的局限性,以启发未来的工作。
[√] 5、非盲单图像超分辨率的概述
正如在第二节中所解释的那样。2、非盲SR假定一个固定的已知退化过程来求解HR输出。在深度学习技术发展之前,许多传统的技术都是基于实例的。[25]、[26]、[27]、[28]使用外部HRLR范例对学习从LR到HR的映射函数,其中映射学习通常基于一个紧凑的字典或流形空间。其他一些[29],[30]利用单个图像的内部自相似性特性,而不使用外部数据集。2014年,SRCNN [31]的开创性工作开启了部署卷积神经网络(CNN)来解决这一任务的新时代,同时也为以后的工作建立了基本框架,如图8所示。
SISR任务常用的CNN框架包括三个主要模块:浅特征提取将输入的LR图像转换为特征映射,基于提取的浅特征进行深度特征提取或映射,最后是SR输出重构。残差学习也被广泛用于简化训练过程,无论是在图像级[33]还是特征级[34]。近年来在深度特征提取和SR重构模块上有了许多改进,如引入残差块[34]、[35]、[36]、递归或递归结构[37]、[38]、注意机制[39]、[40]、亚像素卷积[41]等。此外,为了更好地提高SR结果[32]、[42]、[43]的感知质量,还提出了多重损失函数。这些技术在重建精度和效率方面都取得了显著的进展,具有双边降采样假设的非盲SISR实际上达到了成熟。
然而,这些非盲模型通常难以推广到具有更复杂的退化偏离其假设的退化的输入图像。非盲SR网络的一些故障情况如图9所示,其中网络根据假设的退化模型对双降采样干净输入表现良好,但不能处理模糊或有噪声的输入图像。因此,需要提出盲法SR设置的方法,这是本调查的主要重点,并将在以下两个部分进行详细探讨。
[√] 6、显式退化模型
本节介绍了最近提出的盲法SR方法,它采用了退化过程的显式建模,通常基于等式(4)所示的经典退化模型。此外,根据这些方法是使用外部数据集还是依赖于单一的输入图像来解决SR问题,它们可以进一步分为两个子类。
[√] 6.1、具有外部数据集的经典退化模型
这种方法利用外部数据集来训练一个非常适应不同的SR模糊核k和噪声n的SR模型,特别是前者。
通常,SR模型是利用卷积神经网络(CNN)进行参数化,并将对特定LR图像的k或n的估计作为SR模型的条件输入,用于特征适应。经过训练过程后,该模型将能够为训练数据集中包含的退化类型的LR输入产生令人满意的结果。
根据某种方法是否在其提出的框架中包含退化估计,我们进一步将这些方法分为两种类型:不具有核估计的图像特定自适应和具有核估计的图像特定自适应。
更具体地说,第一种类型接收估计的退化信息作为额外的输入,并重点关注如何利用估计输入进行图像特定的自适应,而第二种类型则特别关注核估计和SR过程。它们的总体框架的说明如图10所示。
[√] 6.1.1、没有核估计的图像特定的自适应
多重退化的超分辨率(SRMD)[13]提出直接将LR输入图像与其退化映射作为SR模型的统一输入连接起来