007 - 文章阅读笔记:图像超分辨率:盲超分总结 - 知乎 - 桃川京夏
本文最后更新于:3 个月前
链接:
编辑于 2022-08-29 09:29
图像超分辨率:盲超分总结
[√] 一、 方法归类总结
目前,盲图像超分辨率主要分为显示建模(Explicit Modelling)和隐式建模(Implicit Modelling)两类方法,具体的类别细分如下图所示:
alec:
- 盲超分分为显式建模和隐式建模
在非盲图像超分辨率中,退化函数通常表示为公式(2)/公式(3),式(2)表示bicubic下采样,式(3)表示下采样+固定模糊核kg的高斯模糊。
显式建模方案通常采用经典退化模型,即一种更广义的退化方式,如公式(4)所示,这种退化方式要比bicubic下采样更复杂。
一些方法利用额外的数据集来学习超分辨率模型的各种k/n的集合,如IKC和SRMD。另一类方法利用来自经典退化模型的单个图像的内部统计信息,因此不需要额外数据集进行训练,如ZSSR和DGDML-SR,内部统计实际上只是反映了图像中patch的重复属性。
然而,真实退化通常过于复杂而导致难以通过显式多退化组合方式建模。因此,隐式建模则试图绕开显式建模方式,它通过数据分布模拟退化过程。所有的隐式建模方法均需要额外数据进行训练。这些方法一般通过GAN学习数据分布,比如CinCGAN。
alec:
- 真实退化通常过于复杂而导致难以通过显式多退化组合方式建模。因此,隐式建模则试图绕开显式建模方式,它通过数据分布模拟退化过程。所有的隐式建模方法均需要额外数据进行训练。这些方法一般通过GAN学习数据分布,比如CinCGAN。
[√] 1.1 - 显式建模(Explicit Modelling)
对退化过程进行显示建模的盲图像超分方法通常基于公式y=(x⊗k)↓s+n所示的退化模型,这类方法可以根据是使用额外数据、还是依赖单个输入图像建模进一步分为两个子类。
[√] 1.1.1 - Classical Degradation Model with External Dataset
这类方法的基本思想是采用覆盖大范围退化的额外数据训练一个超分模型,往往需要将模糊核与噪声信息进行参数化。根据提出的框架中是否包含退化估计,我们进一步将这类方法分为两种:无需核估计的方法和需要核估计的方法。
1)无需核估计的方法
SRMD将输入图像与退化信息(模糊核、噪声)拼接到一起输入到超分模型中,是首个采用深度学习的盲图像超分辨率方法。该方法允许根据特定退化进行特征适配,从而在单个模型中覆盖多种退化类型。这一类方法多数由Kai Zhang(Computer Vision Lab, ETH Zurich)等人提出,除了SRMD外,该团队还提出了DPSR、USRNet、DPIR、MANet、BSRGAN等,后续方法像DPSR、USRNet、DPIR等将MAP(最大后验概率)逐渐嵌入到迭代优化中。
代表论文:
Learning a Single Convolutional Super-Resolution Network for Multiple Degradations(SRMD)
Unified Dynamic Convolutional Network for Super-Resolution with Variational Degradations(UDVD)
Deep Plug-and-Play Super-Resolution for Arbitrary Blur Kernels(DPSR)
Deep Unfolding Network for Image Super-Resolution(USRNet)
Plug-and-Play Image Restoration with Deep Denoiser Prior(DPIR)
Mutual Affine Network for Spatially Variant Kernel Estimationin Blind Image Super-Resolution(MANet)
Designing a Practical Degradation Model for Deep Blind Image Super-Resolution(BSRGAN)
这一类方法虽然开创了盲图像超分辨率的一个流派,但严格来说,这类方法更像是图像超分辨率的数据增强,通过复杂化的退化模型,使输出结果更加接近真实,从而达到了盲超分需要的效果。目前最新的方法BSRGAN,通过对多种模糊核、下采样、噪声退化进行随机置换,在不同类型真实退化数据上取得了非常好的效果。而BSRGAN所设计的退化模型合成的训练数据,则可以看成是一种更全面、覆盖范围更大的数据增强。
alec:
- 这一类方法虽然开创了盲图像超分辨率的一个流派,但严格来说,这类方法更像是图像超分辨率的数据增强,通过复杂化的退化模型,使输出结果更加接近真实,从而达到了盲超分需要的效果。目前最新的方法BSRGAN,通过对多种模糊核、下采样、噪声退化进行随机置换,在不同类型真实退化数据上取得了非常好的效果。而BSRGAN所设计的退化模型合成的训练数据,则可以看成是一种更全面、覆盖范围更大的数据增强。
2)需要核估计的方法
在SRMD之后,这一类方法走了另外一条路:采用深度学习的方法来估计模糊核。其中,比较知名的IKC(由Jinjin Gu、Chao Dong团队提出)、DAN(由中科院Tieniu Tan团队提出)等方法和DPSR、USRNet一样采用了迭代优化的思想来矫正模糊核的估计。而KMSR、RealSR、RealSRGAN等方法则没有采用迭代优化,而是像SRMD那样让训练数据集覆盖更多的退化类型,通常是从真实的图像得到更真实的核估计。因此KMSR、RealSR、RealSRGAN等方法虽然也需要核估计,但从思想上来看却更像SRMD。
代表论文:
Blind Super-Resolution With Iterative Kernel Correction(IKC)
Unfolding the Alternating Optimization for Blind Super Resolution(DANv1)
End-to-end Alternating Optimization for Blind Super Resolution(DANv2)
Blind Image Super-Resolution with Spatially Variant Degradations(VBSR)
Kernel Modeling Super-Resolution on Real Low-Resolution Images(KMSR)
Real-World Super-Resolution via Kernel Estimation and Noise Injection(RealSR)
Real-World Super-Resolution using Generative Adversarial Networks(RealSRGAN)
Unsupervised Degradation Representation Learning for Blind Super-Resolution(DRL-DASR)
相比于无需核估计的方法,这一类方法更加符合盲图像超分的概念。相比于遍历退化模型的参数,模糊核估计得到的模糊核更符合真实图片的性质。但是其本质上其实仍然是一种数据增强,只是这种数据增强更贴合数据,网络也就有了更好的泛化性能。因此,既然是数据增强,也就意味着对于模型未覆盖的退化,这类方法同样无法给出令人满意的结果。
3)小结
显示建模中,这两类需要额外数据的方法应该是目前应用最广泛的的盲图像超分方法。SRMD首次成功的将核先验、噪声先验信息嵌入到超分模型中,之后的工作则针对模糊核进行探索,延续了两条不同的路线:
1、基于MAP(最大后验概率)思想进行迭代估计,像DPSR、USRNet以及DPIR采用了类似的思路,将传统方法MAP逐渐嵌入到迭代优化中;亦或是采用随机置换等其他方法遍历退化模型。这类方法均不需要估计模糊核。
2、基于CNN进行迭代估计,像IKC、DANv1、DANv2均采用了深度学习的思想进行模糊核的迭代优化;亦或是直接估计模糊核从而让训练数据集覆盖更多的退化类型。这类方法都需要估计模糊核。
alec:
- 无论是否进行模糊核的估计,上面的方法本质上都是在进行训练数据的数据增强。
- 以上两条不同路线的方法其实都可以看作一种数据增强:原有的bicubic下采样只针对单一类型的数据分布,因此泛化能力有限,更难以应用到真实世界数据(数据分布未知)。区别仅在于,第一类方法直接将显示的退化参数(模糊核、噪声)输入网络,因此无需核估计;而第二类方法则是通过网络得到显示的退化参数,再进行数据增强,训练超分网络。因此对于模型未覆盖的退化,这些方法仍然无法给出令人满意的结果。
以上两条不同路线的方法其实都可以看作一种数据增强:原有的bicubic下采样只针对单一类型的数据分布,因此泛化能力有限,更难以应用到真实世界数据(数据分布未知)。区别仅在于,第一类方法直接将显示的退化参数(模糊核、噪声)输入网络,因此无需核估计;而第二类方法则是通过网络得到显示的退化参数,再进行数据增强,训练超分网络。因此对于模型未覆盖的退化,这些方法仍然无法给出令人满意的结果。
盲图像超分的目的是为了提高退化模型未知的图片的超分效果,退化类型多种多样,因此可以很自然地把盲图像超分的目标理解为提高模型的泛化性能,而提高模型的泛化性能最好的方法就是数据增强。不管有意还是无意,多数的盲图像超分方法都走上了这条路。例如BSRGAN对不同的退化类型进行随机置换,这一方法显然在通用数据增强方法中也有类似。
[√] 1.1.2 - Single Image Modeling with Internal Statistics
这类方法同样需要对退化过程显式建模,但不再需要大量的额外数据来训练模型,而是利用单张图片的内部统计信息进行建模,可以分为基于patch相似性的方法和基于自监督学习的方法。
alec:
- 这种方法,不同于从数据集中大量图像中拟合退化方式。而是通过对单张图像内部的统计信息进行建模,从而拟合数据的退化方式。
[√] 1)基于patch相似性的方法
单幅图像的patch倾向于在该图像内重复出现。许多自然图像的内部统计数据已被量化,并被证明比外部统计数据具有更强的预测能力。在此基础上,KernelGAN假设由最优k生成的LR图像的下采样版本应该与原始LR图像共享相同的patch分布,基于该假设KernelGAN将单个图像中的patch递归最大化解释为数据分布学习问题。训练结束后,通过生成器中的所有卷积滤波器可以显式地得到核估计,因此这类方法同样属于显示建模。
[√] 代表论文:
Blind Super-Resolution Kernel Estimation using an Internal-GAN(KernelGAN)
Flow-based Kernel Prior with Application to Blind Super-Resolution(FKP)
[√] 2)基于自监督学习的方法
基于patch的相似性,自监督学习(self-supervision)也可以应用于超分模型。在训练阶段,ZSSR使用单个低分辨率输入y生成的HR-LR对网络进行训练,其中y被视为HR,通过模糊核降采样生成更低分辨率的LR图像,进而训练一个用于特定图像的CNN,实现在没有任何预训练的情况下对每个输入LR进行超分辨率处理。
[√] 代表论文:
“Zero-Shot” Super-Resolution using Deep Internal Learning(ZSSR)
Zero-Shot Image Super-Resolution with Depth Guided Internal Degradation Learning(DGDML-SR)
[√] 3)小结
这类方法的局限性在于基本假设很容易无法满足,尤其是对于内容多样得到自然图像。因此很难采用先验信息进行超分重建。
[√] 1.2 - 隐式建模(Implicit Modelling)
隐式建模方法和显示建模有较大的差别,它不依赖于任何显式参数,而是利用额外的数据通过数据分布隐式的学习潜在超分模型,现有方法往往采用GAN框架探索数据分布,代表性方法有CinCGAN、FSSR,具体如下图所示。
[√] 代表论文:
Unsupervised image super-resolution using cycle-in-cycle generative adversarial networks(CinCGAN)
To learn image superresolution, use a gan to learn how to do image degradation first(Degradation GAN)
Frequency Separation for Real-World Super-Resolution(FSSR)
Guided frequency separation network for real-world super-resolution(FS-SRGAN)
Unsupervised real-world image supe,r resolution via domain-distance aware training(DASR)
Unpaired Image Super-Resolution using Pseudo-Supervision(Pseudo-Supervision)
[√] 二、其他进展
除了模型层面的修改,盲图像超分辨率的另一个改进方向是针对数据集进行的,即获取/生成尽可能贴合真实数据的训练对。主要方法是用特定的摄像机拍,摄然后进行矫正。目前相关的数据集主要有RealSR、DRealSR以及D2cRealSR。但是捕获的数据仅局限于与特定相机相关的退化,由于不同成像系统之间的复杂变化,因此仍然不能很好地推广到其他真实图像,覆盖所有场景。与合成数据相比,建立这样的数据集是耗时且昂贵的,所以这些真实数据集主要作为研究真实环境下盲图像超分辨率的重要基准。