文章阅读笔记:【2021 DRL-DASR】Unsupervised Degradation Representation Learning for Blind Super-Resolution

本文最后更新于:3 个月前

原文链接:

(1)【√】每日五分钟一读# Image Super-Resolution - 知乎 - Andy(link

发布于 2021-04-08 20:16

(2)【√】Unsupervised Degradation Representation Learning for Blind Super-Resolution(基于无监督退化表示学习的盲超分辨率处理) - CSDN - Cloudeeeee(link

于 2021-08-04 10:33:25 发布

ps:本文为依据个人日常阅读习惯,在原文的基础上记录阅读进度、记录个人想法和收获所写,关于原文一切内容的著作权全部归原作者所有。

[√] 文章信息


论文标题:Unsupervised Degradation Representation Learning for Blind Super-Resolution

中文标题:用于盲超分的无监督降质表示学习

论文链接:https://arxiv.org/pdf/2104.00416

论文代码:https://github.com/LongguangWang/DASR

论文发表:CVPR 2021

[√] 文章1


【本文思想】

  • 与上述显性地估计LR图像退化因素不同,本文基于对比学习,提出了一种无监督的隐性退化因素估计方法,并将其用于指导图像SR。

【本文贡献】

  1. 我们提出了一种非监督的LR图像退化估计方法,用于学习抽象的退化因素表征。我们假设退化表征是由输入图像确定的,不同于其他图像;同时,同一张图像的图像块必须是相似的,而与其他图像的图像块却是不同的。
  2. 本文提出了一种退化感知的SR方法,可以灵活适应不同的退化;
  3. 通过广泛的实验证明,所提出的网络可以在具有各种退化的合成图像和真实图像上产生令人满意的结果。

【网络结构】

{总体结构}

img

{无监督对比学习}

img

【可以用于自己论文的话】

  • 用于多重退化的现有的SR网络通常将退化表示与图像特征连接,并将它们馈送到CNN以利用退化信息。然而,由于退化表示和图像特征之间存在域间隙(domain gap),直接使用卷积将它们作为一个整体进行处理会引入干扰。
  • 与这些网络不同的是,我们的网络模型通过学习基于退化的表示来预测卷积核和调制系数,我们的DASR可以很好地利用退化信息来适应特定的退化。我们的DASR得益于DA卷积,能够以更好的SR性能实现对各种退化的灵活适应。

【可以用于自己论文的idea】

【问题记录】

【零碎点】

  • 现有的退化估计方法旨在估计像素级别的退化(这个退化通常是模糊核),也就是说,这些方法提取的是退化的完整表示。这些方法因为在估计退化时需要多次迭代,因此非常耗时,例如,KernelGAN在测试期间进行网络训练,单个图像需要60秒以上的时间。与这些方法不同的是,我们的目标是学习一个“好的”抽象表示来区分特定的退化,而不是显式地估计退化。在4.2节中,我们的方法被证明是有效的,并且可以在一次退化估计推测中就获得具有判别性表示。此外,我们的方法不需要真实退化的监督,即可以在无监督环境下进行。

[√] 引言


Unsupervised Degradation Representation Learning for Blind Super-Resolution

论文地址:https://arxiv.org/pdf/2104.00416

代码地址:https://github.com/LongguangWang/ DASR.

关键词:图像超分、非监督、退化模型表征

[√] 解决的问题: 如何实现真实世界中多样化退化模型的图像超分


—> 图像超分的目的是从低分辨率(LR)图像恢复出高分辨率(HR)图像。

—>最近深度学习成功用于图像超分问题。目前许多方法都是假设低分辨率图像的退化模型是固定且已知的,但这种方法难以推广到真实退化情形。此外,利用多种退化因素组合构成训练集对模型进行训练,以期待模型具有更强的泛化能力,但这些非盲SR方法还是难以适应 那些训练集中未出现的退化情形。更进一步的,利用非盲SR方法,提供退化估计,进而解决真实图像SR问题,但这种方法对退化估计效果十分敏感,并且测试阶段需要较大的计算成本。

—>与上述显性地估计LR图像退化因素不同,本文基于对比学习,提出了一种无监督的隐性退化因素估计方法,并将其用于指导图像SR。

[√] 论文的贡献


  1. 我们提出了一种非监督的LR图像退化估计方法,用于学习抽象的退化因素表征。我们假设退化表征是由输入图像确定的,不同于其他图像;同时,同一张图像的图像块必须是相似的,而与其他图像的图像块却是不同的。
  2. 本文提出了一种退化感知的SR方法,可以灵活适应不同的退化;
  3. 通过广泛的实验证明,所提出的网络可以在具有各种退化的合成图像和真实图像上产生令人满意的结果。

[√] 所提出网络框架


首先研究具有各向同性高斯核的无噪声退化模型,然后研究具有各向异性高斯核和噪声的更一般的退化模型,最后研究真实世界的退化模型

img

[√] 1、退化表征学习


图像退化模型如下所示:

image-20230227213658906

img

本文采用对比学习框架[1] 学习退化表征。
给定一个图像块作为query,同张图像的其他图像块作为正样本;相反的,来自其他图像的其他图像块,作为负样本。 首先,利用六层CNN网络,对query、正样本、负样本进行编码,获得退化表征。接着,根据MoCo v2, 将上述退化表征喂入两层的多层感知器(MLP),获得投影x,x^+, x^-。最后,利用InfoNCE loss 度量上述投影的相似性:

img

为了获得包含大量负样本的大型词典,在训练阶段,B张LR图像首先被随机选择,然后对每张照片随机裁剪成两张;接着,这2B张图像块被编码成 {��1,��2∈�256} (p_i^1来自第i张图像的第一个图像块)。对于第i张图像,把p_i^1作为query样本,把p_i^2作为正样本,则整体loss为:

image-20230227214007850

image-20230227214015074

[√] 2、退化感知的SR网络


主要结构为退化感知模块(DA-block),以及来自RCAN的高层结构。整体网络包含5个残差组,每个残差组包含5个DA-block。
对于每个DA-block,包含有两个DA卷积层,两个3\times3的卷积层。
对于DA卷积层,1)退化表征首先经过两个FC层,学习到基于退化表示的深度卷积核w,然后结合图像特征F,经过1*1卷积层,获得特征F1;2)受到CResMD[2] 启发(使用控制变量来重新缩放不同的渠道以处理多种降级),退化表征通过两个FC层以及一个激活层后,生成逐通道调制系数v,结合图像特征F,获得特征F2。最后DAblock的输出由F1加上F2生成。

[√] 实验结果


训练数据: DIV2K、Flickr2K

测试数据:Set5, Set14 , B100、 Urban100

[√] 1、对比实验


img

img

img

img

img

img

[√] 2、附带实验


img

img

img

[√] 文章2


总结:

【本文思想】

  • 与上述显性地估计LR图像退化因素不同,本文基于对比学习,提出了一种无监督的隐性退化因素估计方法,并将其用于指导图像SR。

【本文贡献】

  1. 我们提出了一种非监督的LR图像退化估计方法,用于学习抽象的退化因素表征。我们假设退化表征是由输入图像确定的,不同于其他图像;同时,同一张图像的图像块必须是相似的,而与其他图像的图像块却是不同的。
  2. 本文提出了一种退化感知的SR方法,可以灵活适应不同的退化;
  3. 通过广泛的实验证明,所提出的网络可以在具有各种退化的合成图像和真实图像上产生令人满意的结果。

【网络结构】

{总体结构}

img

{无监督对比学习}

img

【可以用于自己论文的话】

  • 用于多重退化的现有的SR网络通常将退化表示与图像特征连接,并将它们馈送到CNN以利用退化信息。然而,由于退化表示和图像特征之间存在域间隙(domain gap),直接使用卷积将它们作为一个整体进行处理会引入干扰。
  • 与这些网络不同的是,我们的网络模型通过学习基于退化的表示来预测卷积核和调制系数,我们的DASR可以很好地利用退化信息来适应特定的退化。我们的DASR得益于DA卷积,能够以更好的SR性能实现对各种退化的灵活适应。

【可以用于自己论文的idea】

【问题记录】

【零碎点】

  • 现有的退化估计方法旨在估计像素级别的退化(这个退化通常是模糊核),也就是说,这些方法提取的是退化的完整表示。这些方法因为在估计退化时需要多次迭代,因此非常耗时,例如,KernelGAN在测试期间进行网络训练,单个图像需要60秒以上的时间。与这些方法不同的是,我们的目标是学习一个“好的”抽象表示来区分特定的退化,而不是显式地估计退化。在4.2节中,我们的方法被证明是有效的,并且可以在一次退化估计推测中就获得具有判别性表示。此外,我们的方法不需要真实退化的监督,即可以在无监督环境下进行。

[√] Abstract(摘要)


[√] gap


目前的SR方法大多是基于固定且已知的一种下采样方法,如双三次下采样,但是当真实图片的情况与假设的方法不同时,即真实的图片因为各种各样的不确定性因素,图像有多重降质(含有下采样、模糊、噪声等等)的情况,此时网络结构的性能与在理想情况下相比会产生很大的误差。因此,如何使网络结构能够处理多重降质的情况,是一个重要的研究方向。

[√] 本文提出的方法


  1. 提出了一种无监督退化表示学习方案,具体的说,我们学习抽象表示来区分表示空间的各种退化,而不是像素空间的显式估计;
  2. 引入了一个退化感知(Degradation-Aware)网络DASR网络。

[√] 结论


  1. 我们的退化表示学习策略能够提取有判别力的表征来获得具体的退化信息;
  2. 实验表明,我们的网络在盲超分任务中能够取得state-of-the-art的性能。

[√] 1.Introduction


图像超分辨率作为一个典型的逆问题,SR与退化模型是高度耦合的,现有的大多数基于CNN的方法都是在假设退化是已知且固定的(如双三次下采样),然而当现实情况不同时,这些网络会遭受严重的性能下降,为了处理实际过程中遇到的各种退化问题,以前的研究已经提出了几种非盲的SR问题,即使用一组退化(如高斯模糊、运动模糊+噪声的不同组合)用于训练,并假设测试的LR图像的退化情况是已知的。然而这些非盲的方法只能在提前已知正确的退化时产生预期的效果。

为了对未知退化的图像进行超分辨率,需要执行退化估计来为非盲SR网络提供退化信息。然而这些非盲方法对退化估计很敏感,SR网络会进一步放大估计误差,导致明显的伪影。为了解决这一问题,Gu等人提出了一种迭代校正退化,可以产生无伪影的结果。由于基于退化估计的方法非常耗时,以及IKC方法在测试时需要多次迭代,因此这些方法非常耗时。

我们提出的方法
通过学习退化表示来区分潜在退化和其他退化,受对比学习的最新进展的启发,对比损失常被用于在潜在空间中对比正负对来进行无监督退化表示学习,退化表示学习的优点有两个:

  1. 与提取完整的表示来估计退化相比,学习抽象表示来区分不同的退化更容易,因此我们可以获得可区分的退化表示,以在单个推理中提供准确的退化信息;
  2. 退化表示学习不需要基础事实退化的监督,因此它是一种非监督式学习方法,它更适用于具有未知退化特质的真实世界的图片。
    在本文中,我们引入了一种无监督式降质表示的盲超分方法,具体的说,我们假设退化在图像中是相同的,但对于不同的图像,退化可以不同。即在同一个图像中的不同图像块,它们的退化是相同的。不同图像间的退化可以没有相关性。我们提出了一种基于表示学习的退化感知网络,DASR,它能够灵活地适应不同的退化信息。
    具体的说,我们的DASR结合了退化信息,通过从退化表示中得到的预测卷积核和信道调制系数来执行特质自适应。
    实验结果表明,该网络能够有效地处理各种退化问题,在盲环境下对合成图像和真实图像都能取得较好的效果。

[√] 2.1 Single Image Super-Resolution


单一退化图像超分辨率
SRCNN —> ResNet —> EDSR —> RDN —> RRDN —> RCAN —> SAN(二阶通道注意网络)

多重降质超分辨率
单一退化图像超分辨率的图像只有双三次下采样,没有其他的降质处理手段,因此,当这些模型遇到现实情况的多种降质(模糊、噪声、下采样的组合等等)时,性能就会大打折扣。因此,为了解决这个问题,研究者们提出了各种各样的多重降质模型:
SRMD —> UDVD —> USRnet —> 闭合式校正滤波器 —> ZSSR —> MZSR

其中,SRMD是将多重降质后的图片输入模型,以获得能够处理不同降质的网络结构;UDVD将动态卷积合并到SRMD中,获得了比SRMD更好的性能;USRnet通过交替解决数据的子问题(sub-problem)和先验子问题(prior sub-problem)来处理不同的降质;侯赛因等人引入了闭合式校正滤波器来改变LR图像使得其余双三次退化所生成的LR图像相匹配,然后使用基于双三次下采样的网络来对该LR图像进行超分辨率处理;ZSSR使用退化图像和LR图像作为其输入进行训练,因此网络可以适应给定的降级,但是ZSSR的收敛非常耗时,在MZSR中,作者通过使用基于优化的元学习方法使得网络在给定的退化环境下,在几次迭代内就能收敛。
但是,以上方法都基于给定的退化情况,即它们都是非盲的,因此它们高度依赖于盲SR的退化估计方法,只有估计出图片的退化,才能进行相应的SR。但是,退化估计误差会导致伪影的产生,为了解决这个问题,Gu等人提出了一种迭代校正核—IKC,通过观察以前的SR结果来校正估计的退化。Luo等人通过迭代估计退化和恢复SR图像进一步提出了DAN,深层交替网络(Deep Alternating Network)。

[√] 2.2 Contrastive Learning(对比学习)


对比学习的相关背景见此链接
对比学习在无监督表征学习中已经被证明其有效性。以前的方法通常通过最小化输出图像与原图像之间的差异来进行表示学习。对比学习不使用预先定义的固定的目标,而是通过最大化表征空间中相同的信息进行训练。具体的说,所研究的图像的表征应该吸引其相对应的部分,而排斥不对应的部分。其相对应的部分可以是输入的转换版本(transformed versions of the input)、输入的不同视图(multiple views of the input )和同一副图像的不同图像块(neighboring patches in the same image )。本文将退化程度相同的图像块视为其相对应的部分,进行对比学习来获得内容不变的退化表示(content-invariant degradation representations),如图1所示。

图1

[√] 3.Methodology(方法论)


[√] 3.1 Problem Formulation


image-20230228104907399

其中IHR是HR图像,k是模糊核,⊗表示卷积运算,↓S表示具有比例因子s的下采样运算,n通常表示加性高斯白噪声。我们使用双三次下采样作为下采样操作。本文首先研究了具有各向同性高斯核的无噪声退化模型,然后研究了具有各向异性高斯核和噪声的更一般的退化模型。最后,我们在真实世界的降质上测试我们的网络。

[√] 3.2 Our Method


我们的盲SR框架由退化编码器和退化感知SR网络组成,如图所示。首先,将LR图像馈送到退化编码器A中以获得退化表示。然后,将该表示合并到降级感知SR网络B中以产生SR结果。

在这里插入图片描述

图2

[√] 3.2.1 Degradation Representation Learning(退化表示学习)

退化表示学习是以无监督的方式从LR图像中提取出有判别力的表征,如图1 所示,我们使用对比学习的框架进行退化表征学习。并假设每个图像中的退化是相同的,并且不同图像之间的退化是不同的。

本文网络的构思

给定一个图像块(图1中橙色框标注)作为疑问块(query patch)。从同一LR图像提取的其他块(例如,用红框标注的图像块)可以被认为是正样本。相反,来自其他LR图像的块(例如,用蓝框标注的块)可以被称为负样本。然后,我们使用具有六层的卷积网络将疑问块、正样本块和负样本块编码成退化表示(图2(A))。

如SimCLR和MoCo v2中所建议的,,所得到的表示进一步送到两层多层感知器(MLP)投影头以获得x、x+、x-。鼓励x与x+相同,而与x-不同。在MoCo之后,用InfoNCE损失来衡量相似性。

在这里插入图片描述

其中,N为负样本数,τ是温度超参数(temperature hyper-parameter),· 表示两个向量之间的点积。
正如现有的对比学习方法所强调的,覆盖丰富的负样本对良好的表示学习至关重要。通过维护具有各种内容和退化样本的队列来获得内容不变的退化表示。在训练过程中,首先需要随机选择B个LR图像(即B个不同的退化),然后从每个图像中随机裁剪两个图像块,然后使用我们的退化编码器将这2B个图像块编码成在这里插入图片描述,其中pi1是来自该图像的第一个块的嵌入,对于这幅图像,我们将pi1和pi2分别视为疑问样本和正样本,总的损失定义为:

在这里插入图片描述

其中,Nqueue是队列中的样本数,Pjqueue表示第j个负样本。

讨论

现有的退化估计方法旨在估计像素级别的退化(这个退化通常是模糊核),也就是说,这些方法提取的是退化的完整表示。这些方法因为在估计退化时需要多次迭代,因此非常耗时,例如,KernelGAN在测试期间进行网络训练,单个图像需要60秒以上的时间。与这些方法不同的是,我们的目标是学习一个“好的”抽象表示来区分特定的退化,而不是显式地估计退化。在4.2节中,我们的方法被证明是有效的,并且可以在一次退化估计推测中就获得具有判别性表示。此外,我们的方法不需要真实退化的监督,即可以在无监督环境下进行。

[√] 3.2.2 Degradation-Aware SR Network

通过退化表示学习,我们提出了退化感知SR网络(DASR)来使用所得到的退化表示对LR图像进行超分辨率重建。如图2(B)所示。

网络架构

图2(B)显示了我们的DASR网络的架构。该网络使用退化感知块(DA块)作为基础块,并采用RCAN的高层结构。我们的DASR网络由5个残差组组成,每个组由5个DA块组成。

在这里插入图片描述

如图2(C)所示,在每个DA块中,使用两个DA卷积层来基于A输入的退化表示适配特征。由于观察到不同重建等级训练的模型的卷积核具有相似的模式但具有不同的统计量,我们的DA卷积层学习在退化表示的条件下预测深度卷积的核。具体的说,A产生的退化表示R被送到两个全连接层(FC)和重塑层(reshape layer)以产生卷积核在这里插入图片描述

。然后对输入特征F使用卷积核w进行33卷积运算和11卷积运算,产生F1。

此外,受CResMD(使用控制变量对不同信道进行重缩放以处理多个退化)的启发,我们的DA卷积层还学习基于退化表示来生成调制系数以执行信道特征自适应。具体的说,R被传递到另外两个FC层和Sigmoid层以生成信道方式的调制系数v。然后,v被用来对F中的不同信道分量进行重新调节,从而得到F2。最后,将F1与F2相加,并馈送到后续层以产生输出特征Fout。

讨论

用于多重退化的现有的SR网络通常将退化表示与图像特征连接,并将它们馈送到CNN以利用退化信息。然而,由于退化表示和图像特征之间存在域间隙(domain gap),直接使用卷积将它们作为一个整体进行处理会引入干扰。与这些网络不同的是,我们的网络模型通过学习基于退化的表示来预测卷积核和调制系数,我们的DASR可以很好地利用退化信息来适应特定的退化。我们的DASR得益于DA卷积,能够以更好的SR性能实现对各种退化的灵活适应。

[√] 4.Experiments


[√] 4.1 Datasets and Implementation Details


在这里插入图片描述

[√] 4.2 Experiments on Noise-Free Degradations with


Isotropic Gaussian Kernels

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

[√] 5.Conclusion


[√] 一些问题


  1. 为什么作者要使用对比学习,对比学习在这篇文章里的作用是什么?
  2. 本文具体解决了哪些问题?怎么解决的?
  3. 本文的网络结构是如何解决多重退化的问题的?

文章阅读笔记:【2021 DRL-DASR】Unsupervised Degradation Representation Learning for Blind Super-Resolution
https://alec-97.github.io/posts/3079960614/
作者
Shuai Zhao
发布于
2023年2月27日
许可协议