科研学术

分享到微信 ×
打开微信“扫一扫”
即可将网页分享至朋友圈
信通学院图像处理团队博士生在国际顶级期刊IEEE TNNLS/IEEE TMM/IEEE TCSVT发表研究论文
文:信通学院 图:信通学院 来源:信通学院 时间:2024-06-14 4399

  近日,信息与通信工程学院图像处理团队博士生朱强、李世博和邱亚军分别在视频超分辨率领域、视频修复领域、视频图像技术领域取得了重要研究进展。分别在国际顶级期刊IEEE Transactions on Neural Networks and Learning System (TNNLS)、IEEE Transactions on Multimedia( TMM)和IEEE Transactions on Circuits and Systems for Video Technology (TCSVT)期刊发表研究论文。

  IEEE TNNLS期刊,由 IEEE于1990年创办,该期刊主要刊发神经网络和学习系统相关的最新研究成果,是IEEE计算智能学会的旗舰刊物,中科院一区TOP期刊,神经网络和学习系统方面的国际顶级期刊。IEEE TMM,全称IEEE多媒体汇刊(IEEE Transactions on Multimedia),由IEEE协会于1999年创刊,该期刊主要刊发多媒体技术及其应用相关的最新研究成果,属于多媒体领域最具影响力的顶级期刊,JCR一区和中科院一区期刊,影响因子7.3。IEEE TCSVT期刊,由 IEEE于1991年创办,该期刊致力于发布视频和图像技术领域的最新研究成果,属于视频图像技术领域国际顶级期刊,中科院一区期刊,影响因子8.4。

  发表在IEEE TNNLS的论文“DVSRNet: Deep Video Super-Resolution Based on Progressive Deformable Alignment and Temporal-Sparse Enhancement” 以2021级博士生朱强为论文第一作者,朱树元教授为通讯作者,电子科技大学为第一单位,电子科技大学和北京大学为共同完成单位。

  发表在IEEE TMM的论文“Depth-guided Deep Video Inpainting”,以2020级博士生李世博为论文第一作者,朱树元教授为通讯作者,电子科技大学为第一单位,电子科技大学和格拉斯哥大学为共同完成单位。

  发表在IEEE TCSVT的论文“Dual Circle Contrastive Learning-Based Blind Image Super-Resolution”以2023级博士生邱亚军为论文第一作者,朱树元教授为通讯作者,电子科技大学为第一单位。

  论文1:“DVSRNet: Deep Video Super-Resolution Based on Progressive Deformable Alignment and Temporal-Sparse Enhancement”

  背景:随着视频数据的不断深入普及,人们对视频清晰度和高质量的需求越来越高,在现实生活中人们通常会获取到低质量低分辨率的视频,这直接影响了用户的视觉体验。为了从低质量低分辨率的视频中恢复出清晰高分辨率的视频,视频超分辨率技术被应用与研究。现有视频超分辨率方法大多采用光流或可变形卷积实现视频帧间的运动补偿来重建高分辨率视频,但这些方法常常容易因运动补偿而引起对齐伪影,从而影响重建高分辨率视频的质量。本文提出了渐进式可变形对齐模块有效消除了因运动补偿引起的对齐伪影,同时构建了时序稀疏增强模块发掘视频数据中的稀疏信息,着重提升了重建高分辨率视频的细节质量。

21.png

图1:DVSRNet整体框架的展示:OFNet是轻量化光流网络,PDA是渐进式可变形对齐模块,TSE是时序稀疏增强模块;团队搭建了一套基于光流网络和超分辨率网络联合训练的端到端深度网络框架

  方法:如图1所示,在团队的视频超分辨率网络DVSRNet中,团队首先设计了一个轻量化光流网络用于估计视频帧间的运动信息,同时显著降低因光流估计引入的高复杂度,而后将估计的光流与可变形卷积结合设计渐进式可变形对齐模块,用于消除视频帧间的对齐伪影。此外,设计了时序稀疏增强模块用于显著提升重建视频的细节质量。基于以上的设计,团队构建了视频超分辨率网络DVSRNet,实现了高效与高性能的视频超分辨率。

22.png

20.png

图2:DVSRNet与SOTA方法在数值与可视化结果的对比

  结果:DVSRNet与近年来视频超分辨率的多个SOTA方法在已有的公开测试数据集上进行了实验,DVSRNet在数值与可视化结果的对比上(图2),均取得了最优的效果,同时具备了较低的参数量。

  论文2:“Depth-guided Deep Video Inpainting”

  背景:视频修复算法旨在为破损的视频区域填充合理的内容,可用于去除视频内指定目标、修复受损老电影等场景,在视频编辑和视频特效领域发挥着关键作用。随着深度神经网络的发展,基于深度学习的视频修复算法取得了显著进步。然而,当待修复区域同时涉及前景和背景时,视频修复仍然存在极大困难,由于待修复区域缺乏先验信息导致修复结果极易出现伪影。为了解决这一技术挑战,该工作提出了一种基于景深信息引导的深度学习视频修复算法(DGDVI)。

23.jpg

图3: DGDVI整体框架

  方法:该项工作首次将景深信息应用于基于深度学习的视频修复算法研究中(图3)。首先利用时空多维度信息对视频及其破损区域的景深信息进行估计,预测完整、合理的景深信息。在此基础上,通过构建景深信息引导的内容修复模型,使用视频全局参考信息对破损区域内容进行重建,并进行时序一致性增强,从而获得内容合理且视觉效果令人满意的修复结果。

24.png

图4: 深度信息对于视频修复有效性的验证

25.png

图5: DGDVI与其他主流方法的结果对比

  结果:论文将DGDVI与当前主流视频修复算法进行了对比(图4和图5),通过对比也验证了将景深信息用于引导视频修复的有效性(图4),也体现除了DGDVI算法的优异性能。

    论文3:“Dual Circle Contrastive Learning-Based Blind Image Super-Resolution”

  随着数字摄影技术普及,高清图像在日常生活中应用越来越广泛。但受拍摄、压缩和显示条件的影响,人们得到的图像往往无法达到所期望的高质量和高分辨率,影响图像的视觉效果和应用效率。图像盲超分辨技术面向实际应用场景,从低质量、低分辨率图像中恢复高分辨率细节,提高图像实用价值。

  现有基于深度学习模型的图像盲超分方法主要通过像素级损失函数训练模型,这种方法往往会导致模型生成的图像细节过于平滑,损害了图像的视觉质感和细节丰富度。为克服这一问题,论文提出了一个新的训练策略和一种双路循环对比学习方法。不同于先前训练方法仅在像素层面上使模型所生成的图像接近其对应的高分辨率清晰图像,新的训练策略使模型生成的结果在退化层面接近清晰图像,包含更少的退化。在这种策略指导下,模型能生成包含更多细节纹理的图像,极大提升图像的视觉效果。

26.png

图6:双路循环对比学习框架的展示:DEnet是退化表达提取网络,DDA-SRnet是退化引导超分辨率网络。DGnet是退化网络

  方法:如图6所示,不同于先前方法所采用的从低分辨率到高分辨率(LR-SR)重建过程,论文方法通过设计专门的退化模型,模拟从高分辨率图像退化为低分辨率图像(SR-LR)的过程。进而通过将SR-LR过程与传统的LR-SR过程结合,构建了一个“从低到高再到低的”循环过程。在此基础上,进一步引入了双路循环对比学习策略。在这个策略中,第一路循环对比主要关注于确保通过退化模型生成的低分辨率图像与给定的低分辨率图像在视觉上保持高度相似,其目的是使退化表示能够准确地捕捉并重现低分辨率图像中存在的退化特征;第二路循环对比关注于使通过超分辨率模型重建得到的高分辨率图像在经过退化后,得到的退化图像应接近于真实高分辨率图像的自然退化状态,其目的是尽可能减少在超分辨率重建过程中引入的额外退化,确保重建的高分辨率图像在质量上接近原始图像。

27.png

图7:团队方法与SOTA方法在可视化结果的对比

  结果:论文方法与近年来多个图像盲超分辨率SOTA方法进行了实验对比,取得了最优的效果(图7)。



编辑:罗莎  / 审核:李果  / 发布:陈伟