即可将网页分享至朋友圈
近日,信通学院2021级本科生邓皓宇在机器学习领域顶级会议International Conference on Machine Learning(ICML)发表题为“Exploring the Low-Pass Filtering Behavior in Image Super-Resolution”的图像超分辨率可解释性工作。电子科技大学均为第一署名和通信单位。ICML是机器学习三大国际著名会议之一,至今已举办41届,在推动机器学习发展过程中具有举足轻重的影响力。今年的ICML会议于7月21日-26日在奥地利维也纳举办,邓皓宇代表课题组参会并进行论文展示。
图像超分辨率是一种提高图像分辨率的技术,被广泛应用于各个领域。进行图像超分辨率的算法有许多种,例如插值法,字典学习法,深度学习等。得益于深度学习技术的发展,图像超分辨率技术也取得了显著进步。但是由于深度学习缺乏可解释性,图像超分任务所采用模型背后的机理尚未探明。
图1. 图像超分示意图
受到数字信号处理中上采样器的原理启发,该文章对网络进行了冲激响应测试,发现用于图像超分任务的网络的冲激响应实际上是一个低通滤波器。图像超分辨任务本质上是一种信号上采样任务,在传统信号处理领域中,上采样已经是非常成熟的操作。一个上采样器的工作流程可以这样描述:先把采样过后的离散时间信号恢复成连续信号(函数),再用更高的采样率进行采样。而要将离散时间信号恢复成连续信号,只需要对其进行一个低通滤波。若对δ函数进行上采样,那最终得到的就是应该sinc函数。基于这样的想法,作者猜想神经网络内部也存在这样一个低通滤波器。该文章发现,若对图像超分辨网络输入一个只有一个像素为白色的图像,那么输出的图像花纹与sinc函数非常类似,即神经网络的冲激响应是一个sinc函数,如图2。
图2. 神经网络的冲激响应与sinc函数对比
图3. 左:HyRA的线性系统和非线性系统的响应及其频谱。右:FSDS指标与主流SSIM指标的对比,SSIM指标不能很好地反应高频失真
为了验证这一发现,文章提出了一种名为“混合响应分析(HyRA)”的方法。HyRA将一个网络视作一个线性系统和非线性系统的并行连接(图3左)。为了使这样的拆分有意义,文章提出该非线性系统的冲激响应应该为0,并证明了这样的约束不影响分析。使用HyRA分析,文章发现线性系统的职责是滤除部分0插值引起的周期延拓以实现一定程度的超分,但是由于滤波器的性能较差,不能较完美地实现超分。非线性部分在修正线性系统带来的失真的同时,同时注入学习到的高频信息。
此外,为了量化地评价网络注入高频的能力,文章还提出了一种名为“频谱分布相似性(FSDS)”的图像质量评价指标(FSDS)用于定量分析网络注入的高频信息。FSDS指标描述了图像的频谱上的功率分布的相似性。实验证明,相较于现有的主流指标(如PSNR、SSIM等),FSDS指标能够更有效地反应出不同程度的频谱失真,详见图3右。
图4. 邓皓宇在奥地利维也纳的ICML会议上与国际同行进行交流
邓皓宇在2021年通过校级教改项目“一年级新生课外实践项目—卷积神经网络原理及其在视觉问题上的应用”,进入数学学院教师的科研团队参与科研训练。大二时入选信通学院“科研育人”新工程教育专项“卓越成长计划”。说起自己的经历,他表示,学校新工科建设和学院“科研育人”专项给他带来了莫大的帮助,在科研和竞赛方面对他都很有启发。截至目前,邓皓宇已参与发表高水平论文6篇,其中以第一作者发表论文3篇,包括ICML(CCF-A类)、Knowledge-Based Systems(中国科学院大类一区)、ICLR tiny,还获得国家级竞赛奖项3项。
据悉,“卓越成长计划”是信通学院贯彻落实教育部关于“坚持科教融合、加强科研育人”的精神,进一步加强科研育人,推进高水平科研支撑高质量本科人才培养的重要举措,以“唤起好奇、探究知识、激发潜能、个性发展”为出发点,构建起“案例化核心课程”与“通关式科研项目”相融合的精英人才培养体系,达到让学生“想学好”“能学好”的目的。
论文信息:
Haoyu Deng, et al., Exploring the Low-Pass Filtering Behavior in Image Super-Resolution, International Conference on Machine Learning (ICML), 2024
编辑:罗莎 / 审核:李果 / 发布:陈伟