科研学术

分享到微信 ×
打开微信“扫一扫”
即可将网页分享至朋友圈
计算机(网安)学院数据智能团队(DIG)在国际知名期刊 T-PAMI发表论文
文:数据智能团队(DIG) 图:数据智能团队(DIG) 来源:计算机(网安)学院 时间:2026-04-05

近期,电子科技大学计算机(网安)学院数据智能团队(DIG)在国际知名期刊IEEE Transactions on Pattern Analysis and Machine Intelligence(T-PAMI)上发表题为《ATD:Improved Transformer with Adaptive Token Dictionary for Image Restoration》的论文。2023级博士生张乐恒为第一作者,电子科技大学为第一完成单位,顾舒航教授为通讯作者。

Transformer是当前图像复原领域主流的网络架构,其核心为基于窗口的自注意力机制,尽管该机制可以显著降低自注意力的计算复杂度,使Transformer能够应用于高分辨率图像处理,但其局部窗口划分策略限制了跨区域的信息交互能力,从而影响对全局结构与长程依赖的建模。

图1:ATD的网络框架

图2:基于类别分组机制

针对这一问题,论文提出了一种自适应词元字典(Adaptive Token Dictionary,ATD)架构。通过引入可学习的词元字典,在训练过程中建模典型图像结构等外部先验信息,并结合词元字典交叉注意力机制(Token Dictionary Cross-attention),实现输入特征与全局先验的高效交互,从而在保持线性复杂度的同时捕获全局依赖关系。进一步地,利用注意力映射中的类别信息对特征进行分组,提出基于类别分组的自注意力机制(Category-based Self-attention),实现线性复杂度下的全局依赖建模。最后,在前馈网络中融入类别信息,以进一步增强特征融合能力。实验结果表明,ATD及其轻量化版本在图像超分辨率任务中取得了领先性能,同时其多尺度扩展ATD-U也在图像去噪和JPEG压缩伪影去除等任务的多个基准数据集上实现了对现有方法的显著超越。


论文链接:https://ieeexplore.ieee.org/abstract/document/11419871


相关介绍

计算机(网安)学院数据智能团队(Data Intelligence Group)主要研究领域为机器学习和计算机视觉,具体包括迁移学习、深度学习、弱监督学习、强化学习及在图像视频分析、目标检测、语义分割、眼底影像分析等计算机视觉任务中的应用。团队现有正高级教授5人,副教授1人,助理研究员1人,研究生70余人。科研环境近400平米,设独立机房,配置高性能服务器,拥有GPU显卡200余张。团队近年发表中国科学院一区或CCF A类期刊会议论文100余篇;荣获四川省科学技术进步奖一等奖,吴文俊人工智能科学技术奖-自然科学奖一等奖等;在国内外多项计算机视觉和人工智能大赛中名列前茅,获2021年CVPR NTIRE移动端视频超分辨比赛全球冠军、2022年“华为杯”四川省大学生嵌入式设计竞赛全省一等奖等。团队网站:https://diggers.ai/


编辑:刘瑶  /   审核:王晓刚  /   发布:陈伟