科研学术

分享到微信 ×
打开微信“扫一扫”
即可将网页分享至朋友圈
计算机(网安)学院叶茂、纪禄平教授团队在国际著名学术期刊和会议上连续发表研究成果
文:计算机视听觉实验室 图:计算机视听觉实验室 来源:计算机学院 时间:2024-01-25 7207

  近期,计算机科学与工程学院(网络空间安全学院)“计算机视听觉”实验室叶茂教授和纪禄平教授指导的博士生先后在本学科领域顶级期刊TPAMI、TMI、TBC、TGRS和顶级会议ICCV上,围绕智能视频压缩、域适应迁移学习、病理图像分析、弱小目标检测等发表了系列研究成果。

  主题1:智能视频压缩

  ◆Compressed-SDR to HDR Video Reconstruction, IEEE Trans. on Pattern Analysis and Machine Intelligence (TPAMI,一区TOP+CCF-A), Dec. 2023.作者:王虎(博士生)、叶茂(导师+通信)、朱霞天(萨里大学)、李帅(山东大学)、李雪(昆士兰大学)、朱策。

  为了在新一代的HDR设备上提供更好的观影体验,需要将压缩的SDR视频转换为HDR格式(即Compressed-SDR to HDR)。此项技术难题面临的最大挑战是如何智能化地有效解决多对多映射问题。文章提出一种基于成像知识启发的并行网络(KPNet)来解决压缩SDR到HDR视频重建问题。KPNet的关键设计是将压缩视频的先验知识与HDR成像知识以公式化的方式进行定义,并指导构建知识启发块(KIB)。此外,通过一个信息融合模块(IFM)将构建的知识启发块连接起来以减少鬼影。该工作首次探索了压缩SDR到HDR视频重建问题,同时为该问题构建了首个评估体系,对促进HDR问题的研究具有重要意义。

1.1TPAMI.png

  全文链接:https://ieeexplore.ieee.org/document/10373884

  ◆End-To-End Compression for Surveillance Video with Unsupervised Foreground-Background Separation,IEEE Trans. on Broadcasting (TBC,一区),Dec. 2023.作者:赵豫(博士生)、罗登晏、王付春、高寒、叶茂(导师+通信)、朱策。 

  随着监控类视频数据的指数级增长,对高效的视频编码需求非常迫切。文章提出了一种端到端的无监督监控视频压缩框架UVCNet,实验证明其在性能上相较于现有方法有更好的优越性。在监控数据集上,UVCNet相较于H.265能平均提高2.11 dB的峰值信噪比(PSNR)。这意味着使用UVCNet进行视频压缩可以获得更高质量的视频输出,能提升用户体验和视频分析的准确性。本成果提供了一种更加高效和智能的端到端解决方案,能够有效提高视频数据的传输和存储效率,在一定程度上能推动监控视频压缩领域的技术发展,有望在基于视频压缩技术的监控系统中得到广泛应用。

1.2TBC.png

  全文链接:https://ieeexplore.ieee.org/document/10143661

        主题2:域适应迁移学习

  ◆Homeomorphism Alignment for Unsupervised Domain Adaptation, Proceedings of the IEEE/CVF International Conference on Computer Vision (ICCV,CCF-A), Paris, France, Oct. 2023.作者:周李华(博士生)、叶茂(导师+通信)、朱霞天(萨里大学)、肖思颖、范旭乾、Ferrante Neri(萨里大学)。

  文章提出了一种新颖的无监督领域自适应方法,称为同胚映射对齐(HMA)。与传统方法不同,HMA采用了在两个独立空间中源域特征空间以及目标域特征空间分别执行分布对齐的策略。如图所示,HMA简单来说可以分为三步,(a)首先通过构建基于可逆神经网络的同胚映射,(b)然后利用分布对齐的策略来连接两个特征空间,(c)最后利用同胚映射的性质从新训练主干网络。这项研究首次从拓扑学的角度考虑了领域自适应问题,并证明了同胚映射可以保持数据的拓扑结构。提出的HMA方法在分布对齐方面具有独特设计,相对于先前的替代方法表现出卓越的性能。通过广泛的实验证明了其在实际任务中的优越性,这为领域自适应研究提供了新的思路和方法。

2.ICCV.png

  全文链接: https://openaccess.thecvf.com/content/ICCV2023/html/Zhou_Homeomorphism_Alignment_for_Unsupervised_Domain_Adaptation_ICCV_2023_paper.html

  主题3:病理图像分析

  ◆Pseudo-Bag Mixup Augmentation for Multiple Instance Learning-Based Whole Slide Image Classification, IEEE Trans. On Medical Imaging (TMI,一区TOP), Jan. 2024.作者:刘沛(博士生)、纪禄平(导师+通信)、张欣宇、叶丰(四川大学华西医院)。

  组织病理图像(WSI)具有千兆像素级的超高分辨率图像。多示例学习(MIL)是构建WSI分类模型的基本方法之一。为了缓解现有MIL网络训练不充分且低效的问题,这项研究提出一种即插即用的伪包混合数据增扩方案。此方案结合MIL的特点,通过设计基于伪包的尺寸对齐和语义对齐方法,从而实现病理图像的数据混合增扩。实验表明,该方案不仅能够增加MIL网络在不同场景下的泛化能力,还能够显著提升它们对图像遮挡及标签噪声的鲁棒性。此成果有望为MIL技术提供一种更加优越的数据增扩策略,进一步提高病理诊断模型的泛化性和鲁棒性,从而推动数字病理智能化诊断在临床的落地应用。

3.1TMI.png

  全文链接:https://doi.org/10.1109/TMI.2024.3351213

  ◆AdvMIL: Adversarial multiple instance learning for the survival analysis on whole-slide images,Medical Image Analysis (MedIA,一区TOP), Jan. 2024.作者:刘沛(博士生)、纪禄平(导师+通信)、叶丰(四川大学华西医院)、付波。

  组织病理图像(WSI)的生存分析是评估肿瘤患者预后的重要手段之一。为了提供更加精准的预后评估,这项研究首次将生成对抗网络引入WSI生存分析,并提出一种新颖的对抗多示例学习框架(AdvMIL)。与常规的WSI生存分析范式不同,AdvMIL基于生成对抗网络,通过对生成器做隐式采样来估计患者的生存时间,还进一步通过判别器规范生存分析模型的训练。这种新的对抗多示例生存分析范式意味着两个关键点。第一是患者生存时间可建模为一个隐式分布,从而为生存分析的不确定性估计提供可能。第二是无标签WSI能够在模型训练中被引入,从而实现半监督的预后建模。这可为病理图像预后分析相关技术研究提供两个新的方向及解决思路。

3.2MedIA.png

  全文链接:https://doi.org/10.1016/j.media.2023.103020

  主题4:弱小目标检测

  ◆SSTNet: Sliced spatio-temporal network with cross-slice ConvLSTM for moving infrared dim-small target detection, IEEE Trans. on Geoscience and Remote Sensing (TGRS,一区), Jan. 2024.作者:陈圣嘉(博士生)、纪禄平(导师+通信)、祝杰文、叶茂、姚晓永(井冈山大学)。

  红外弱小目标检测作为目标检测的一个重要分支,近几十年来一直受到人们的关注。它的挑战主要在于目标尺寸小,与背景图像的对比度弱。目前的研究方案主要集中于改进单时间切片范围的时空域特征表示。更多跨时间片的运动,即过去和未来,很少被考虑来增强目标特征。为了利用跨时间切片的运动上下文,提出了一种切片时空网络(SSTNet)。在方案中,设计了新的跨片ConvLSTM节点,从片内和片间捕获时空运动特征。此外,为了改善的目标运动特征学习,采用了新的运动协调损失项。在此基础上,提出了一个运动耦合颈部来帮助特征提取器捕获和利用多帧的运动特征。实验验证了SSTNet在运动红外弱小目标检测中的优越性。本研究也将有助于推动红外弱小目标检测领域发展,扩宽其在现实世界的应用场景。

4.TGRS.png

  全文链接:https://ieeexplore.ieee.org/document/10381806

  计算机视听觉实验室由计算机科学与工程学院(网络空间安全学院)叶茂教授发起成立于2008年。实验室现有正高级专职研究人员3名,硕士博士学生50余名。近几年来,实验室主要专注于迁移学习、智能视频压缩、目标检测、病理图像分析和多媒体技术等领域的技术研究和应用开发。近3年来,实验室主持了国家重点研发计划、国家自然科学基金项目多项,每年发表一区、CCF A论文近20篇,申请专利10余件。近2年来,实验室培养的硕博学生有5人获得四川省优秀毕业生称号,5人获得校优秀硕士论文等荣誉。

编辑:李果  / 审核:李果  / 发布:李果

"