科研学术

分享到微信 ×
打开微信“扫一扫”
即可将网页分享至朋友圈
计算机(网安)学院数据智能团队(DIG)在全球计算机视觉顶会CVPR 2026发表多篇论文
文:数据智能团队(DIG) 图:数据智能团队(DIG) 来源:计算机(网安)学院 时间:2026-03-10

近日,2026 IEEE国际计算机视觉与模式识别会议(IEEE Conference on Computer Vision and Pattern Recognition,简称CVPR)官方公布论文收录结果,本届CVPR收到了创新高的16092份论文,最终录用4090篇,接收率为25.42%。计算机(网安)学院数据智能团队(DIG)此次共发表11篇论文,其中本科生为第一作者发表2篇(2023级本科生吴皓岩、2022级本科生李祺帆)。

图1 论文《Dynamic Logits Adjustment and Exploration for Test-Time Adaptation in Vision Language Models》内容示意图

2023级本科生吴皓岩以共同第一作者撰写的论文《Dynamic Logits Adjustment and Exploration for Test-Time Adaptation in Vision Language Models》(通讯作者:李文教授)针对视觉语言模型在迁移至下游任务过程中,由于不同类别识别能力不均衡而引发的优化坍塌问题,提出了“动态调整与探索框架”。实验结果表明,该框架在兼顾计算效率的同时,显著提升了模型的泛化能力,为视觉语言模型在下游任务中的高效迁移与稳定优化提供了新的思路。

图2 论文《Taming Sampling Perturbations with Variance Expansion Loss for Latent Diffusion Models》内容示意图

2022级本科生李祺帆以第一作者撰写的论文《Taming Sampling Perturbations with Variance Expansion Loss for Latent Diffusion Models》(通讯作者:顾舒航教授)观察到一种反直觉现象:在潜扩散模型中,高重建精度与低扩散损失的模型有时反而生成低质量结果。通过2-D实验分析,发现常用的β-VAE倾向于学习紧凑的潜流形,使模型易受采样扰动影响,导致生成退化。因此该论文引入方差膨胀损失来对抗由重建目标引起的方差坍缩,在保持重建保真度的同时构建对采样扰动具有高度鲁棒性的潜空间,从而提升生成结果的质量。

图3 论文《Guiding a Diffusion Transformer with the Internal Dynamics of Itself》内容示意图

2025级博士生周星宇以第一作者撰写的论文《Guiding a Diffusion Transformer with the Internal Dynamics of Itself》(通讯作者:顾舒航教授)提出仅在扩散Transformer网络结构的浅层额外施加一个监督信号,利用深层网络输出和浅层网络输出进行一定程度外插,即可在推理阶段大幅提高生成结果。实验结果表明该方法在ImageNet数据集上取得了当前图像生成的最先进的结果。

图4 论文《Just-in-Time: Training-Free Spatial Acceleration for Diffusion Transformers》内容示意图

2025级博士生孙文灏以第一作者撰写的论文《Just-in-Time: Training-Free Spatial Acceleration for Diffusion Transformers》(通讯作者:刘昭强教授)指出扩散模型加速常忽略空间冗余。该研究提出免调优的JiT框架,通过构建空间近似生成ODE(SAG-ODE)利用稀疏锚点计算驱动全局潜状态演化,并结合确定性微流(DMF)保障新token激活时的分布一致性与无缝过渡。实验结果显示该方法在FLUX.1-dev、HunyuanVideo-1.5模型上实现了高达7倍的近无损加速。

图5 论文《Outlier-Robust Diffusion Solvers for Inverse Problems》内容示意图

2025级博士生郑洋以第一作者撰写的论文《Outlier-Robust Diffusion Solvers for Inverse Problems》(通讯作者:刘昭强教授)针对扩散模型求解逆问题时易受异常值干扰的问题,提出了鲁棒求解框架。该研究首先通过显式噪声估计修正观测数据,并基于Huber损失构建优化目标来抑制异常值,同时采用共轭梯度法优化求解策略,避免了繁琐的学习率调参。大量实验验证了该方法对异常值的显著鲁棒性以及相比现有方法的性能优势。

图6 论文《Deformation-based In-Context Learning for Point Cloud Understanding》内容示意图

2025级硕士生林程星以第一作者撰写的论文《Deformation-based In-Context Learning for Point Cloud Understanding》(通讯作者:李文教授)发现现有点云上下文学习方法缺乏显式空间结构建模且训练与推理目标不一致的问题,因此提出基于形变的点云上下文学习方法——DeformPIC。实验结果表明,该方法通过提示样例引导查询点云逐步形变到目标形态,实现几何变换信息的提取与迁移,在ShapeNet In-Context数据集和跨域泛化基准上取得了较好的效果。

图7 论文《IDESplat: Iterative Depth Probability Estimation for Generalizable 3D Gaussian Splatting》内容示意图

2024级博士生龙伟以第一作者撰写的论文《IDESplat:Iterative Depth Probability Estimation for Generalizable 3D Gaussian Splatting》(通讯作者:顾舒航教授)发现现有的可泛化三维高斯溅射方法在深度估计上存在的单次特征变换不稳定问题,而通过引入深度概率增强单元(DPBU)以乘法方式整合级联特征变换生成的极线注意力图,并构建迭代深度估计过程,即可在场景重建阶段逐步细化深度图,大幅提高高斯均值预测的准确度。

图8 论文《The Devil is in Attention Sharing: Improving Complex Non-rigid Image Editing Faithfulness via Attention Synergy》内容示意图

2024级博士生陈卓以共同第一作者撰写的论文《The Devil is in Attention Sharing: Improving Complex Non-rigid Image Editing Faithfulness via Attention Synergy》(通讯作者:李文教授)发现了现有图像编辑方法在处理复杂非刚性编辑时存在“注意力坍塌”问题,导致过度编辑或编辑不足,因此提出协同位置与语义信息的注意力协同(SynPS)方法。实验结果表明,该方法通过引入量化编辑幅度的度量标准,设计注意力协同流水线动态调节特征影响,使模型有效平衡了语义修改与细节保真,在基准测试中取得了出色的图像编辑性能与保真度。

图9 论文《Differentiable Vector Quantization for Rate-Distortion Optimization of Generative Image Compression》内容示意图

2024级硕士生江世银以第一作者撰写的论文《Differentiable Vector Quantization for Rate-Distortion Optimization of Generative Image Compression》(通讯作者:顾舒航教授)指出,传统矢量量化(VQ)因离散索引不可导导致梯度断裂,阻碍了联合率失真优化。为此提出RDVQ框架:引入可微的码本软松弛策略恢复梯度流,结合自回归熵模型,实现端到端优化与零样本可变速率控制。实验表明,该极轻量架构在Kodak等数据集的感知压缩质量均达SOTA水平。

图10 论文《Task-Aware Image Signal Processor for Advanced Visual Perception》内容示意图

2024级硕士生陈恺以第一作者撰写的论文《Task-Aware Image Signal Processor for Advanced Visual Perception》(通讯作者:顾舒航教授)针对现有视觉感知方法在处理RAW数据时计算开销大、表示能力受限的问题,提出任务感知图像信号处理器(TA-ISP)框架,通过轻量级多尺度调制算子在全局、区域和像素层面对RAW图像进行定制化处理。实验表明,该方法在提升下游任务精度的同时显著降低计算开销。

图11 论文《iSplat: Iterative Learning for Fine-Grained Gaussian Splatting》内容示意图

2022级博士生吴海峰以第一作者撰写的论文《iSplat: Iterative Learning for Fine-Grained Gaussian Splatting》(通讯作者:李文教授)针对现有3D Gaussian Splatting方法依赖单次前向回归、难以修正初始预测误差的问题展开研究。提出了迭代式前馈3D Gaussian Splatting方法iSplat,将三维重建过程建模为迭代细化过程,并引入基于GRU的循环优化器,在多轮迭代中协同更新几何与外观表示,从而逐步修正误差、提升重建质量。实验结果表明,该方法能够实现更加稳健、更加精确的三维重建。


相关链接:

计算机(网安)学院数据智能团队(Data Intelligence Group)主要研究领域为机器学习和计算机视觉,具体包括迁移学习、深度学习、弱监督学习、强化学习及在图像视频分析、目标检测、语义分割、眼底影像分析等计算机视觉任务中的应用。研究团队现有正高级教授5人,副教授1人,助理研究员1人,研究生70余人;科研环境近400平米,设独立机房,配置高性能服务器,拥有GPU显卡200余张。团队近年研究屡获成绩,发表中科院JCR一区或CCF A类期刊会议论文100余篇;荣获四川省科学技术进步奖一等奖,吴文俊人工智能科学技术奖-自然科学奖一等奖等;在国内外多项计算机视觉和人工智能大赛中名列前茅,获2021年CVPR NTIRE移动端视频超分辨比赛全球冠军、2021年火箭军主办的“智箭•火眼”人工智能挑战赛****科目全国冠军、2022年“华为杯”四川省大学生嵌入式设计竞赛全省一等奖等。

编辑:刘瑶  /   审核:李果  /   发布:陈伟

热点新闻