科研学术

分享到微信 ×
打开微信“扫一扫”
即可将网页分享至朋友圈
计算机(网安)学院“网络与分布式系统”实验室在计算机体系结构领域CCF A类会议和期刊连续发表高水平论文
文:石璐 图:石璐 来源:计算机(网安)学院 时间:2026-06-08

近日,计算机(网安)学院网络与分布式系统实验室在高性能计算与GPU体系结构优化方向取得系列研究进展,连续在计算机体系结构领域CCF A类会议和期刊发表多篇高水平论文。相关成果围绕GPU架构上的高性能矩阵分解算法、低秩与秩亏矩阵奇异值分解、单边线性代数库设计等关键问题展开,进一步提升了我校在高性能计算、并行算法和GPU数值软件方向的学术影响力。三篇论文均以电子科技大学为第一单位与通讯单位,计算机(网安)学院张少帅老师为第一通讯作者。

其中,论文《Towards Singular Value Decomposition for Rank-Deficient Matrices: An Efficient and Accurate Algorithm on GPU Architectures》(作者:石璐、徐玮玮、张少帅)被计算机体系结构领域CCF A类会议PPoPP 2026录用。PPoPP是国际并行编程、编译优化和高性能计算领域的重要学术会议,位列中国计算机学会推荐国际学术会议A类。PPoPP 2026于2026年1月31日至2月4日在澳大利亚悉尼举行,该论文已于会议期间在“Matrix and Linear Algebra Algorithms”环节进行报告,报告人为计算机(网安)学院2024级博士生石璐。

奇异值分解是科学计算、数据分析、机器学习和信号处理等领域中的核心矩阵计算任务。然而,对于秩亏矩阵和近似低秩矩阵,传统通用SVD算法计算开销较高,Randomized SVD虽然能够降低部分计算成本,但在GPU架构上仍难以同时兼顾计算效率与数值精度。针对这一问题,该论文提出了面向GPU架构的高效高精度奇异值分解算法HQB-Mixed SVD。该算法基于Householder QB分解,通过引入混合精度计算和GPU友好的并行化设计,在保证数值稳定性和较高精度的同时,显著提升了秩亏矩阵SVD的执行效率。实验结果表明,在Rank=32、512和4096等不同秩设置下,HQB-Mixed SVD均取得了优于Full SVD和Randomized SVD的性能表现。其中,相较于Full SVD最高取得6978.71倍加速,相较于Randomized SVD最高取得9.99倍加速。该成果为大规模低秩和秩亏矩阵分解提供了新的高效实现路径,对科学计算和智能计算中的矩阵计算任务具有重要意义。

论文《OSLA: A High Performance One-Sided Linear Algebra Library on GPU Architectures》(作者:石璐、詹锐艺、邹高远、王翰生、闵革勇、段翰聪、张少帅)发表于国际并行与分布式计算顶级期刊IEEE Transactions on Parallel and Distributed Systems。该期刊是并行与分布式计算领域的重要国际期刊,位列中国计算机学会推荐国际学术期刊A类。该论文面向GPU架构提出了高性能单边线性代数库OSLA,系统优化了LU分解、Cholesky分解和QR分解等基础矩阵分解算法。单边线性代数分解是高性能计算应用中的基础内核,但传统库函数在面对新一代GPU硬件时,常受到访存模式、面板分解、同步开销和算子粒度等因素限制,难以充分发挥硬件算力。

OSLA通过双重分块策略、面板分解优化、矩阵更新重构以及定制化GPU算子设计,提高了关键计算阶段的并行度和计算访存比。实验结果表明,在RTX 4090和H100 PCIe平台上,OSLA在FP32和FP64精度的多类矩阵分解任务中均取得了优于NVIDIA cuSOLVER的性能表现。其中,在RTX 4090平台上,FP32 Cholesky、LU和QR分解最高分别取得1.34倍、约1.47倍和1.44倍加速。在H100 PCIe平台上,FP32 Cholesky和LU分解最高分别取得1.51倍和1.55倍加速,FP32 QR分解最高取得1.22倍加速。在FP64场景下,OSLA在RTX 4090平台上最高取得4.67倍加速,在H100 PCIe平台上最高取得1.48倍加速。目前,OSLA相关代码已在GitHub开源发布,为后续研究复现、算法改进和GPU数值软件开发提供了参考。该成果为GPU平台上基础线性代数库的设计与优化提供了系统性方案。

论文《High Performance Singular Value Decomposition on GPU Architectures》(作者:王翰生、张少帅、詹锐艺、黄雯静、胡润芷、李乔、段翰聪等)发表于ACM Transactions on Architecture and Code Optimization。ACM Transactions on Architecture and Code Optimization是计算机体系结构与代码优化领域的重要国际期刊,位列中国计算机学会推荐国际学术期刊A类。据悉,这是电子科技大学首次在ACM Transactions on Architecture and Code Optimization期刊发表论文,实现了学校在该期刊论文发表上的重要突破。

该论文聚焦GPU架构上的高性能奇异值分解问题,针对传统SVD算法计算复杂度高、GPU利用率不足、关键步骤难以高效并行等问题,提出了面向GPU体系结构特征的算法优化与实现方法。实验结果表明,相较于NVIDIA cuSOLVER,该方法在FP32 SVD中于H100和A100平台上最高分别取得6.1倍和5.0倍加速。在FP64 SVD中于H100和A100平台上最高分别取得4.9倍和4.8倍加速,并在保持计算精度的同时显著缩短了大规模矩阵SVD计算时间,为GPU平台上的高性能SVD求解提供了重要支撑。

奇异值分解、LU分解、Cholesky分解和QR分解是高性能计算、人工智能、科学工程仿真和数据分析中的基础计算模块。随着GPU在科学计算和智能计算中的应用不断深化,面向GPU体系结构设计高效、稳定、可扩展的矩阵分解算法,已成为高性能数值计算领域的重要研究方向。网络与分布式系统实验室张少帅老师团队长期围绕GPU高性能计算、并行数值算法、矩阵分解优化和高性能数值软件开发开展研究。本次系列论文的发表,体现了团队在GPU基础线性代数算法设计、性能建模、核心算子优化和数值稳定性保障等方面的持续积累。

未来,网络与分布式系统实验室将继续面向新一代GPU架构和智能计算应用需求,围绕高性能数值计算库、矩阵分解算法、低秩计算、混合精度计算和体系结构协同优化等方向开展深入研究,推动高性能计算基础软件能力提升,为科学计算和人工智能基础设施建设提供支撑。

网络与分布式系统实验室(NDSL)作为计算机科学与工程学院的核心科研基地之一,实验室团队隶属电子科大“下一代互联网数据处理”国家工程实验室和“智能协同计算技术”国家级重点实验室。实验室长期聚焦于微智能系统、大规模并行计算、分布式系统架构、海量大数据存储(涵盖结构化与非结构化数据)、人工智能及计算机视觉等前沿方向,特别是在异构计算环境下的性能优化、边缘智能协同、实时分布式数据库及嵌入式深度学习等领域取得了具有国际影响力的突破性进展,团队近年来在计算机体系结构顶级会议Super Computing (SC)、并行编程原理与实践会议PPoPP、IEEE Transactions on Mobile Computing、IEEE IoT Journal等CCF A类期刊与会议上发表高水平学术论文80余篇,并持有国家发明专利50余项。


编辑:王晓刚  /   审核:李果  /   发布:陈伟