近日,管理学院管理科学与工程专业博士生汪胜的最新研究成果 “基于图的异构GPU集群多维资源批次作业负载均衡调度”(Graph-Based Batch Job Load Balancing Scheduling for Multi-Dimensional Resources in Heterogeneous GPU Clusters)发表在《IEEE计算机汇刊》(IEEE Transactions on Computers)上。上海理工大学为论文第一作者单位,管理学院博士生汪胜为第一作者,陈世平教授为通讯作者。
异构GPU集群由不同型号和规格的GPU设备组成,已成为高性能计算领域的关键支柱,其多元化的资源配置能满足深度学习、科学计算等批次作业的算力需求。然而,在批次作业调度场景中,作业请求的多样性、多维资源的异构性,使得集群负载均衡面临严峻挑战。针对这一难题,论文以提升集群状态全局感知与动态自适应能力为突破口,创新性地提出了一种融合图神经网络(GNN)与双重深度Q网络(DDQN)的多目标优化调度模型。
模型通过融合图神经网络捕捉虚拟机节点间复杂的资源依赖关系,构建集群全局状态表征;针对传统双重深度Q网络目标网络更新滞后的问题,引入负载感知的动态更新机制,显著提升模型对异构资源环境变化的响应速度。最终构建了兼顾负载均衡、作业延迟与调度公平性的多目标优化框架,为异构GPU集群的高效治理提供了系统性解决方案。研究成果不仅丰富了云计算资源调度的理论体系,也为构建下一代高效、自治的数据中心调度系统提供了重要的技术范式与管理启示。
《IEEE计算机汇刊》(IEEE Transactions on Computers)由IEEE计算机协会主办,创刊于1952年,长期致力于刊载计算机系统、硬件、软件及算法设计理论等领域的原创性高水平研究成果,每年全球仅发表200余篇,以严格的遴选标准著称。该刊属于中国计算机学会(CCF)认定的A类期刊,是云计算领域公认的顶级期刊。
GNN-DDQN调度模型架构
GPU、CPU以及内存三维资源负载均衡训练效果
论文链接:https://ieeexplore.ieee.org/document/11298438








