语种
中文简体 中文繁体 English
营业厅
网上营业厅 掌上营业厅
返回顶部
攻克算力高效度量核心难题,中国电信与上海交通大学云计算联合实验室论文被ICPP 2025接收
2025-06-17 云计算研究院
分享:
   

近日,中国电信与上海交通大学云计算联合实验室在算力平台根技术方向取得重要进展,其研究团队的论文《Joint Prediction and Matching for Computing Resource Exchange Platforms》被并行与分布式处理领域最具历史的顶级会议——ICPP 2025(International Conference on Parallel Processing)正式接收。这一成果聚焦解决算力服务平台中“算力高效度量”与“智能任务匹配”的核心难题,为未来的智能算力调度技术奠定了坚实理论基础。

随着以大模型为代表的新一代人工智能技术的快速发展,计算密集型任务对算力资源的需求持续快速增长。天翼云基于多年技术积累在业界率先推出息壤算力调度平台,为算力互联互通和跨域共享提供了创新解决方案,同时在汇聚第三方资源、实现任务智能调度的过程中,也面临如何准确评估集群性能并高效完成任务匹配等技术挑战。

中国电信云计算研究院与上海交大电子信息与电气工程学院于2024年4月共同成立云计算联合实验室,致力于从实际生产业务中凝练抽象科学问题,发挥双方各自优势共同开展云计算前沿领域的理论和技术研究。本篇论文研究团队由上海交通大学计算机学院、中国电信云计算研究院以及天翼云科技有限公司“息壤”产品线共同组成,团队成员主要包括中国电信首席科学家/云计算研究院院长吴杰教授、黄潇瑶研究员,上海交通大学计算机学院常务副院长吴帆教授、郑臻哲教授、霍达博士,天翼云智算平台事业部副总经理鄢智勇、胡建锋总监、陈浩研究员。

联合研究团队经过深入分析,针对传统“先预测、再匹配”的两阶段架构可能带来的匹配误差,提出了面向任务匹配优化的性能预测方法MFCP(Matching-Focused Cluster Performance Predictor),通过端到端训练机制,实现了性能评估与任务分配过程的一体化优化,显著降低了因预测误差导致的匹配失效。同时,研究团队在模型训练过程中引入梯度近似计算、连续优化松弛等多项优化技术,突破了复杂调度算法经常出现的不可导难题。在多个实验场景中,MFCP方法在任务匹配准确性、资源利用率和调度鲁棒性方面相较传统方法均表现出显著优势,有望进一步提升息壤算力调度平台的运营效能。

图1:预测与匹配的传统分离模式与MFCP的整合模式

ACM ICPP(International Conference on Parallel Processing)是并行与分布式计算领域的国际顶级会议(CCF推荐B类),其收录论文需经过国际权威学者的严格评审,对论文创新性、技术深度及工程可行性要求极高。本论文的成功入选,代表着科研团队在算力服务平台关键问题研究方面获得国际学术界高度认可,也体现出产研协同在复杂系统关键技术攻关中的重要作用。未来,联合实验室将继续聚焦“问题导向、技术突破、落地应用”的科研模式,持续深化在算力管理和资源调度等关键技术方向的研究,攻克更多核心技术难题,实现产学研创新链合作共赢。

扫一扫在手机打开当前页