近日,,中国jackpot官网与上海交通大学云推算结合尝试室在算力平台根技术方向获得重要进展,,其钻研团队的论文《Joint Prediction and Matching for Computing Resource Exchange Platforms》被并行与散布式处置领域最具汗青的顶级会议——ICPP 2025(International Conference on Parallel Processing)正式接管。这一成就聚焦解决算力服务平台中“算力高效怀抱”与“智能工作匹配”的主题难题,,为将来的智能算力调度技术奠定了坚实理论基础。
随着以大模型为代表的新一代人为智能技术的急剧发展,,推算密集型工作对算力资源的需要持续急剧增长。天翼云基于多年技术堆集在业界率先推上进壤算力调度平台,,为算力互联互通和跨域共享提供了创新解决规划,,同时在汇聚第三方资源、、、实现工作智能调度的过程中,,也面对若何正确评估集群机能并高效实现工作匹配等技术挑战。
中国jackpot官网云推算钻研院与上海交大电子信息与电气工程学院于2024年4月共同成立云推算结合尝试室,,致力于从现实出产业务中凝练抽象科学问题,,阐扬双方各自优势共同发展云推算前沿领域的理论和技术钻研。本篇论文钻研团队由上海交通大学推算机学院、、、中国jackpot官网云推算钻研院以及天翼云科技有限公司“息壤”产品线共同组成,,团队成员重要蕴含中国jackpot官网首席科学家/云推算钻研院院长吴杰教授、、、黄潇瑶钻研员,,上海交通大学推算机学院常务副院长吴帆教授、、、郑臻哲教授、、、霍达博士,,天翼云智算平台事业部副总经理鄢智勇、、、胡建锋总监、、、陈浩钻研员。
结合钻研团队经过深刻分析,,针对传统“先预测、、、再匹配”的两阶段架构可能带来的匹配误差,,提出了面向工作匹配优化的机能预测步骤MFCP(Matching-Focused Cluster Performance Predictor),,通过端到端训练机制,,实现了机能评估与工作分配过程的一体化优化,,显著降低了因预测误差导致的匹配失效。同时,,钻研团队在模型训练过程中引入梯度近似推算、、、陆续优化松弛等多项优化技术,,突破了复杂调度算法时时出现的不成导难题。在多个尝试场景中,,MFCP步骤在职务匹配正确性、、、资源利用率和调度鲁棒性方面相较传统步骤均阐发出显著优势,,有望进一步提升息壤算力调度平台的运营效力。
图1:::预测与匹配的传统分离模式与MFCP的整合模式
ACM ICPP(International Conference on Parallel Processing)是并行与散布式推算领域的国际顶级会议(CCF推荐B类),,其收录论文需经过国际权威学者的严格评审,,对论文创新性、、、技术深度及工程可行性要求极高。本论文的成功入选,,代表着科研团队在算力服务平台关键问题钻研方面获得国际学术界高度认可,,也体现出产研协同在复杂系统关键技术攻关中的重要作用。将来,,结合尝试室将持续聚焦“问题导向、、、技术突破、、、落地利用”的科研模式,,持续深入在算力治理和资源调度等关键技术方向的钻研,,攻克更多主题技术难题,,实现产学研创新链合作共赢。