近日,西北农林科技大学信息工程学院智能计算与农业信息系统团队刘斌教授在国际计算机系统结构领域与研究小组一起担任权威期刊《IEEE Transactions on Computers》(TC,CCF 研究论文发表在A类期刊上。
本文由西北农林科技大学、纽约州立大学和云南大学联合发表。作为第一作者,西北农林科技大学信息工程学院教授刘斌、纪泽宇先生、云南大学副教授何臻力、纽约州立大学教授李克勤(欧洲科学院院士、分布式计算领域公认的顶尖学者和国家特聘教授)作为重要合作者,使研究成果更具国际影响力。
针对当前大规模深度卷积神经网络的论文(DCNN)大型模型训练中的负荷不平衡和高通信费用问题,提出了一种创新的混合并行训练方法——GroPipe。该方法首次将装配线模型并行与数据并行集成,构建了“组内装配线+组间数据并行”的分层培训架构,并通过自动模型划分算法(AMPA)实现负载计算的动态均衡调度,大大提高GPU资源的利用率。
为了进一步降低数据并行同步通信的成本,GroPipe在反向通信阶段引入了“基于分组的延迟异步通信”策略,有效降低了全球通信带宽的压力,显著提高了训练吞吐量。实验表明,与主流方案相比,GroPipe方法在ImageNet数据集中(如DP)、Torchgpipe、DAPPLE和DeepSpeed)ResNet系列的平均加速率为42.2%,VGG系列的平均加速率为79.2%;在BERT-base模型训练中,性能提升最高可达51%。这一结果显示了GroPipe在图像和文本领域的广泛应用。
这一成就的出版,标志着西北农林科技大学在计算机系统结构领域的a级国际顶级学术期刊。——《IEEE Transactions on Computers》(创刊于1952年)取得历史性突破。
赞一个