面向异构数据中心的分布式机器学习高效运行方法研究
成果类型:: 新技术
发布时间: 2022-10-09 13:52:33
本项目围绕分布式机器学习的通信效率和任务调度开展研究,旨在提供高效率、高精度、低成本的分布式训练解决方案。具体研究内容包括:1)针对分布式机器学习训练中参数通信频繁、带宽竞争大的问题,研究分层通信拓扑架构和基于阈值的参数同步算法,缓解参数汇聚节点的通信瓶颈,减少通信频率,从整体上提升训练效率。2)针对异构数据中心并行节点计算不同步的问题,研究异构资源可感知的分布式任务调度策略,弥补异构节点的差异,均衡计算,提高收敛精度。本项目有效解决分布式机器学习中通信瓶颈和资源浪费等问题,致力于推动人工智能应用更广泛的落地,降低数据中心成本投入。
(1)基于二维分层环形结构的并行通信算法由于分布式集群的规模不断扩大,基于传统环形通信拓扑架构的方法面临数千个GPU 节点的延迟。解决此问题,本项目提出基于二维分层环形结构的大规模分布式机器并行通信算法,充分利用组内高带宽、组间低带宽的通信特点,结合环形和分层通信算法的优势,减少并行通信的步数,从而降低通信开销。(2)异构资源可感知的任务调度方案由于异构数据中心节点资源的差异性,在中心化以及去中心化的并行通信架构中均存在部分慢速节点影响整体训练效率的情况。解决此问题,本项目提出基于异构资源可感知的任务调度策略,利用轻量级的机器学习技术预测节点间的资源变化,根据资源分配适配任务,从而达到节点间并行训练步调一致,避免迭代倾斜,提高训练精度。
针对异构数据中心并行节点计算不同步的问题,研究异构资源可感知的分布式任务调度策略,弥补异构节点的差异,均衡计算,提高收敛精度。本项目有效解决分布式机器学习中通信瓶颈和资源浪费等问题,致力于推动人工智能应用更广泛的落地,降低数据中心成本投
异构资源可感知的任务调度方案由于异构数据中心节点资源的差异性,在中心化以及去中心化的并行通信架构中均存在部分慢速节点影响整体训练效率的情况。解决此问题,本项目提出基于异构资源可感知的任务调度策略,利用轻量级的机器学习技术预测节点间的资源变化,根据资源分配适配任务,从而达到节点间并行训练步调一致,避免迭代倾斜,提高训练精度。
围绕分布式机器学习的通信效率和任务调度开展研究,旨在提供高效率、高精度、低成本的分布式训练解决方案。具体研究内容包括:1)针对分布式机器学习训练中参数通信频繁、带宽竞争大的问题,研究分层通信拓扑架构和基于阈值的参数同步算法,缓解参数汇聚节点的通信瓶颈,减少通信频率,从整体上提升训练效率。