成果介绍
本项目围绕分布式机器学习的通信效率和任务调度开展研究,旨
在提供高效率、高精度、低成本的分布式训练解决方案。具体研究内
容包括:1)针对分布式机器学习训练中参数通信频繁、带宽竞争大
的问题,研究分层通信拓扑架构和基于阈值的参数同步算法,缓解参
数汇聚节点的通信瓶颈,减少通信频率,从整体上提升训练效率。2)
针对异构数据中心并行节点计算不同步的问题,研究异构资源可感知
的分布式任务调度策略,弥补异构节点的差异,均衡计算,提高收敛
精度。本项目有效解决分布式机器学习中通信瓶颈和资源浪费等问题,
致力于推动人工智能应用更广泛的落地,降低数据中心成本投入。
成果亮点
(1)基于二维分层环形结构的并行通信算法
由于分布式集群的规模不断扩大,基于传统环形通信拓扑架构的
方法面临数千个GPU 节点的延迟。解决此问题,本项目提出基于二
维分层环形结构的大规模分布式机器并行通信算法,充分利用组内高
带宽、组间低带宽的通信特点,结合环形和分层通信算法的优势,减
少并行通信的步数,从而降低通信开销。
(2)异构资源可感知的任务调度方案
由于异构数据中心节点资源的差异性,在中心化以及去中心化的
并行通信架构中均存在部分慢速节点影响整体训练效率的情况。解决
此问题,本项目提出基于异构资源可感知的任务调度策略,利用轻量
级的机器学习技术预测节点间的资源变化,根据资源分配适配任务,
从而达到节点间并行训练步调一致,避免迭代倾斜,提高训练精度。
团队介绍
团队围绕新型网络交换的理论与技术创新展开研究,聚焦新一代通信技术“卡脖子”的关键技术,在新型网络架构、高速互连技术以及超大容量光交换芯片以及面向分布式AI 应用的网络关键技术等前沿技术方向取得一系列成果,涵盖数据中心网络、片上网络、光电融合互连网络、软件定义网络等场景。团队于2019 年获批陕西省青年创新团队。
团队主持国家重点研发计划项目1 项、国家自然基金重点项目1项、陕西省杰出青年科学基金1 项、国家自然基金面上项目2 项、青年项目3 项,国防基础研发计划、国防预研项目以及装备预研教育部联合基金项目多项,以及Intel 中国研究院合作项目、华为公司香农实验室合作项目、华为公司通信技术实验室合作项目、中兴通讯公司合作项目以及中电集团研究所、中科院计算所、江南技术研究所高校合作项目等多项科研项目。团队相关成果在国际权威期刊发表SCI论文150 余篇;申请国家发明专利70 余项,其中40 余项专利已授权;与华为合作成果获多项美国专利授权。
团队负责人:顾华玺,男,教授,博士生导师,西安电子科技大学通信工程学院副院长,陕西省青年创新团队负责人,陕西省自然科学杰出青年基金项目获得者。
成果资料
产业化落地方案