您所在的位置: 成果库 国产化超宽无损智算中心网络白盒设备及部署方案

国产化超宽无损智算中心网络白盒设备及部署方案

发布时间: 2025-10-31

基本信息

合作方式: 技术服务
成果类型: 发明专利,软件著作权,新技术
行业领域:
电子信息技术,新一代信息技术产业,互联网与云计算、大数据服务
成果介绍
智算中心网络是国家人工智能战略与产业数字化转型的核心基础设施,广泛应用于大规模AI训练、超大规模集群计算和高性能数据分析等前沿场景。在千卡乃至万卡规模的GPU集群上进行大语言模型训练时,海量的参数同步与梯度交换对网络带宽、时延、传输效率及可维护性提出了极高要求,传统智算网络及设备难以满足此类高性能计算场景的严苛需求。团队成功研制自主可控的高性能国产白盒交换机与CNOS-DCN数据中心网络控制器,构建了具备超高带宽、零丢包和微秒级超低时延的智算网络平台。通过引入RoCEv2等先进无损网络技术,并结合自研的关键负载均衡算法,实现了对智算业务的高效可靠承载。同时,为解决传统智算网络运维难的问题,突破了主机内Scale-Up网络与主机间Scale-Out RDMA网络的智能故障检测技术,研制面向大规模异构算力集群的智能运维系统,支持英伟达、华为等多元硬件,大幅提升了网络可视化与自动化运维水平,为万卡级超大规模智算中心的稳定运行提供了坚实支撑。不仅实现了高端智算网络设备与系统的国产化突破,更形成了可规模化部署、可智能运维的全栈解决方案,对我国人工智能产业自主创新与与算力基础设施能力提升具有意义
成果亮点
本成果围绕高性能计算网络核心技术取得以下突破: 1)成功研制全国产化超宽无损白盒交换机,基于盛科芯片实现单端口400G、整机容量25.6T的转发能力,支持CLOS架构组网,实现从芯片、光模块到操作系统的全链路自主可控。 2)发布业界首个智算中心开源负载均衡方案TE-LB,通过实时监控业务流量并动态生成调度策略,在千卡/万卡GPU集群中保障节点高效通信,显著缩短大模型训练周期。 3)实现业界首个全自适应路由以太网协议FARE,通过动态感知链路状态结合逐包负载均衡算法,实现RDMA业务最优路径转发,将网络利用率提升至95%以上。 4)自主研发大规模异构算力集群智能运维系统,通过Hostping技术精准定位路径瓶颈,结合R-Pingmesh构建网络SLA监测体系,实现故障快速诊断与可视化输出。 该系列技术构建了自主可控的高性能网络基础设施,为AI算力集群提供高效可靠的网络支撑。
团队介绍
团队依托紫金山实验室未来网络研究中心,长期深耕可编程网络与白盒化设备关键技术,是我国该领域的重要创新力量。团队负责人汪硕为北京邮电大学副教授,担任紫金山实验室课题负责人,入选中国科协青年人才托举工程,主持国家级及省部级重点科研项目10余项,发表SCI/EI论文30余篇,申请发明专利20余项,参与制定国内外标准20余项。 团队自主研发了全球首个骨干网级可编程交换设备操作系统UniNOS,实现从芯片驱动到管控平面的全栈技术自主可控,支持异构芯片兼容与功能按需加载。同时,成功研制覆盖接入、汇聚、核心全场景的国产白盒交换机系列产品,构建了长三角区域性白盒网络试验平台。 团队成果荣获中国通信学会科学技术奖特等奖、未来网络领先创新科技成果奖等荣誉。相关设备与系统已在工业互联网、算力网络、高质量数据中心等场景实现规模化示范应用,为我国新型网络基础设施建设提供了重要技术支撑。
成果资料