您所在的位置: 成果库 国产长距无损智算互联白盒设备及部署方案

国产长距无损智算互联白盒设备及部署方案

发布时间: 2025-10-31

基本信息

合作方式: 技术服务
成果类型: 发明专利,软件著作权,新技术
行业领域:
电子信息技术,新一代信息技术产业,互联网与云计算、大数据服务,人工智能
成果介绍
智算广域长距互联旨在突破传统数据中心的地理边界,将分布在全国范围内、相隔数百甚至上千公里的多个智算中心互联为一个可统一调度、协同运行的“超级计算机”。是“东数西算”等国家战略实施的关键支撑,是实现全国算力资源高效流转与集约化利用的核心路径。广域长距互联面临三大技术挑战:首先,长距离传输导致往返时延(RTT)在百微秒至数十毫秒之间剧烈波动,严重影响拥塞控制的实时性与准确性;其次,为实现95%以上的算力效率,端到端丢包率需低于1e-7量级,而广域随机丢包难以满足高可靠传输需求;此外,RDMA大象流在广域环境中难以实现细粒度业务区分与均衡,导致带宽利用率不均。团队自主研制了业界首款国产化RDMA网关设备及其操作系统,提出一套完整的国产长距无损智算互联方案,解决现有RDMA协议跨广域效率低问题。该方案通过分段控制与快速响应机制,缓解长时延环境下的拥塞控制难题;借助缓存代答与选择性重传技术,降低丢包对传输效率的影响;突破深度负载分担算法,实现RDMA流量的智能均衡调度。该方案已成功应用于超大规模智算集群协同训练、算存拉远、零散算力纳管等场景,为我国算力网络自主技术体系的构建与演进提供有力支撑
成果亮点
本成果聚焦自主可控的RDMA网关技术,取得系列突破: 1)成功研制业界首款全链路国产化RDMA网关设备及操作系统,采用自主NP芯片,单端口支持400G,整机容量达12.8T,支持构建高性能、超宽无损的长距RDMA互联网络,满足AI跨域协同需求。 2)实现网关驱动的轻量化拥塞通告机制FCN,通过近源端网关提前反馈拥塞信息、近目的端网关主动降速,显著降低拥塞感知时延,提升广域链路吞吐效率,保障跨域流量的稳定低时延传输。 3)突破RDMA协议加速与无损传输关键技术,支持协议建链、缓存管理、ACK代答及选择性重传等核心机制,有效应对广域丢包,显著提升长距环境下数据传输的可靠性与带宽利用率。 4)提出基于业务流细粒度识别的深度负载均衡机制,通过五元组与QPID信息哈希计算及SRv6引流策略,实现RDMA大象流在多路径间的智能调度,避免局部拥塞,提升链路整体利用率。 该系列技术为大规模智算任务提供高性能、高可靠的跨域网络支撑。
团队介绍
团队依托紫金山实验室未来网络研究中心,长期深耕可编程网络与白盒化设备关键技术,是我国该领域的重要创新力量。团队负责人汪硕为北京邮电大学副教授,担任紫金山实验室课题负责人,入选中国科协青年人才托举工程,主持国家级及省部级重点科研项目10余项,发表SCI/EI论文30余篇,申请发明专利20余项,参与制定国内外标准20余项。 团队自主研发了全球首个骨干网级可编程交换设备操作系统UniNOS,实现从芯片驱动到管控平面的全栈技术自主可控,支持异构芯片兼容与功能按需加载。同时,成功研制覆盖接入、汇聚、核心全场景的国产白盒交换机系列产品,构建了长三角区域性白盒网络试验平台。 团队成果荣获中国通信学会科学技术奖特等奖、未来网络领先创新科技成果奖等荣誉。相关设备与系统已在工业互联网、算力网络、高质量数据中心等场景实现规模化示范应用,为我国新型网络基础设施建设提供了重要技术支撑。
成果资料