成果介绍
聚焦大数据和AI场景“采存算管用”效率瓶颈问题,自研多模态大数据和AI融合PaaS平台。针对海量多模态数据处理低效问题,通过多模态融合计算,支持多模态检索、数据集加工、GPU和大数据算子协同计算,简化数据处理复杂度;面对跨区域、跨集群、跨引擎的计算调度难题,自研多中心协同技术,实现任务一点发布、协同计算、统一调度体系。针对大数据和AI算力分配粗放、计算效率低等问题,基于容器化和虚拟化,进行算力池化管理,实现资源弹性伸缩、异构算力纳管能力;GPU及网络虚拟化,实现算力、网络资源合理划分。针对训推需要高性能存储问题,以存算分离为核心实现海量多模态数据统一存储。全链路支持RDMA网络,融合KVCache技术提升推理性能。元数据存储,支持百亿小文件存储。针对基础设施故障率髙问题,通过训前检查、断点续训、智能运维等提升训练效率。针对大数据计算效率瓶颈,向量化计算和湖仓一体架构,加快数据转换和计算速度,优化Hudi等组件实现湖仓一体。通过集群优化、存算分离、前置替换、万卡集群上线,成本节约1.2亿元/年;20+省专公司开展底座替换,带来近亿元收入。对外产数支持YK、政务、GA等领域。
成果亮点
多模态融合计算,支持复杂场景下100+算子智能组合与动态优化,具备SIMD指令集在流处理场景加速能力;多中心协同技术,突破大体量数据集场景协同计算性能瓶颈,相比openLookeng性能提升4倍以上。异构资源池化纳管方面,支持6种大数据引擎弹性调度,支持CPU、GPU等算力池化管理与调度能力;多种调度策略、多级队列管理、负载感知重调度、网络拓扑感知能力;支撑全国产万卡集群基模训练,40分钟自动排障并重启训练,提升效率15%。多模态存算分离,基于RDMA多介质分布式缓存技术,IOPS达1200万;支持KV Cache缓存,可提升推理速度40%;元数据加速技术,实现了超Juicefs+TiKV8倍的性能提升。大数据计算,自研向量化计算和湖仓一体技术,计算性能相比Spark 提升50%。自研底座在31省前置集群落地,节省计算资源44.08%,提升效率20%;存储画像降低101PB冷存储及小文件,任务血缘分析提升任务成功率由75%到98%。入选国资央企科技成果创新目录,获得数博会优秀科技成果奖等9项奖项。多中心协同技术经院士评审达到国际领先水平。专利36项软著10项信通院5项测试11项信创。
团队介绍
在中电信人工智能科技(北京)有限公司中,多模态大数据和AI融合PaaS平台由大数据研发中心的PaaS团队负责研发和应用推广,团队人员50+人,成员多来自微软、腾讯、京东、百度、美团等公司,负责大数据AI融合PaaS底座研发和产品化,建设多模态统一存储、多中心协同、统一算力调度、多机多卡训练、全域检索、多级协同的PaaS底座能力,实现容器化、云原生等技术落地。
成果资料