多模态大数据和AI融合PaaS平台

聚焦大数据和AI场景“采存算管用”效率瓶颈问题，自研多模态大数据和AI融合PaaS平台。针对海量多模态数据处理低效问题，通过多模态融合计算，支持多模态检索、数据集加工、GPU和大数据算子协同计算，简化数据处理复杂度；面对跨区域、跨集群、跨引擎的计算调度难题，自研多中心协同技术，实现任务一点发布、协同计算、统一调度体系。针对大数据和AI算力分配粗放、计算效率低等问题，基于容器化和虚拟化，进行算力池化管理，实现资源弹性伸缩、异构算力纳管能力；GPU及网络虚拟化，实现算力、网络资源合理划分。针对训推需要高性能存储问题，以存算分离为核心实现海量多模态数据统一存储。全链路支持RDMA网络，融合KVCache技术提升推理性能。元数据存储，支持百亿小文件存储。针对基础设施故障率髙问题，通过训前检查、断点续训、智能运维等提升训练效率。针对大数据计算效率瓶颈，向量化计算和湖仓一体架构，加快数据转换和计算速度，优化Hudi等组件实现湖仓一体。通过集群优化、存算分离、前置替换、万卡集群上线，成本节约1.2亿元/年；20+省专公司开展底座替换，带来近亿元收入。对外产数支持YK、政务、GA等领域。

多模态融合计算，支持复杂场景下100+算子智能组合与动态优化，具备SIMD指令集在流处理场景加速能力；多中心协同技术，突破大体量数据集场景协同计算性能瓶颈，相比openLookeng性能提升4倍以上。异构资源池化纳管方面，支持6种大数据引擎弹性调度，支持CPU、GPU等算力池化管理与调度能力；多种调度策略、多级队列管理、负载感知重调度、网络拓扑感知能力；支撑全国产万卡集群基模训练，40分钟自动排障并重启训练，提升效率15%。多模态存算分离，基于RDMA多介质分布式缓存技术，IOPS达1200万；支持KV Cache缓存，可提升推理速度40%；元数据加速技术，实现了超Juicefs+TiKV8倍的性能提升。大数据计算，自研向量化计算和湖仓一体技术，计算性能相比Spark 提升50%。自研底座在31省前置集群落地，节省计算资源44.08%，提升效率20%；存储画像降低101PB冷存储及小文件，任务血缘分析提升任务成功率由75%到98%。入选国资央企科技成果创新目录，获得数博会优秀科技成果奖等9项奖项。多中心协同技术经院士评审达到国际领先水平。专利36项软著10项信通院5项测试11项信创。

在中电信人工智能科技（北京）有限公司中，多模态大数据和AI融合PaaS平台由大数据研发中心的PaaS团队负责研发和应用推广，团队人员50+人，成员多来自微软、腾讯、京东、百度、美团等公司，负责大数据AI融合PaaS底座研发和产品化，建设多模态统一存储、多中心协同、统一算力调度、多机多卡训练、全域检索、多级协同的PaaS底座能力，实现容器化、云原生等技术落地。

科创中国

科创中国

友情链接

海外专利信息资源系统

省级中心站