成果介绍
(一)关键技术
生产经营大数据平台,实现了数据集成、治理、分析一体化处理。
生产经营大数据平台用Java语言开发,原生具有跨平台的特性,已经在海光、兆芯、鲲鹏、飞腾等国产化平台平稳运行。
1、技术架构:
数据集成DBH:实现异构多源(不同地方不同的数据库、API接口等数据)统一界面集成。
数据仓库WSDCK:基于列式存储的MPP架构,实现高速度的数据处理,将自然语处理、HTTP操作、文件操作等复杂功能转换为SQL函数,在数据库中完成一切数据加工治理工作。
数据治理ODG:实现可视化、无编译的数据治理任务设计;实现任务与计划一体,达到数据治理“测试即在线”的效果。
数据分析ABI:集成丰富的经营、运营、生产分析模型,达成数据接入即用的效果。
2、先进性:
MPP并行计算,充分利用CPU多核心特性,实现数据治理、计算的加速,从而实现亿级数据秒出结果。
将自然语处理、HTTP操作、文件操作等复杂功能转换为SQL函数,在数据仓库中(通过SQL)完成一切数据加工治理工作,大大降低数据治理的技术门槛。
基于JDBC标准,实现了用同样的查询语句操作不同数据库,从而解决生产经营大数据中,需要从多系统中抽取数据的难题。
基于“去ETL”的理念,做到了“一条SQL搞定所有数据集成、一条SQL搞定所有数据加工、一条SQL搞定所有数据分析、一条SQL亦可搞定OT数据”,数据治理看得见摸得着,让高效的数据处理支撑上层智能化的决策分析。同时,产品还采用了安全可靠的技术,以确保数据的安全性和隐私保护。
成果亮点
统一界面实现数据源集成。不管是设备数据、数据库数据、接口数据、手工数据都可以通过统一的SQL界面进行集成。
可视化无编译的数据治理。所有的数据处理逻辑都通过SQL完成,无需其它编程语言和工具,无需编译。
自主分析。领导驾驶窗、报表工具、大屏系统等通过JDBC直接引用数据集。拖拉拽和点选即可完成复杂的数据分析。
分布式并行计算。面向分布式集群设计,多节点并行计算,面向多核CPU设计,单节点多核心并行(传统数据处理软件往往是单核心运行)。
团队介绍
1) 王益明:1986年7月-1992年9月:杭州大学历史系教师;1995年7月至今:北京大学信息管理系教师,北京大学信息化与信息管理研究中心主任,博士生导师。研究方向为信息行为研究、信息社会评测、数据统计和分析等。
2) 韩圣龙:北京大学信息化与信息管理研究中心副主任,北京大学硕士研究生导师。现任泰国朱拉隆功大学孔子学院中方院长。研究方向为信息资源管理、多媒体信息检索、信息系统、社群信息学等。多次获北京大学优秀班主任奖,2006年9月获北京大学第十届人文社会科学研究优秀成果奖二等奖。
专家点评
成果资料
路演文件
高栋栋
中国航天科技集团502所—高工