您所在的位置: 成果库 一种大数据的处理方法、系统

一种大数据的处理方法、系统

成果类型:: 发明专利

发布时间: 2022-10-13 10:21:45

科技成果产业化落地方案
方案提交机构:天津市滨海新区| 门松 | 2022-10-30 10:49:58
本发明适用于信息处理技术领域,提供了一种大数据的处理方法、系统,所述方法包括:实时处理系统根据预置的配置文件获取异构数据源的数据结构信息并发送所述异构数据源的数据结构信息至批处理系统,所述批处理系统根据所述异构数据源的数据结构信息建立元数据表;实时处理系统接收源数据流,对所述源数据流进行实时处理并写入实时处理结果至实时处理系统的数据库中,同时发送实时处理结果至批处理系统,以由批处理系统将所述实时处理结果存储在元数据表中;批处理系统接收批处理作业指令,根据所述批处理作业指令执行相应的批处理任务,并展示作业结果。本发明,避免了手工进行数据预处理的操作,减少了数据处理前期的预处理时间成本。
一种大数据的处理方法,其特征在于,所述方法包括:实时处理系统解析预置的配置文件,获取异构数据源的数据结构信息;实时处理系统发送所述异构数据源的数据结构信息至批处理系统,以由所述批处理系统根据所述异构数据源的数据结构信息建立元数据表;实时处理系统接收源数据流,对所述源数据流进行实时处理;实时处理系统写入实时处理结果至实时处理系统的数据库中;实时处理系统发送实时处理结果至批处理系统,以由批处理系统将所述实时处理结果中包括的数据进行分块,存储在元数据表中;当满足指定条件时,实时处理系统推送批处理作业指令至批处理系统;批处理系统接收所述批处理作业指令;批处理系统根据所述批处理作业指令执行相应的批处理任务,并展示作业结果。

批处理和实时处理是目前大数据分析中对于数据处理的两种基本方法。所谓批处 理就是将作业按照它们的性质分组(或分批),然后再成组(或成批)地提交给计算机系统, 由计算机自动完成处理后再输出结果,它的目的是为了提高系统吞吐量和资源的利用率。 现在的批处理系统,如分布式文件系统、并行数据库等都大大地提高了系统的资源利用率 和作业吞吐量,不仅适用于存储在内存中的小数据集,同时还能够扩展到处理庞大的数据 集。所谓实时处理是指实时数据通过接入层源源不断地进入实时处理系统,在数据处理层 根据相应的计算任务进行计算,然后将计算结果写入到归档层,供下一个系统查询或者使 用。现在的实时处理系统如S4、Storm、Puina等都具有低延迟、支持实时不间断处理等特性。 基于这两种方式独立存在的开源系统不胜其数,不同的使用场景使得大数据处理分析逐渐 地向两个独立地方向发展。

发明人:范小朋;沈慧;杨鑫;赵东辉;须成忠 联系方式:0755-86392458 中国科学院深圳先进技术研究院提升了粤港地区及我国先进制造业和现代服务业的自主创新能力,推动我国自主知识产权新工业的建立,成为国际一流的工业研究院。 深圳先进院目前已初步构建了以科研为主的集科研、教育、产业、资本为一体的微型协同创新生态系统,由九个研究平台,国科大深圳先进技术学院,多个特色产业育成基地、多支产业发展基金、多个具有独立法人资质的新型专业科研机构等组成。开展先进技术研究,促进科技发展。信息、电子、通讯技术研究新材料、新能源技术研究高性能计算、自动化、精密机械研究生物医学与医疗仪器研究相关学历教育、博士后培养与学术交流。

在本发明实施例,提供的实时处理系统可以支持多种异构数据源,批处理系统提 供AutoTransform、AutoPartition工具,通过这些自动化工具实现了自动建表、自动分块和 加载数据的机制,可以提高批处理的自动化程度,避免了手工进行数据预处理的操作,减少 了数据处理前期的预处理时间成本,提高了数据批处理的效率。另外,实时处理系统可以对 流式数据实时处理的能力的同时,将实时处理结果实时写入至批处理底层的此扣狀以乩数 据库中,减少数据转存过渡期的开销。

技术合作

值得注意的是,上述系统实施例中,所包括的各个单兀只是按照功能逻辑进行划 分的,但并不局限于上述的划分,只要能够实现相应的功能即可;另外,各功能单元的具体 名称也只是为了便于相互区分,并不用于限制本发明的保护范围。

以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精 神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。