基于Storm的可变逻辑的通用数据处理系统及方法
成果类型:: 发明专利
发布时间: 2022-10-13 10:31:40
随着传统互联网的高速发展和移动互联网的崛起引领大数据时代的到来,流数据(streaming data)的应用模型广泛出现在众多领域,如金融应用、网络监视、通信数据管理、Web应用及传感器网络数据处理等。这类应用的特征是:数据不宜使用持久稳定关系建模,而适宜用瞬态数据流建模。近年来,业界也出现不少实时流数据计算系统,包括Yahoo!S4、Twitter Storm、IBM StreamBase、以及学术界开源的Borealis等。其中Storm因为其规整的编程模型、多语言支持、简单的水平扩展和可靠、高效的流处理得到广泛应用,国内主要的互联网企业,如阿里、百度和腾讯等,都在其内部系统中广泛部署基于Storm的流处理系统。
本发明的一种基于Storm的可变逻辑的通用数据处理系统,包括:异构数据源标准化服务器,用于对异构数据进行多维度标准化处理,以实现约束和逻辑处理的封装;流式拓扑结构,由多个不同的数据源(GSpout)、处理单元(GBolts)、以及约束和逻辑系统组成,并通过数据流连接起来,其中所述约束和逻辑系统中的约束和处理逻辑封装在逻辑配置文件中,用于更新及存储所述约束和处理的逻辑关系;Zookeeper,用于开源管理所述流式拓扑结构;监听模块,连接于所述逻辑配置文件与所述Zookeeper之间,并将逻辑配置文件中的更新动态发送给所述Zookeeper进行同步;Web端界面,连接于所述Zookeeper与所述逻辑配置文件,用于对所述Zooke印er中的信息进行监控,以及通过逻辑配置文件对所述约束和逻辑系统中的逻辑关系进行更新。
技术合作
对于出租车每笔交易信息,我们有需要涉及这笔交易的出租车在交易期间行驶的位置信息,这实则是地理信息流和交易数据流的根据车牌号和时间的Join,我们在逻辑配置文件定义Join逻辑,其中Join的限制条件为车牌号的等值连接以及运行时间的按照一定时间范围的Join。在运行过程中,我们修改为按照交易ID进行等值Join,只需修改逻辑配置文件中字段的id,就可以完成逻辑转变。
需要说明的是:该模型和框架具有通用性,不仅仅基于Twitter Storm,还可以适用于其他流式工具,如Yahoo! S4,Boreal is等。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。