您所在的位置: 成果库 基于膨胀系数的K分组正则表达式分组方法和系统

基于膨胀系数的K分组正则表达式分组方法和系统

成果类型:: 发明专利

发布时间: 2022-11-12 16:47:31

科技成果产业化落地方案
方案提交机构:“科创中国”科技创新全链条服务生态系统专业科技服务团| bayuegua123 | 2022-11-18 09:34:24

随着计算机网络的迅速发展和广泛应用,互联网安全问题不可避免地出现在人们面前。多样化的网络流量和服务应用以及各种入侵手段、攻击方式层出不穷。因此,深度包检测被广泛应用在各类网络服务中,对网络数据包进行内容分析,将网络数据包内携带的内容与事先设置的表征病毒特征的模式集进行特征匹配,从而确定数据包中是否携带非法内容。基于DFA的正则表达式匹配方法由于其对实时高速到达的待检测数据流和大规模模式匹配有较好的匹配效果的特点,得到了广泛的应用。本项目属于一种基于膨胀系数的K分组正则表达式分组方法和系统,包括:获取包含多个正则表达式的正则表达式集合,创建K个分组,将正则表达式依次分配到K个分组中使各组的膨胀系数总值最小。本发明在保证正则表达式分组正确的基础上,在大规模基于DFA的正则表达式模式匹配上获得很高的压缩比,使得每组正则表达式之间的相互作用不会导致状态空间爆炸,并且有较好的匹配效率和分组通用性。

当前,针对网络应用中DFA匹配存在的问题首先会考虑同时处理多个正则表达式,将多个待检测正则表达式合并成DFA后再进行匹配。合理选取正则表达式分组的划分标准,将合并后DFA的状态数量减少到时间和空间可以容忍的地步,是必须考虑的问题。现有的正则表达式分组算法均不同程度上存在适用范围受限、通用性差、匹配效率低下和分组无法同时顾及组内、组间相互作用的缺陷,影响最终的分组效果。 为了克服现有分组方法的上述缺陷,本发明提出了一种基于膨胀系数的K分组正则表达式分组方法,在保证对待检测正则表达式分组正确的前提下,使得每组正则表达式之间的相互作用不会导致状态空间和状态爆炸,并且有较好的匹配效率和分组通用性。 本项目通过基于膨胀系数的K分组正则表达式分组方法完美解释了上述问题!

使用基于DFA的模式匹配进行正则表达式匹配过程中,由于DFA的状态数和规则集 密切相关,海量并不断增加的规则集表达式数量使DFA状态数量剧增,导致状态爆炸。此外, 正则表达式中存在的通配符和长度限制进一步加剧DFA的空间占用,目前的硬件条件无法 满足DFA导致的巨大空间需求。最后,基于DFA的正则表达式进行匹配的过程中需要保存所 有可能匹配,又对匹配过程的速度和实用性能提出了挑战。通过本技术所提出的基于膨胀系数的K分组正则表达式分 组方法,克服了以往算法通用性差、空间膨胀等问题,得到了很高的DFA状态压缩比例,对于网络环境中的大规模DFA状态的正则表达式分组效果更好。能够更好的适用于基于确定状态自动机(DFA)的正则 表达式模式匹配领域。

孙毅  男  博导  中国科学院计算技术研究所 研究领域 区块链、分布式应用 李军 男 硕导 计算技术研究所 研究领域 分布式总账(区块链) “区块链”是基于分布式系统和密码学而形成的概念与技术的集合,属于一种网络信任技术(Networked Trust Tech)。区块链系统采用多中心的分布式部署方式,无单一中心控制,平等地协作完成数据验证和一致性存储。每个中心的数据记录以及与之关联的执行代码 (或脚本,Script)在逻辑上存储在区块(Block)中,这些块又在逻辑上顺序串联起来构成链条(Chain),其中应用了数字签名等密码学技术保证数据的真实性、实时性与时序性。因此在应用场景上能够以技术建立参与方之间端到端的信任,是可被广泛应用的FinTech。 能够完善的克服现有P2P网络中对于P2SP架构的索引服务不完善并且网络系统安全性差的缺陷。

深度包检测技术即DPI技术是一种基于应用层的流量检测和控制技术,当IP数据包、TCPUDP数据流通过基于DPI技术的带宽管理系统时,该系统通过深入读取IP包载荷的内容来对OSI七层协议中的应用层信息进行重组,从而得到整个应用程序的内容,然后按照系统定义的管理策略对流量进行整形操作。检测技术和网络上非正常应用的反检测是矛和盾的关系。前面谈到的DPI技术不是静止不变的,随着检测技术的发展,非正常应用的隐藏技术也在演进。如对数据部分加密、隐藏特征字和通过隧道技术躲避检测等等。

DPI 技术在发展中将不断调整上述的检测方法,从而达到比较高的检测精度。

总之,DPI 技术将逐渐在安全、业务控制、UART接口模块等方面广泛应用,为运营商精细控制和运营网络提供一种利器。

技术许可、技术转让;寻求资源对接,最好有明确的目标合作区域、目标合作领域、目标合作企业等;目标合作投融资机构等