成果介绍
本发明提供了一种中文地址树的构建方法及装置,其中,该方法包括:获取地址数据;根据所述地址数据,生成至少一个地址单元,其中,每一个所述地址单元中包括:地址单元编码;根据每一个所述地址单元中的地址单元编码,对所述至少一个地址单元进行字典序排序;按照所述地址单元编码递增的顺序,针对每一个所述地址单元,依次执行:根据当前地址单元,构建当前结点;确定所述当前结点对应的上一级结点;根据各个所述当前结点和各个所述当前结点对应的上一级结点,构建中文地址树。
成果亮点
和常用中文地址数据结构化管理方案(地址词典库、常用地址树、Trie树)相比,本发明根据地址单元按照“地址编码”字典序排列的顺序和在地址树中先序遍历的顺序相同的特性,读取一遍有序地址单元即可构建出地址树,操作简单且速度很快;根据该性质先序遍历地址树,还可以验证所构建地址树的正确性。此外,本发明结合匹配列表、名称结点、属性结点3部分表示地址单元,可以有效记录地址单元的别名和简称,以及跳跃连接现象,而且可以直接进行地址整体匹配;从而能够正确解析出别名和简称,解决多级地址匹配中的地址跳跃问题,并且提高匹配效率。
团队介绍
自己在浪潮集团工作期间的成果,所在团队聚集公司核心技术研发团队,专注“面向工程科技领域的大数据应用服务平台的研发和产业化”项目。自己担任项目总负责人,总体负责项目实施。团队以林巍、华勇、罗天3人为核心成员,均为北京大学等名校研究生,具有甲骨文等知名企业的研发经历。团队配备专业技术人员41名,其中研发工程师30名,90%以上拥有本科学历,研究生11名,均为具有云计算、大数据等关键技术开发经验的研发骨干。另有相关配套的策划和平台运营人员。
成果资料