您所在的位置: 成果库 一种基于数据场的自动聚类方法

一种基于数据场的自动聚类方法

成果类型:: 新技术

发布时间: 2023-10-07 10:51:40

科技成果产业化落地方案
方案提交机构:“科创中国”时空信息卫星导航产业科技服务团| 谭吉安 | 2023-11-06 16:08:42
本成果是一种基于数据场的自动聚类方法,通过将每个空间数据看作一个具有质量的数据点,空间数据之间彼此相互影响形成一个数据场,数据场的势值则表现为所有数据点在该处的影响力的总和。数据场势值的一阶偏导数值为零的点即为数据叠加作用最为密集的区域,即数据的簇中心。本成果通过搜索数据场势值的一阶导数来发现数据的簇中心,进而根据这些簇中心向两侧搜索并确定簇的边缘,最终将完整的簇标记出来。与现有聚类方法相比,本成果具有处理速度快、不受噪声影响、对任意形状的聚类有效的特点,可以被应用于图像处理、社区发现、异常检测、市场研究等领域,从而提高处理结果的精确度。
本成果的技术方案与已有的聚类方法相比,本成果利用划分网格的方式将运算复杂度降低为O(k),其中k为网格划分参数,极大地提高了方案实施的运算速度;借用二值图像区域标记法的思想,将数据场转换为二值矩阵,并运用洪泛法进行聚类搜索,很好的避免了聚类方法中普遍存在的球形偏见的问题,从而能够有效的发现任意形状的聚类;通过一阶偏导来确定簇的中心和边缘,可以有效地避免对噪声的处理,从而使方法具有很好的健壮性。

聚类方法已经被广泛地应用于图像处理、异常检测、Web热点发现、社区发现、 信用卡欺诈检测、商务数据分析等方面。例如,在模式识别方面,通过对图片特征向量的处理,自动将一组动物的图片自动归类为羊、狗、蛇等;在异常检测方面,通过对产品属性的聚类,自动发现其中的次品;在市场研究方面,通过对用户进行聚类来将用户自动归类,进而辅助决策者制定市场策略。现有的聚类方法为了能够得到较好的处理效果大都采用了较为复杂的计算方式, 处理速度较慢,无法适用于大规模的数据处理。另外,噪声也是影响聚类方法质量的一个重要因素。与现有的聚类方法相比,本方法具有处理速度快,并且对噪声不敏感的特点。

王树良,武汉大学教授、博士生导师、工学博士、双博士后。国家教育部“新世纪优秀人才”“中国软件行业杰出青年”、国家测绘科技进步一等奖、湖北省自然科学杰出青年基金、湖北省“五四”青年金质奖章。

本成果很好的避免了聚类方法中普遍存在的球形偏见的问题,从而能够有效的发现任意形状的聚类;通过一阶偏导来确定簇的中心和边缘,可以有效地避免对噪声的处理,从而使方法具有很好的健壮性。

通过技术合作的方式进行转化