登录    注册    忘记密码

详细信息

基于网格数据中心的密度峰值聚类算法    

Density Peak Clustering Algorithm Based on Grid Data Center

文献类型:期刊文献

中文题名:基于网格数据中心的密度峰值聚类算法

英文题名:Density Peak Clustering Algorithm Based on Grid Data Center

作者:李晓光[1];邵超[1]

第一作者:李晓光

机构:[1]河南财经政法大学计算机与信息工程学院

第一机构:河南财经政法大学计算机与信息工程学院

年份:2019

卷号:46

期号:B06

起止页码:457-460

中文期刊名:计算机科学

外文期刊名:Computer Science

收录:CSTPCD;;北大核心:【北大核心2017】;CSCD:【CSCD_E2019_2020】;

基金:国家自然科学基金资助项目(61202285,61502146)资助

语种:中文

中文关键词:密度峰值;聚类;网格;数据中心;决策图

外文关键词:Density peak;Clustering;Grid;Data center;Decision graph

摘要:通过对数据集进行网格划分来降低聚类过程中的计算复杂度,提出了一种基于网格数据中心的密度峰值聚类算法。首先将数据集进行网格化,形成若干网格对象,以落在网格内的数据点个数与通过衰减后的相邻网格内数据点个数之和作为该网格对象的局部密度值,以该网格数据中心到更高密度网格数据中心的最近距离作为该网格对象的相对距离值;然后根据簇心网格对象同时具备更高的局部密度和较大的相对距离的特征,确定簇心网格对象;最后通过密度划分的方法完成数据聚类。在UCI人工数据集上的仿真实验表明,该算法能够在较短的时间内有效地处理大规模数据,聚类准确率较高。
A density peak clustering algorithm based on the grid data center was proposed.The computational complexity of the clustering process is reduced by meshing the dataset.Firstly,the dataset space is divided into grids with the same size,the density value of each grid is composed of the number of data objects that are contained in the grid and the decayed number of the data objects in its adjacent grids,and the distance value of each grid is defined as the nearest distance from its data center to the data center of another grid which has a higher density.Then,the cluster center grids are found since these grids always have high density value and large distance value.Finally,a density-based division approach is used to complete the duty of clustering.The simulation experiments performed on UCI artificial data set show that this algorithm can effectively cluster large-scale data with high clustering accuracy in a short period of time.

参考文献:

正在载入数据...

版权所有©河南财经政法大学 重庆维普资讯有限公司 渝B2-20050021-8 
渝公网安备 50019002500408号 违法和不良信息举报中心