[发明专利]一种增量式密度峰搜索聚类方法在审
申请号: | 201710183749.8 | 申请日: | 2017-03-24 |
公开(公告)号: | CN107895165A | 公开(公告)日: | 2018-04-10 |
发明(设计)人: | 洪德华;许小东 | 申请(专利权)人: | 中国科学技术大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 安徽省合肥新安专利代理有限责任公司34101 | 代理人: | 汪祥虬 |
地址: | 230026 安*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 增量 密度 搜索 方法 | ||
技术领域
本发明属于面向实时应用的动态数据分析与处理技术领域,具体涉及通过增量式计算和调整局部数据对象进行聚类的机器学习方法,增量式发现动态数据集内隐藏的知识结构特征和分布规律的方法,适用于网络检测、信号分析和信息检索等实时应用领域。
背景技术
在机器学习方法中,聚类分析是一种能够通过数据对象之间的相似性度量发现数据集内隐藏的知识结构特征和分布规律的有效途径,适用于网络检测、信号分析、数据压缩和信息检索等应用领域。随着计算机和网络技术的迅猛发展,人们获取数据的途径和方式变得越来越丰富,数据产量和更新速度促使静态数据规模日益增大,这也对聚类分析的实时性提出更高要求。《科学》(Science,vol.344,no.6191,pp.1492-1496,2014)所公开的“快速密度峰搜索聚类”(Clustering by fast search and find of density peaks)一文基于高密度簇中心应由其低密度邻居点环绕这一认识,提出一种利用数据对象之间的距离测算数据对象的局部密度及其与高密度邻居的距离,进而快速实现数据分簇的新型静态聚类方法。经美国加州大学欧文分校提供的机器学习标准数据集等多种数据源检验,该方法能够有效发现具有任意空间结构和可变密度簇,同时可实现自适应簇数目估计和噪点识别,相比于其他类型的静态聚类方法,体现出较好的数据集适应性。为了更好地满足实时应用需求,同时降低数据存储开销,许多实际应用通常仅维护动态数据集,即在新增部分数据对象的同时删除部分历史数据对象。显然,每当数据集发生变化时,直接使用快速密度峰搜索聚类方法从完整数据集中挖据有价值信息并非高效率的处理手段。因为,对数据集中大部分历史数据对象进行重新聚类势必产生大量的冗余计算,其运算效率的降低甚至导致聚类分析无法跟上数据集的更新速度。原则上,对动态数据集的高性能聚类分析,必须能够在保证动态聚类效果等价于静态聚类效果的前提下,通过深入解析增量数据对象带来的特殊计算需求和局部制约因素来大幅改善执行效率、降低系统开销。因此,将快速密度峰搜索聚类方法拓展为一种适用于动态数据集的增量式密度峰搜索聚类方法,获得适用于动态数据集的高性能聚类分析方法具有重要的现实意义和应用价值。
发明内容
本发明的目的是提出一种增量式密度峰搜索聚类方法,面向新增数据对象依次逐项插入数据集的细粒度应用场合,通过增量式计算和更新新增数据对象及其近邻的密度表、增量式构建和更新新增数据对象与局部历史数据对象的邻居关系表、增量式测算和更新新增数据对象与局部历史数据对象的邻居距离表,实现针对动态数据集的密度峰增量式搜索和簇头发现,从而以较低的计算开销配合完成簇创建和簇合并,实时输出增量式聚类分析结果,有效提高运算效率。
本发明增量式密度峰搜索聚类方法,设数据集已存放数据总数为N的历史数据对象,每一数据对象含有特征维度为M的实数据,令数据对象的密度表为邻居关系表为邻居距离表为邻居半径为r,新增数据对象为其特征在于具体操作步骤为:
第一步:根据欧式距离测算关系式dn=||x-xn||,符号||·||代表向量范数运算,依次测算新增数据对象x与数据集X中的历史数据对象之间的欧式距离,其中令数据编号为n的第n个历史数据对象xn∈X与新增数据对象x之间的欧式距离为dn,且数据编号n从1依次递增至数据总数N;
第二步:从数据集X中构造新增数据对象x的邻居集Q,其中邻居集中任一数据对象与新增数据对象x之间的欧式距离dn均应满足邻居集选择条件式dn≤r;如果邻居集Q为空集,则跳转至第六步;如果邻居集Q非空,则将密度表P中数据编号对应于邻居集Q中所有数据对象的密度值增1;
第三步:从邻居集Q中取出一个邻居关系尚未更新的数据对象作为当前数据对象,然后从数据集X中构造关于该数据对象的邻居关联集其中假设邻居关联集U中任一数据对象的密度为p,令邻居集Q中当前数据对象的密度为q,其未更新之前的历史密度为q-1,则邻居关联集U中任一数据对象与邻居集Q中当前数据对象之间应满足邻居关联集选择条件式q-1≤p≤q;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学技术大学,未经中国科学技术大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710183749.8/2.html,转载请声明来源钻瓜专利网。