[发明专利]一种增量式密度峰搜索聚类方法在审
申请号: | 201710183749.8 | 申请日: | 2017-03-24 |
公开(公告)号: | CN107895165A | 公开(公告)日: | 2018-04-10 |
发明(设计)人: | 洪德华;许小东 | 申请(专利权)人: | 中国科学技术大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 安徽省合肥新安专利代理有限责任公司34101 | 代理人: | 汪祥虬 |
地址: | 230026 安*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种增量式密度峰搜索聚类方法,特征是基于快速密度峰搜索聚类方法,针对动态数据集,将插入新增数据对数据集中历史数据聚类结果的影响限制在新增数据的邻居集、邻居关联集及新增数据关联集这三个局部数据子集,通过增量式更新局部数据子集对应的密度表、邻居关系表和邻居距离表表项,在保持增量式聚类结果与快速密度峰搜索聚类方法完全一致的同时有效避免了冗余计算,使执行效率获得数量级式提升。本发明方法能够快速有效地挖掘动态数据集知识,适用于网络检测、信号分析和信息检索等实时应用领域。 | ||
搜索关键词: | 一种 增量 密度 搜索 方法 | ||
【主权项】:
一种增量式密度峰搜索聚类方法,设数据集已存放数据总数为N的历史数据对象,每一数据对象含有特征维度为M的实数据,令数据对象的密度表为邻居关系表为邻居距离表为邻居半径为r,新增数据对象为其特征在于具体操作步骤为:第一步:根据欧式距离测算关系式dn=||x‑xn||,符号||·||代表向量范数运算,依次测算新增数据对象x与数据集X中的历史数据对象之间的欧式距离,其中令数据编号为n的第n个历史数据对象xn∈X与新增数据对象x之间的欧式距离为dn,且数据编号n从1依次递增至数据总数N;第二步:从数据集X中构造新增数据对象x的邻居集Q,其中邻居集中任一数据对象与新增数据对象x之间的欧式距离dn均应满足邻居集选择条件式dn≤r;如果邻居集Q为空集,则跳转至第六步;如果邻居集Q非空,则将密度表P中数据编号对应于邻居集Q中所有数据对象的密度值增1;第三步:从邻居集Q中取出一个邻居关系尚未更新的数据对象作为当前数据对象,然后从数据集X中构造关于该数据对象的邻居关联集其中假设邻居关联集U中任一数据对象的密度为p,令邻居集Q中当前数据对象的密度为q,其未更新之前的历史密度为q‑1,则邻居关联集U中任一数据对象与邻居集Q中当前数据对象之间应满足邻居关联集选择条件式q‑1≤p≤q;第四步:如果邻居关联集U非空,则依欧式距离测算关系式依次测算邻居关联集U中所有数据对象至邻居集Q中当前数据对象之间的距离;当此距离小于邻居关联集U中某数据对象对应的历史邻居距离时,则将邻居集Q中当前数据对象设定为邻居关联集U中该数据对象的邻居,同时更新与邻居关联集U中该数据对象对应的邻居关系表R和邻居距离表D的相应表项;如果邻居关联集U为空集,则返回第三步;第五步:根据以最短距离高密度数据对象为邻准则更新邻居集Q中当前数据对象在邻居关系表R和其对应的邻居距离表D中的相应表项;重复第三步至第五步,直至邻居集Q中所有数据对象依次被执行一遍;第六步:将密度表P、邻居关系表R和邻居距离表D分别追加一个表项,然后将邻居集Q中所有数据对象的数目作为新增数据对象x的密度添加进密度表P的相应表项中;如果邻居集Q为空集,则记新增数据对象x的密度为1并添加进密度表P的相应表项中;接着根据以最短距离高密度数据对象为邻准则将新增数据对象x的邻居及其邻居距离分别添加进邻居关系表R和邻居距离表D的相应表项;第七步:从数据集X中构造密度低于新增数据对象密度的新增数据关联集S;如果新增数据关联集S非空,则依欧式距离测算关系式依次测算新增数据关联集S中所有数据对象与新增数据对象x之间的距离;当该距离小于新增数据关联集S中某数据对象对应的邻居距离时,则将新增数据对象x设定为新增数据关联集S中该数据对象的邻居,同时更新与新增数据关联集S中该数据对象对应的邻居关系表R和邻居距离表D的相应表项;如果新增数据关联集S为空集或该步操作已全部完成,则将新增数据对象x添加进数据集X,同时输出增量计算结果,然后返回等待下一个新增数据对象到达;第八步:当用户提出聚类查询指令时,根据增量计算结果对数据集X中所有数据对象进行簇划分,即依据簇头度量关系式计算簇头度量Γ并对其元素τn进行降序排列,其中符号表示矩阵哈达马乘积;然后依据簇头选择条件式选择簇头度量Γ中分离度超过阈值σ的一组元素对应的数据对象作为簇头;接下来给各个簇头分配不同簇编号,并分别以各个簇头作为根结点,通过遍历邻居关系表R将每一数据对象划分入特定簇中,向用户输出聚类分析结果。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学技术大学,未经中国科学技术大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201710183749.8/,转载请声明来源钻瓜专利网。