[发明专利]增量聚类方法及系统、分布式增量聚类方法及系统在审
| 申请号: | 202210013145.X | 申请日: | 2022-01-06 |
| 公开(公告)号: | CN114386501A | 公开(公告)日: | 2022-04-22 |
| 发明(设计)人: | 王义锋;徐守奎;陈舟锋 | 申请(专利权)人: | 新华智云科技有限公司 |
| 主分类号: | G06K9/62 | 分类号: | G06K9/62 |
| 代理公司: | 杭州裕阳联合专利代理有限公司 33289 | 代理人: | 杨琪宇 |
| 地址: | 310012 浙江省杭州市*** | 国省代码: | 浙江;33 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 增量 方法 系统 分布式 | ||
1.一种增量聚类方法,其特征在于,包括以下步骤:
获取待聚类数据和已聚类数据;
基于所述待聚类数据对所述已聚类数据进行增量聚类,获得若干个第一聚类簇;
检测各第一聚类簇中的异常特征,并基于所得异常检测结果对相应的第一聚类簇进行更新,获得聚类结果。
2.根据权利要求1所述的增量聚类方法,其特征在于,检测各第一聚类簇中的异常特征的步骤为:
各第一聚类簇均包含至少一个目标特征,检测所述第一聚类簇中作为核心特征的目标特征,获得第一特征;
提取各第一特征的邻域特征,统计所述第一特征所对应的邻域特征数以及邻域核心特征数,所述邻域特征指与所述第一特征相似的目标特征,所述邻域核心特征数指属于核心特征的邻域特征的数量;
基于第一特征的邻域特征、邻域特征数和邻域核心特征数判断所述第一特征是否为异常特征,获得相应的异常检测结果。
3.根据权利要求2所述的增量聚类方法,其特征在于,所述基于第一特征的邻域特征、邻域特征数和邻域核心特征数判断所述第一特征是否为异常特征的具体步骤为:
基于所述邻域特征数和所述邻域核心特征数,按照预设的判断规则对相应的第一特征进行异常判断,当判定所述第一特征异常时,将第一特征作为第二特征;
计算各第二特征所对应的离散值,获得待判定离散值,其中离散值用于指示各邻域特征之间的离散程度;
当所述待判定离散值大于相应的离散阈值时,判定所述第二特征为异常特征。
4.根据权利要求3所述的增量聚类方法,其特征在于,所述离散阈值的获取方法为:
当判定所述第一特征正常时,将第一特征作为第三特征;
汇总对应第一聚类簇中所有第三特征的邻域特征,基于所得汇总结果计算第一聚类簇所对应的离散值,获得基础离散值;
基于所述基础离散值确定所述离散阈值。
5.根据权利要求1至4任一所述的增量聚类方法,其特征在于:
待聚类数据包括若干待聚类特征;
已聚类数据包括若干个第二聚类簇,各第二聚类簇包括至少一个已聚类特征,所述已聚类数据还包括各已聚类特征的邻域特征;
将待聚类特征和已聚类特征均作为目标特征,基于目标特征间的相似度确定各目标特征的邻域特征;
基于所述第二聚类簇和各目标特征的邻域特征进行增量聚类,获得相应的第一聚类簇。
6.根据权利要求5所述的增量聚类方法,其特征在于基于所述第二聚类簇和各目标特征的邻域特征进行增量聚类前,还包括执行判断步骤,具体为:
判断各待聚类特征是否是核心特征;
当存在作为核心特征的待聚类特征时,判定执行聚类,则基于所述第二聚类簇和各目标特征的邻域特征进行增量聚类。
7.根据权利要求6所述的增量聚类方法,其特征在于:
待聚类特征为第一待聚类特征或第二待聚类特征,所述第二待聚类特征为新增特征;
当上一次增量聚类的执行判断步骤判定不执行聚类时,则保存上一次增量聚类所对应的待聚类特征的邻域特征,并将上一次增量聚类所对应的待聚类特征作为当前增量聚类的第一待聚类特征;
计算所述第二待聚类特征与各目标特征之间的相似度,获得各目标特征所对应的邻域特征。
8.一种增量聚类系统,其特征在于,包括:
数据获取模块,用于获取待聚类数据和已聚类数据;
增量聚类模块,用于基于所述待聚类数据对所述已聚类数据进行增量聚类,获得若干个第一聚类簇;
异常处理模块,用于检测各第一聚类簇中的异常特征,并基于所得异常检测结果对相应的第一聚类簇进行更新,获得聚类结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于新华智云科技有限公司,未经新华智云科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210013145.X/1.html,转载请声明来源钻瓜专利网。





