[发明专利]聚类方法及相关产品在审
申请号: | 201811527251.X | 申请日: | 2018-12-13 |
公开(公告)号: | CN109447186A | 公开(公告)日: | 2019-03-08 |
发明(设计)人: | 高增辉;曾佐祺;屈亚鹏;张义;钟斌 | 申请(专利权)人: | 深圳云天励飞技术有限公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 广州三环专利商标代理有限公司 44202 | 代理人: | 郝传鑫;熊永强 |
地址: | 518000 广东省深圳市龙岗区园山*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 聚类 聚类结果 第一数据 类簇 聚类算法 数据集 聚类过程 同种类型 相似度 申请 | ||
本申请实施例公开了一种聚类方法及相关产品,其中方法包括:获取包含同种类型数据的第一数据集;按照第一聚类算法和第一相似度阈值对第一数据集进行第一次聚类,并获得第一聚类结果,第一聚类结果中包含多个第一类簇;从多个第一类簇中的每个类簇中挑选一个质量最好的数据作为代表数据,组成第二数据集;按照第一聚类算法对第二数据集进行第二次聚类,获得第二聚类结果;结合第一聚类结果和第二聚类结果,确定第一数据集的最终聚类结果。本申请实施例通过第一次聚类提升了类内精确率高,通过第二次聚类降低了类间误聚率。整个聚类过程提升了聚类的精确率和有效率。
技术领域
本申请涉及数据处理技术领域,具体涉及一种聚类方法及相关产品。
背景技术
在数据处理的过程中,很多时候都需要进行聚类,获得多个类簇,同一个类簇中的数据相似度高,不同类簇间的数据相似度低。但是在这个过程中,存在着类内精确率和类间误聚率的矛盾,类内精确率是指类簇中正确分类的数据量占该类簇中总数据量的比值,内类精确率越高越好,类间误聚率是指类簇中重复类别的数据量占总类簇数量的比值,类间误聚率越低越好。如何使得聚类结果同时满足类内精确率和内间误聚率的需求,是一个亟待解决的问题。
发明内容
本申请实施例提供了一种聚类方法及相关产品,以期通过二次聚类,使得聚类结果同时满足类内精确率和内间误聚率的需求。
第一方面,本申请实施例提供一种聚类方法,所述方法包括:
获取包含同种类型数据的第一数据集;
按照第一聚类算法和第一相似度阈值对所述第一数据集进行第一次聚类,并获得第一聚类结果,所述第一聚类结果中包含多个第一类簇;
从所述多个第一类簇中的每个类簇中挑选一个质量最好的数据作为代表数据,组成第二数据集;
按照所述第一聚类算法对所述第二数据集进行第二次聚类,获得第二聚类结果;
结合所述第一聚类结果和所述第二聚类结果,确定所述第一数据集的最终聚类结果。
可选情况下,所述按照第一聚类算法对所述第一数据集进行第一次聚类,包括:
S21:获取第一数据集中的第一个数据作为基准数据;
S22:计算所述第一数据集中除了所述基准数据之外的剩余数据与所述基准数据之间的相似度,并将所述基准数据、以及与所述基准数据之间的相似度大于第一相似度阈值的数据划分到同一个类簇中;
S23:将所述第一数据集中剩余的未划分到类簇中的数据作为新的第一数据集,重复步骤S21和S22,直到第一数据集中的所有数据全部划分到类簇中,得到所述多个第一类簇。
可选情况下,所述第二聚类结果中包括多个第二类簇,所述多个为N个,N为大于1的整数,所述多个第二类簇中的每个第二类簇中包括一个或多个所述代表数据,所述结合所述第一聚类结果和所述第二聚类结果,确定所述第一数据集的最终聚类结果,包括:
S41、获取所述多个第二类簇中的第i个第二类簇,i为正整数;
S42、确定所述第i个第二类簇中的所有代表数据对应的所有第一类簇,并将所述所有第一类簇中的数据放置到同一个第三类簇中;
S43、赋值i=i+1,执行步骤S41和S42,直到遍历完所述多个第二类簇,得到多个第三类簇,即为最终聚类结果,i小于或等于N-1。
可选情况下,在所述从所述多个第一类簇中的每个类簇中挑选一个质量最好的数据作为代表数据之前,所述方法还包括:
获取所述第一数据集中每个数据对应的属性值;
根据所述属性值确定所述第一数据集中每一个数据的质量高低。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳云天励飞技术有限公司,未经深圳云天励飞技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811527251.X/2.html,转载请声明来源钻瓜专利网。
- 上一篇:基于深度学习的显微荧光图像分类方法
- 下一篇:电机故障诊断方法及系统