[发明专利]一种基于密度的新型聚类算法在审
申请号: | 201811209168.8 | 申请日: | 2018-10-17 |
公开(公告)号: | CN109214466A | 公开(公告)日: | 2019-01-15 |
发明(设计)人: | 翁利国;邱海锋;尉耀稳;余彬;陆岷;王亿;楼天华;许瑞;陈烨铧;陶芳洁;严洁;楼东良;沈鸿达 | 申请(专利权)人: | 国网浙江杭州市萧山区供电有限公司;浙江中新电力工程建设有限公司自动化分公司;浙江中新电力工程建设有限公司;国网浙江省电力有限公司杭州供电公司;国家电网有限公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 杭州华鼎知识产权代理事务所(普通合伙) 33217 | 代理人: | 项军 |
地址: | 311201 浙江*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 聚类算法 相似度 聚类 数据处理技术 大型数据集 多维数据集 测量标记 能源领域 数据集中 数据聚类 消费领域 医疗领域 有效处理 原始标记 再处理 | ||
本发明公开了一种基于密度的新型聚类算法,属于数据处理技术领域,先对数据集中的数据进行原始标记,然后测量标记后的数据的相似度,根据相似度对数据进行处理初次分簇聚类,再处理离群点。本发明的新型聚类算法能有效处理大型数据集,计算时间较现有的聚类算法大大缩短,在处理海量多维数据集时,聚类性能更强大,数据的聚类质量更高,能很好的满足能源领域、医疗领域、消费领域等众多领域内的数据聚类要求。
技术领域
本发明涉及数据处理技术领域,尤其涉及一种基于密度的新型聚类算法。
背景技术
所谓聚类,就是将物理或抽象对象的集合构成为由类似的对象组成多个类或簇的过程。由聚类所生成的簇是一组数据对象的集合,同一簇中的数据对象应尽可能相似,不同簇中的数据对象应尽可能相异。随着科技的发展、技术的进步,聚类算法如今在很多领域得到了广泛的应用,如医疗卫生领域、社交网络平台、商场、线上购物平台等。目前的各种聚类算法不能有效的处理数据的聚类,存在数据聚类质量不高的缺陷。
发明内容
为了解决上述现有技术中存在的缺点和不足,本发明提供了一种能有效提高数据聚类质量的基于密度的新型聚类算法。
为了实现上述技术目的,本发明提供的基于密度的新型聚类算法,包括以下步骤,
S1、对数据集D中的数据进行原始标记;
S2、测量步骤S1中标记后的数据的相似度d;
S3、根据步骤S2中数据的相似度d对数据进行初次分簇聚类;
S4、处理步骤S3中未被分簇聚类的离群点。
优选的,所述步骤S1中,先使不同数量级和不同单位的数据经归一化处理后均在[0,1]的范围内,然后进行范围查询;若范围查询在对象υ上执行,则将该点标记为已处理;若范围查询未在对象υ上执行,则将该点标记为未处理;其中,υ表示进行范围查询时范围的核心点。
优选的,若所述范围查询处理的对象υ的邻居数少于μ,则将归一化处理后的数据标记为初步噪声点并存储在噪声列表中;若所述范围查询处理的对象υ的邻居数多于μ,则将该点标记为核心点;其中,μ表示个数。
优选的,所述新型聚类算法还包括步骤S5,步骤S5、对初步噪声点再次进行范围查询处理,若再次进行范围查询时初步噪声点的邻域范围内不存在未处理的核心点,则该初步噪声点为真正的离群点;若再次进行范围查询时初步噪声点的邻域范围内存在未处理的核心点,则该初步噪声点为边界点。
优选的,所述步骤S2中,假设数据集D存在任意两个点υ和ω,以点υ为圆心、以ε为半径建立圆O(υ),以ω为圆心、以ε为半径建立圆O(ω),求得核心点附近邻域的数据点。
优选的,所述步骤S2中,通过计算欧式距离确定两个核心点之间的位置关系,实现测量相似度d的目的;
d(υ,ω)>3ε时,state=0,表明两个核心点之间不存在连接关系;
时,state=1,表明两个核心点之间存在强连接关系;
时,state=-1,表明两个核心点之间存在弱连接关系。
优选的,所述步骤S3中,根据两个核心点之间的连接关系进行初次分簇聚类;
若两个核心点之间存在强连接关系,则两个核心点附近邻域的数据属于相同的簇;
若两个核心点之间不存在连接关系,则两个核心点附近邻域的数据属于不同的簇;
若两个核心点之间存在弱连接关系,存在O(υ)∪O(ω)的边界点η时,以η为圆心、以ε为半径的圆中有邻居数多于μ的情况下,υ和ω通过η相连接。
采用上述技术方案后,本发明提供的聚类算法具有如下优点:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国网浙江杭州市萧山区供电有限公司;浙江中新电力工程建设有限公司自动化分公司;浙江中新电力工程建设有限公司;国网浙江省电力有限公司杭州供电公司;国家电网有限公司,未经国网浙江杭州市萧山区供电有限公司;浙江中新电力工程建设有限公司自动化分公司;浙江中新电力工程建设有限公司;国网浙江省电力有限公司杭州供电公司;国家电网有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811209168.8/2.html,转载请声明来源钻瓜专利网。