[发明专利]一种基于密度的新型聚类算法在审
| 申请号: | 201811209168.8 | 申请日: | 2018-10-17 |
| 公开(公告)号: | CN109214466A | 公开(公告)日: | 2019-01-15 |
| 发明(设计)人: | 翁利国;邱海锋;尉耀稳;余彬;陆岷;王亿;楼天华;许瑞;陈烨铧;陶芳洁;严洁;楼东良;沈鸿达 | 申请(专利权)人: | 国网浙江杭州市萧山区供电有限公司;浙江中新电力工程建设有限公司自动化分公司;浙江中新电力工程建设有限公司;国网浙江省电力有限公司杭州供电公司;国家电网有限公司 |
| 主分类号: | G06K9/62 | 分类号: | G06K9/62 |
| 代理公司: | 杭州华鼎知识产权代理事务所(普通合伙) 33217 | 代理人: | 项军 |
| 地址: | 311201 浙江*** | 国省代码: | 浙江;33 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 聚类算法 相似度 聚类 数据处理技术 大型数据集 多维数据集 测量标记 能源领域 数据集中 数据聚类 消费领域 医疗领域 有效处理 原始标记 再处理 | ||
1.一种基于密度的新型聚类算法,其特征在于,包括以下步骤,
S1、对数据集D中的数据进行原始标记;
S2、测量步骤S1中标记后的数据的相似度d;
S3、根据步骤S2中数据的相似度d对数据进行初次分簇聚类;
S4、处理步骤S3中未被分簇聚类的离群点。
2.根据权利要求1所述的新型聚类算法,其特征在于,所述步骤S1中,先使不同数量级和不同单位的数据经归一化处理后均在[0,1]的范围内,然后进行范围查询;若范围查询在对象υ上执行,则将该点标记为已处理;若范围查询未在对象υ上执行,则将该点标记为未处理;其中,υ表示进行范围查询时范围的核心点。
3.根据权利要求2所述的新型聚类算法,其特征在于,若所述范围查询处理的对象υ的邻居数少于μ,则将归一化处理后的数据标记为初步噪声点并存储在噪声列表中;若所述范围查询处理的对象υ的邻居数多于μ,则将该点标记为核心点;其中,μ表示个数。
4.根据权利要求3所述的新型聚类算法,其特征在于,所述新型聚类算法还包括步骤S5,
步骤S5、对初步噪声点再次进行范围查询处理,若再次进行范围查询时初步噪声点的邻域范围内不存在未处理的核心点,则该初步噪声点为真正的离群点;若再次进行范围查询时初步噪声点的邻域范围内存在未处理的核心点,则该初步噪声点为边界点。
5.根据权利要求1-4任一项所述的新型聚类算法,其特征在于,所述步骤S2中,假设数据集D存在任意两个点υ和ω,以点υ为圆心、以ε为半径建立圆O(υ),以ω为圆心、以ε为半径建立圆O(ω),求得核心点附近邻域的数据点。
6.根据权利要求5所述的新型聚类算法,其特征在于,所述步骤S2中,通过计算欧式距离确定两个核心点之间的位置关系,实现测量相似度d的目的;
d(υ,ω)>3ε时,state=0,表明两个核心点之间不存在连接关系;
时,state=1,表明两个核心点之间存在强连接关系;
时,state=-1,表明两个核心点之间存在弱连接关系。
7.根据权利要求6所述的新型聚类算法,其特征在于,所述步骤S3中,根据两个核心点之间的连接关系进行初次分簇聚类;
若两个核心点之间存在强连接关系,则两个核心点附近邻域的数据属于相同的簇;
若两个核心点之间不存在连接关系,则两个核心点附近邻域的数据属于不同的簇;
若两个核心点之间存在弱连接关系,存在O(υ)∪O(ω)的边界点η时,以η为圆心、以ε为半径的圆中有邻居数多于μ的情况下,υ和ω通过η相连接。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国网浙江杭州市萧山区供电有限公司;浙江中新电力工程建设有限公司自动化分公司;浙江中新电力工程建设有限公司;国网浙江省电力有限公司杭州供电公司;国家电网有限公司,未经国网浙江杭州市萧山区供电有限公司;浙江中新电力工程建设有限公司自动化分公司;浙江中新电力工程建设有限公司;国网浙江省电力有限公司杭州供电公司;国家电网有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811209168.8/1.html,转载请声明来源钻瓜专利网。





