[发明专利]一种面向数据流的全在线聚类方法在审
申请号: | 201810333661.4 | 申请日: | 2018-04-13 |
公开(公告)号: | CN108537285A | 公开(公告)日: | 2018-09-14 |
发明(设计)人: | 杜韬;曲守宁;许婧文;王玉栋;武奎;庞战;刘闯;张瑞;李国昌;牟国栋 | 申请(专利权)人: | 济南大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 济南舜源专利事务所有限公司 37205 | 代理人: | 张渲 |
地址: | 250022 山东省济*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 聚类 数据流 聚类算法 全在线 动态数据流 数据流对象 角色判断 衰减机制 在线聚类 在线数据 更新 邻域 | ||
本发明涉及一种面向数据流的全在线聚类方法,其特征在于,包括以下步骤:S1:基于在线数据角色判断的动态数据流聚类算法进行聚类;S2:根据多速率的数据衰减机制,更新数据流对象;S3:基于邻域的密度更新聚类算法;S4:在线聚类调整。
技术领域
本发明属于数据聚类技术领域,具体涉及一种面向数据流的全在线聚类方法。
背景技术
随着无线传感器网络、智能移动终端、云计算以及物联网等技术的发展,大量的数据以流的方式产生,数据流已成为目前的大数据处理的主要方式,因此面向数据流的智能计算成为了研究的热点,数据流中进行知识发现被认为是未来大数据技术发展的十大技术趋势之一。
数据流具有数据规模不断增长、数据对象实时更新、数据属性复杂多变、数据价值随时间衰减等特点,这些特点导致面向数据流的样本数据选择与特征标注变得非常困难,因此以深度学习为代表的有监督的智能计算难以应用于数据流环境中。
聚类分析是无监督的机器学习方法,在金融分析、环境监测、工业控制等领域有着广泛的用途,是机器学习领域重要的分支之一。
传统的两段式数据流聚类算法计算复杂度高,实时性差的缺陷;此为现有技术的不足之处。
因此,针对现有技术中的上述缺陷,提供设计一种面向数据流的全在线聚类方法;以解决现有技术中的上述缺陷,是非常有必要的。
发明内容
本发明的目的在于,针对上述现有技术存在的缺陷,提供设计一种面向数据流的全在线聚类方法,以解决上述技术问题。
为实现上述目的,本发明给出以下技术方案:
一种面向数据流的全在线聚类方法,其特征在于,包括以下步骤:
S1:基于在线数据角色判断的动态数据流聚类算法进行聚类;
S2:根据多速率的数据衰减机制,更新数据流对象;
S3:基于邻域的密度更新聚类算法;
S4:在线聚类调整。
步骤S1中,密度峰值聚类算法是目前比较流行的静态聚类方法,通过对数据对象的密度属性计算,将其分为簇头点、簇内点和离群点三种角色,无需指定聚类数量,能够区分任意形状的数据分布。
本发明在密度峰值聚类算法的基础上,引入在线数据角色判别方法。在所有的数据中,簇内点占绝大多数,因此给出公式(1)和公式(2)所示的不同的密度属性组合方法,通过与簇内点的数值比较,自动发现簇头和离群点。
γ=δ×ρ (1)
ω=δ/ρ (2)
其中ρ是每个数据点的局部密度值,δ是到当前点最近且密度高的点的距离,簇头的ρ和δ都较大,而离群点的ρ较小,δ较大。根据公式(1),簇头点的γ的值远大于其他点,因此通过发现异于整体变化规律的数据点就可以自动的发现簇头点;同理根据公式(2),离群点的ω值远大于其他点,因此同样可以通过发现异常点的方式得到离群点,而剩下的节点就是簇内点。以簇头为核心,所有的簇内点选择到自己最近的簇头自动聚簇。
步骤S2中,根据多速率的数据衰减机制,更新数据流对象。数据流不断产生新的数据对象的同时,现有数据也需要按一定的规律删除,确保有总体数据规模不至于过大导致计算无法进行,常用的数据衰减函数如公式(3)所示。
在公式(3)中,λ是衰减系数,介于0-1之间的常数,t是当前时间,tx是数据产生时间,现有研究中,所有数据对象的衰减系数都是不变的,无法根据数据流中数据变化情况动态调整。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于济南大学,未经济南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810333661.4/2.html,转载请声明来源钻瓜专利网。