[发明专利]基于重要抽样的流数据聚类方法在审
| 申请号: | 201811172699.4 | 申请日: | 2018-10-09 |
| 公开(公告)号: | CN109214465A | 公开(公告)日: | 2019-01-15 |
| 发明(设计)人: | 邱云飞;张哲 | 申请(专利权)人: | 辽宁工程技术大学 |
| 主分类号: | G06K9/62 | 分类号: | G06K9/62 |
| 代理公司: | 重庆百润洪知识产权代理有限公司 50219 | 代理人: | 刘立春 |
| 地址: | 123000*** | 国省代码: | 辽宁;21 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 缓冲区 聚类 重要抽样 核矩阵 点数 最大点数 流数据 数据集 采样 团簇 矩阵 衰变 时间复杂度 样本集构造 矩阵更新 聚类结果 聚类中心 初始化 核函数 准确率 输出 | ||
本发明提供一种基于重要抽样的流数据聚类方法,包括S1:确定要聚类的参数;其中,参数包括:数据集D:数据集D={x1,x2,...xn};核函数簇的初始数目c;缓冲区中的初始点数m,且缓冲区中的初始点数m>簇的初始数目c;缓冲区中允许的最大点数M,且缓冲区中的初始点数m<缓冲区中允许的最大点数M;团簇衰变率γ;团簇寿命阈值η;S2:初始化聚类中心S,S={x1},Vc=1和Σc=κ(x1,x1);S3:利用重要抽样方法进行采样,并根据采样到的样本集构造核矩阵;S4:利用核k‑means方法对核矩阵进行聚类,获得带有标记的矩阵;S5:根据带有标记的矩阵更新核矩阵;S6:输出聚类结果。本发明可以在降低时间复杂度的同时提高准确率。
技术领域
本发明涉及数据挖掘技术领域,更为具体地,涉及一种基于重要抽样的流 数据聚类方法。
背景技术
大数据时代下每天产生千千万万的数据,因此流数据也成为当下的热门话 题。经典的一些数据聚类方法有比如:(1)一种自适应非线性流聚类方法,应 用核异常检测方法按照时间的局部性将流数据分成若干部分,并对每一部分进 行聚类,自适应选取具有代表性的部分作为初始的类对流数据中的其他点进行 聚类,该方法虽然减小了时间复杂度及对存储空间的利用,但没有考虑数据点 本身的数据信息在流数据中的影响程度,因此聚类效果并不理想;(2)基于采样 的流聚类方法(Approximate Kernel Fuzzy C-means,AKFCM),对流数据进行随 机采样并聚类,该方法大大降低了时间复杂度,但准确率较低。
发明内容
本发明的目的在于针对现有技术之弊端,提供一种基于重要抽样的流数据 聚类方法,包括如下步骤:
步骤S1:确定要聚类的参数;其中,参数包括:
数据集D:数据集D={x1,x2,...xn};其中,x表示数据集里定义的数据;
核函数κ:κ(y,y`):其中,y与y`表示核函数的两个参数, 表示数据点之间的相似性;
簇的初始数目c;
缓冲区中的初始点数m,且缓冲区中的初始点数m>簇的初始数目c;
缓冲区中允许的最大点数M,且缓冲区中的初始点数m<缓冲区中允许的 最大点数M;
团簇衰变率γ;
团簇寿命阈值η;
步骤S2:初始化聚类中心S,S={x1},VC=1和Σc=κ(x1,x1);其中,V表 示特征向量;
步骤S3:利用重要抽样方法进行采样,并根据采样到的样本集构造核矩阵;
步骤S4:利用核k-means方法对核矩阵进行聚类,获得带有标记的矩阵;
步骤S5:根据带有标记的矩阵更新核矩阵;
步骤S6:输出聚类结果。
与现有技术相比,本发明提供的基于重要抽样的流数据聚类方法,利用重 要抽样来采样数据集,用样本点构造核矩阵,同时采样衰退聚类机制更新核矩 阵,将其投影到顶部向量所跨越的低维空间中,在此时用k-means将样本点聚类, 可以在降低时间复杂度的同时提高准确率。
附图说明
通过参考以下结合附图的说明及权利要求书的内容,并且随着对本发明的 更全面理解,本发明的其它目的及结果将更加明白及易于理解。在附图中:
图1为根据本发明实施例的基于重要抽样的流数据聚类方法的流程示意图;
图2为根据本发明实施例的Imagenet数据集对比实验NMI值的示意图;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于辽宁工程技术大学,未经辽宁工程技术大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811172699.4/2.html,转载请声明来源钻瓜专利网。





