[发明专利]基于自适应网格边界划分的多维数据聚类改进算法在审
申请号: | 202210229884.2 | 申请日: | 2022-03-09 |
公开(公告)号: | CN114943266A | 公开(公告)日: | 2022-08-26 |
发明(设计)人: | 赫斌;何云斌;赵琦 | 申请(专利权)人: | 哈尔滨理工大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 150080 黑龙*** | 国省代码: | 黑龙江;23 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 自适应 网格 边界 划分 多维 数据 改进 算法 | ||
1.一种基于自适应网格边界划分的多维数据聚类改进算法,主要包括以下步骤:
步骤一:根据单元网格划分参数的值将原数据表的每一维划分成相等的区间,同时将每一维上区间的划分保存下来;
步骤二:n=1;这时所有的单元都为候选密集单元;
步骤三:扫描原数据表,找出n维子空间中落在每个候选密集单元的数据点数;
步骤四:根据密度阈值公式计算密度阈值;
步骤五:根据计算出的密度阈值找出n维子空间中的密集单元;
步骤六:根据自适应边界划分算法重新划分密集单元边界;
步骤七:根据子空间的聚类效果筛选子空间;
步骤八:用MDL-based算法修剪子空间;
步骤九:由n维子空间中的密集单元集求出n+1维子空间中的候选密集单元集,若n+1维子空间中的候选密集单元集不为空,则跳转第三步;
步骤十:用深度优先算法找出n维空间中的聚类;
步骤十一:用贪婪算法求覆盖每个聚类的最大区域集;
步骤十二:求出每个聚类的最小覆盖;
步骤十三:将聚类信息保存到结果表中。
2.根据权利要求1所述的一种自适应网格边界划分的多维数据聚类改进算法,对于任意单元网格,其密度阈值公式为:
3.根据权利要求2所述的网格密度阈值,其中每一个子空间中包含的数据投影点数和为sum,每个子空间的非空单元网格数目和为count(Si)。
4.根据权利要求1所述的一种自适应网格边界划分的多维数据聚类改进算法,对于子空间的聚类效果,可分为两种情况:第一种情况,当子空间的密集连通单元网格的数量等于1时,说明该子空间将所有数据聚为一类,同时也会删除一些孤立点和少部分簇中数据点,故对数据聚类帮助不大,可将此子空间舍弃;第二种情况:当子空间的密集连通单元网格的数量大于1时,说明该子空间将所有数据聚为不止一类,能够有效帮助聚类,可将此子空间保留下来。
5.根据权利要求1所述的一种自适应网格边界划分的多维数据聚类改进算法,对于自适应网格边界划分算法重新划分密集单元边界。
6.根据权利要求5所述的自适应网格划分边界算法,是根据Clique算法,把原多维空间数据对象的每一维属性按照设定很好的值划分成相等的区间,即每个区间被划分为[s1,l1),[s2,l2),…,[sn,ln)。遍历待划分密集单元,m=1为第一次划分网格,密集单元[si,li)相邻的待划分密集单元为[si+d,li+d),其中d为区间长度。若带划分密集单元的1/2m区间[si+d,li+d/2m)的密度阈值大于1/2m的密度阈值ρ/2m,则将该区间并入到密集单元中,密集单元更新为[si,li+d/2m)。否则重复(4)步骤,直到待划分密集单元[si+d,li+d/2m)中无数据点。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于哈尔滨理工大学,未经哈尔滨理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210229884.2/1.html,转载请声明来源钻瓜专利网。