[发明专利]一种k-近邻关系下的空间高效用核模式挖掘方法在审
| 申请号: | 202011519782.1 | 申请日: | 2020-12-21 |
| 公开(公告)号: | CN112667703A | 公开(公告)日: | 2021-04-16 |
| 发明(设计)人: | 王丽珍;罗金;周丽华;陈红梅;肖清 | 申请(专利权)人: | 云南大学 |
| 主分类号: | G06F16/2458 | 分类号: | G06F16/2458;G06K9/62 |
| 代理公司: | 成都东恒知盛知识产权代理事务所(特殊普通合伙) 51304 | 代理人: | 罗江 |
| 地址: | 650000*** | 国省代码: | 云南;53 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 近邻 关系 空间 效用 模式 挖掘 方法 | ||
本发明涉及一种k‑近邻关系下的空间高效用核模式挖掘方法,包括对一个核元素f,计算其每个实例ij的k‑近邻实例集k‑NI(ij);求出其k‑近邻特征集k‑NF(f),收集所有的候选核模式{f,P};计算二阶候选核模式{f,P}的效用度,并将其中满足第二剪枝条件和第三剪枝条件的核模式进行剪枝;计算三阶以上候选模式{f,P}的参与实例集和模式效用度,并将其中满足第一剪枝条件和第四剪枝条件的核模式进行剪枝;输出高效用核模式集CP。本发明将k‑近邻引入到空间高效用co‑location模式挖掘中,更加合理地度量了空间实例之间的邻近关系,对于均匀和不均匀分布的空间数据集,挖掘方法都具有良好的可伸缩性。
技术领域
本发明涉及数据处理技术领域,尤其涉及一种k-近邻关系下的空间高效用核模式挖掘方法。
背景技术
空间co-location模式挖掘是空间数据挖掘的一个重要分支,旨在从空间数据中提取那些频繁邻近出现的空间特征的子集,在城市规划、生态系统和交通领域等都有广泛的应用;但经研究发现,空间数据除了具有空间属性外,还具有一些不可忽视的非空间属性,如价值、时间等;价值属性也称为效用属性,是事物或数据对于不同的使用者或领域其重要性程度度量的指标,如商品的价格对于商业经济来说就是一个效用值,学校的教学评估等级(如A、B、 C、D等)就是其在教学质量方面的效用值等;“效用”一词在数据挖掘领域最初出现在基于事务数据的高效用项集挖掘中,其以香水带动口红和钻石销售的例子说明具有较高应用价值的项不一定是频繁出现的。空间高效用co-location模式挖掘就是引入了空间数据的效用属性到空间模式的兴趣性度量中,结果发现空间数据带效用后,原本频繁的空间模式不一定具有较高的效用,而原来被忽视的一些模式却成了高效用的空间co-location模式,从而提出了各种空间高效用模式挖掘技术,弥补了co-location模式挖掘中知识的遗漏和其隐含的预测性信息。
现有的空间高效用co-location模式挖掘方法可分为两大类:考虑空间特征带效用的挖掘方法和考虑空间实例带效用的挖掘方法。由于现实中空间实例分布的差异性,实例带效用的挖掘框架更符合实际意义。如商业活动中空间特征为钻石,由于在自然界中的钻石大小不一和成色差异等,它的实例效用是不一样的。在城市规划中特征为酒店、学校、小区、高铁站等,每一个特征的实例各有差异,生态系统中树木的大小,药材的年份等不同也使得同一特征的不同实例效用不同。
空间高效用co-location模式挖掘是从经典的空间co-location模式挖掘发展起来的,所以在度量空间实例的邻近关系的时候,沿用了传统的方法,通常是人为指定单一的距离阈值d,计算出实例之间的距离,小于或等于d的实例对被认为是邻近的,这种度量方式存在以下几个问题:1、人为指定单一的距离阈值缺乏科学性。空间实例的分布大多是随机自然产生的,如两种植物之间的距离,河流与山脉的距离等。2、算法对d比较敏感。可能给定了一个较大的阈值d,算法性能降低的同时挖掘到了大量模式;如果减小阈值d,有可能算法性能提高了,但挖掘不到有意义的模式。3、挖掘框架不适用于不均匀的数据集。由于空间数据分布的差异性,当指定d时,会在分布稠密的区域得到较多的候选模式,但是在数据分布稀疏的区域得到的候选模式就比较少,所以也很难挖掘出带稀有特征的模式。
传统的空间高效用co-location模式挖掘基本都采用了一种类PI(参与度)的挖掘框架,即求出每个特征在候选模式中的效用参与率,取最小的一个跟效用度阈值比较,大于等于效用度阈值的候选模式即是高效用的co-location模式。但在一些实际应用中,是不用求出每个特征的效用参与率的,或者可以说不考虑该特征的效用值。如在国内的5A级景区周围进行商业规划,挖掘那些和景区一起出现的高效用模式,采用传统的高效用模式挖掘方法,会将景区本身的效用值(如旅游收益)一起计算到模式效用中,5A景区的收益一般都是比较高的,这样便会得到许多不可靠的“高效用模式”。就商业规划而言,投资者更关心的是和景区邻近的拟投资的商业体(如酒店,餐饮行业)组成的模式是否是高效用模式。
发明内容
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于云南大学,未经云南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011519782.1/2.html,转载请声明来源钻瓜专利网。





