[发明专利]一种面向部分标记异质数据的粗糙集属性约简方法在审
| 申请号: | 202110086066.7 | 申请日: | 2021-01-22 |
| 公开(公告)号: | CN112765429A | 公开(公告)日: | 2021-05-07 |
| 发明(设计)人: | 冀俊忠;张子腾;杨翠翠 | 申请(专利权)人: | 北京工业大学 |
| 主分类号: | G06F16/906 | 分类号: | G06F16/906;G06F16/9035 |
| 代理公司: | 北京思海天达知识产权代理有限公司 11203 | 代理人: | 刘萍 |
| 地址: | 100124 *** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 面向 部分 标记 质数 粗糙 属性 方法 | ||
一种面向部分标记异质数据的粗糙集属性约简方法涉及数据挖掘。本发明的目的是解决现有粗糙集属性约简方法无法同时直接处理异质数据和部分标记数据的问题,提出了一种面向部分标记异质数据的粗糙集属性约简方法。首先,引入了HEOM距离来度量异质数据的不可分辨关系,从而导出了一种面向异质数据的等价类粒子的划分方法;其次,构造了一种反映不可分辨关系的等价类粒子的结构信息,不依赖数据标签就可以衡量部分标记数据中属性的分类判别能力;最后,发展了能够在部分标记数据上进行属性评价的广义依赖度,实现了一种面向部分标记异质数据的粗糙集属性约简方法。
技术领域
本发明涉及数据挖掘,属性约简领域,具体是一种利用HEOM距离和邻域粒子结构对部分标记异质数据进行属性约简的方法。
背景技术
在当今大数据时代的背景下,数据的快速产生和增长产生了很多问题。一方面,获取数据的样本相对容易,但对数据样本进行分类标记需要耗费大量的人力物力,甚至根本无法获得准确的样本标签,因此产生了很多只有一部分数据具有对应标签的数据集,称为部分标记数据。另一方面,数据结构的日益复杂,导致数据的类型不再是离散或连续的单一类型,更可能是连续型和离散型混合的异质数据。这些问题的存在,致使现实应用中的数据或是异质数据,或是部分标记数据,甚至是部分标记的异质数据,极大地增加了数据处理的难度。
属性约简又称特征归约,主要研究如何从数据中去除冗余和不相关的属性,得到分类能力不变的属性子集,以提高学习算法的性能。经典粗糙集(Rough Set)理论是波兰数学家Z.Pawlak在20世纪80年代提出的一种处理不精确、不一致、不完备知识的数学工具,属性约简是其最重要的研究内容之一。它能够在未提供任何先验信息的情况下获得数据的核心知识,实现属性约简。目前已经广泛应用于机器学习、数据挖掘和模式识别等领域。
经典粗糙集通常利用属性子集所表示的等价关系对数据进行等价类粒子的划分,然后依据决策属性对属性子集的依赖度来选择分类判别能力强的属性子集。这种粗糙集约简方法只适合于处理离散数据。为了能够直接处理连续数据,胡清华等人用邻域关系取代了经典粗糙集理论中的等价关系,提出了邻域粗糙集。
在邻域粗糙集中,一个信息系统IS可以表示为(U,A),其中U是非空有限集,是由所有样本数据构成的论域;A也是一个非空有限集,其中的元素称为属性,对应样本数据中的特征.特别的,如果A=C∪D,则称信息系统(U,C∪D)为决策系统,记为DS,其中C中的属性称为条件属性,D称为决策属性.决策属性对应于样本数据的类别标签.
定义1:给定论域U和属性集C,对于U上的任意对象x,其在属性集B上的邻域定义为
δB(x)={y|y∈U,Δ(x,y)≤δ}
其中,δ≥0,称为邻域半径,决定了邻域的大小;Δ代表距离函数,用来计算论域空间内两个对象之间的距离,目前常用的距离函数有曼哈顿距离和欧式距离等.
定义2:给定IS=(U,A),δ∈[0,1],关于B的X的下近似集与上近似集分别定义为
下近似集是由那些整个邻域都属于X元素组成的,可以推断出这些元素肯定属于X;上近似集是由那些邻域与X相交的元素组成的,这些元素可能属于X,也可能不属于X.
定义3:给定DS=(U,C∪D),决策属性D将U划分为N个子集X1,X2,...XN,决策属性D关于条件属性集B的下近似集与上近似集定义为
正域表示为
决策属性D对条件属性B的依赖度定义为
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京工业大学,未经北京工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110086066.7/2.html,转载请声明来源钻瓜专利网。





