[发明专利]粗糙集属性约简的方法在审
申请号: | 201611062288.0 | 申请日: | 2016-11-25 |
公开(公告)号: | CN106650936A | 公开(公告)日: | 2017-05-10 |
发明(设计)人: | 赵昶宇;邢怀岗 | 申请(专利权)人: | 天津津航计算技术研究所 |
主分类号: | G06N3/12 | 分类号: | G06N3/12 |
代理公司: | 中国兵器工业集团公司专利中心11011 | 代理人: | 刘东升 |
地址: | 300308 天津*** | 国省代码: | 天津;12 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 粗糙 属性 方法 | ||
技术领域
本发明涉及数据挖掘与知识发现技术领域,具体涉及一种粗糙集属性约简的方法。
背景技术
Wong S.K.M.和Ziarko在1985年已经证明找出一个信息系统或决策表的最小约简是一个NP-hard问题,这是由数据组合爆炸引起的,不存在统一、规范的高效方法,对大型数据库,最小约简事实上并不存在,得到了只是近似约简。为研究更为有效的约简方法,有效地获取较优的属性约简,并降低实现的时间复杂度,寻求快速的约简方法是目前粗糙集理论的主要研究课题之一。
目前最常见的粗糙集属性约简的方法有:
1)基于区分矩阵的属性约简算法
该算法直观易于理解,但是在处理大量数据集合时,算法的时间复杂度和空间复杂度成指数增长,约简的速度非常慢。
2)基于属性依赖度的约简算法
该算法在对大量数据集合的约简时,效率较高,但是该算法只得到了条件属性的核,并没有得到属性的一个约简,且不适合不相容系统的约简。
3)基于属性重要度的约简算法
该算法和基于属性依赖度的约简算法相比,能够更好的处理属性满足确定性关系,且有强烈因果关系的属性集。但该算法并能不保证一定能够找到信息系统的最优解。
4)基于遗传算法的属性约简算法
遗传约简算法大大提高了决策表约简结果的准确性和算法的高效性,但是该算法不能够处理不相容和不确定关系的信息系统。
发明内容
(一)要解决的技术问题
本发明要解决的技术问题是:如何设计一种新的粗糙集属性约简的方法,以便能够提高属性约简准确性和效率,又能够处理不相容和不确定关系的信息系统。
(二)技术方案
为了解决上述技术问题,本发明提供了一种粗糙集属性约简的方法,所述方法包括以下步骤:首先,利用属性核本身的特征确定初始种群,建立适应度函数;然后,利用遗传算法找到条件属性集合中适应值最大的染色体作为遗传的优化解集合;最后,使用所述遗传算法生成初始信息素,利用蚁群算法的局部寻优和正反馈机制得到粗糙集属性约简的最优解。
优选地,所述方法具体包括以下步骤:
S1:
S11:染色体编码
采用长度为N的二进制串来表示一个染色体,“l”表示该染色体包含对应的条件属性,“0”表示该染色体不包含对应的条件属性;
S12:确定初始种群
利用属性核本身的特征对初始种群进行限制,在每个染色体中,将属性核所在的位置上的基因强制取值为“1”;所述属性核是所有属性约简的交集;
S13:建立适应度函数
定义染色体的适应度函数为:F(v)=|C|-Lv,其中:v表示一条染色体,即一个个体,|C|是染色体所代表的条件属性集中属性的个数;Lv是染色体中所包含的条件属性的个数;
S14:判断是否满足终止条件
终止条件:如果连续繁殖W代的最优条件属性的适应值没有变化时,则结束,否则转步骤S15;W为整数,是预设阈值;
S15:选择算子
a1)设条件属性集合的长度为N,每个属性的适应度为Fi,i=1,2,…,N,计算条件属性集合中每个属性在下一代条件属性集合中的期望生存数目
b1)用Ni的整数部分确定各个对应条件属性在下一代条件属性集合中的生存数目,其中表示取不大于Ni的最大整数,从确定下一代条件属性集合中的个属性;
c1)以表示各个条件属性新的适应度,选择算子随机确定下一代条件属性集合中还未确定的个条件属性;
S16:交叉算子
采用多点位单基因交叉的方式,用父代最优解Tmax与子代染色体池T进行交叉操作:
a2)在染色体池T中选择进行交叉操作的条件属性集合Ti和属性约简的最优解Tmax;
b2)随机生成交叉片段和交叉区域;
c2)将Ti的交叉区域加到Tmax前面,删除与交叉区域相同的条件属性,得到一个新的条件属性集合;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于天津津航计算技术研究所,未经天津津航计算技术研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201611062288.0/2.html,转载请声明来源钻瓜专利网。