[发明专利]一种基于ReliefF和蚁群的特征基因选择方法在审
申请号: | 202110061383.3 | 申请日: | 2021-01-18 |
公开(公告)号: | CN112786111A | 公开(公告)日: | 2021-05-11 |
发明(设计)人: | 李峰;向文杰;董林;潘文哲;周军;张学典 | 申请(专利权)人: | 上海理工大学 |
主分类号: | G16B40/00 | 分类号: | G16B40/00;G06N3/00;G06K9/62 |
代理公司: | 北京东方盛凡知识产权代理事务所(普通合伙) 11562 | 代理人: | 王颖 |
地址: | 200093 上海市*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 relieff 特征 基因 选择 方法 | ||
本发明公开了一种基于ReliefF和蚁群的特征基因选择方法,具体包括:S1:采集DNA数据集,获得初始数据集,基于所述初始数据集,得到训练集;S2:基于ReliefF算法,通过设置权重阈值,得到候选特征子集;S3:基于所述候选特征子集,通过蚁群算法,得到初始基因选择子集;S4:重复S2‑S3,对实时候选特征子集进行权重排序,根据所需权重特征,筛选得到候选基因,通过蚁群算法,得到目标基因选择子集,对所述DNA数据集进行有效特征基因选择。本发明相比其他方法有更高的精度和更少的时间复杂度,有效地避免数据的缺失问题,且本发明里的方法可以在选择较少特征的情况下实现最快速度的维数约简。
技术领域
本发明涉及生物特征基因选择领域,具体设计一种基于ReliefF和Ant ColonyAlgorithm的特征基因选择的优化方法。
背景技术
特征基因选择,是基于DNA微阵列选择合适的特征子集作为特征基因的一种生物信息学技术。利用计算统计处理技术对高维的微阵列数据进行分类,将特征基因选择问题,转化为一个多分类问题,对病变基因进行特征基因选择,进而对病变基因进行预判、诊断和治疗。
目前机器学习中,特征选择采取的方法主要分为三种,过滤式,封装式、嵌入式,无法兼顾特征基因选择时间复杂度低、精确度高的要求,因此设计出一种基于ReliefF和AntColony Algorithm的方法进行特征基因的选择,从原始DNA数据集中确定一组最有效的特征基因,减少时间复杂度,提高分类精度。
发明内容
本发明的目的:如何解决在滤式方法使用过程中不能有效地去除冗余特征导致精确度较差的问题,以及监督学习中过度依赖标签的情况,提出了一种基于ReliefF和AntColony Algorithm的特征基因选择的优化方法。
本方面是通过以下技术方案解决上述技术问题的,本发明包括以下步骤:
S1:采集DNA数据集,获得初始数据集,基于所述初始数据集,得到训练集模型;
S2:基于ReliefF方法,通过设置权重阈值,依据所述训练集模型,构建候选特征子集模型;
S3:基于所述候选特征子集模型,通过蚁群方法,得到初始基因选择子集模型;
S4:重复S2-S3,基于所述候选特征子集模型的权重特征,通过所述候选特征子集模型,构建候选基因模型,通过蚁群方法,基于初始基因选择子集模型,构建目标基因选择子集模型,用于对所述DNA数据集进行有效特征基因选择。
优选地,所述S2中:设置所述权重阈值用于根据基因特征的重要性对训练集进行权重评估,将权重高于阈值的留下作为特征子集候选,低于阈值的被当作无关基因剔除。
优选地,所述ReliefF方法包括:设置初始化特征权重,基于所述训练集,得到随机样本,然后根据权重函数公式选择候选特征子集。
优选地,所述随机样本包括与所述随机样本同类的第一最近邻样本和与所述随机样本不同类的第二最近邻样本。
优选地,构建所述权重函数公式的具体步骤包括:
S5.1.计算所述特征权重的权重系数;
S5.2.计算所述特征子集的特征差异。
优选地,所述权重函数如公式包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海理工大学,未经上海理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110061383.3/2.html,转载请声明来源钻瓜专利网。