[发明专利]一种基于回归的性能优异的疾病和miRNA关联预测方法在审
申请号: | 202111387787.8 | 申请日: | 2021-11-22 |
公开(公告)号: | CN114171124A | 公开(公告)日: | 2022-03-11 |
发明(设计)人: | 王树林;陈嘉 | 申请(专利权)人: | 湖南大学 |
主分类号: | G16B40/20 | 分类号: | G16B40/20;G06N3/08 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 410082 湖南省*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 回归 性能 优异 疾病 mirna 关联 预测 方法 | ||
本发明涉及生物信息学中的数据挖掘领域,具体涉及一种基于回归的性能优异的miRNA与疾病关联预测方法。其发明内容主要包括:(1)数据集的收集和处理;(2)构建疾病语义相似性矩阵SS、miRNA功能相似性矩阵FS、疾病/miRNA高斯相互作用轮廓核相似性矩阵KD和KM以及疾病/miRNA综合相似性矩阵SD和SM;(3)利用嵌入层的概念,利用回归模型训练嵌入层,将一种疾病/miRNA映射成一个特征向量;(4)利用k均值聚类挑选负样本;(5)构建BP神经网络并训练;(6)利用训练好的BP神经网络做预测;(7)利用dbDEMC数据库验证预测结果的准确性。和现有的技术相比,本发明提供了一种基于回归提取特征向量,并用k均值聚类提取负样本以识别未知的疾病‑miRNA关联,具有更强的鲁棒性。本发明的方法可行且有效,在预测miRNA与疾病关联方方面能取得良好的效果,对于疾病/miRNA特征向量的提取的发展具有重要意义。
技术领域
本发明涉及生物信息学中的数据挖掘领域,具体涉及一种基于回归的性能优异的miRNA 与疾病关联预测方法。
背景技术
自人类出现以来,人类就一直与疾病做斗争。这背后,与人们对疾病本质的研究和了解, 有重大的关联。为了从本质上了解自身和认识疾病,人们曾开展过一系列的研究,比如人类 基因组计划、癌症基因组学等。MicroRNA(miRNA)是一类长约20-24个核苷酸的非编码 miRNA,目前大量的研究表明,miRNA与多种疾病的发生及发展有关,例如免疫疾病,先天性疾病,甚至癌症等,研究miRNA与疾病之间的关联对于人类复杂疾病的诊断,治疗等具有重要的价值。
探究miRNA与疾病之间的关系的方法可以概括为生物湿实验法和生物信息学方法,生 物湿实验耗时长,成本高,实验条件苛刻,但是准确性高。生物信息学方法耗时较少,成本 低,实验要求低,但是还是需要生物湿实验证明预测结果的有效性,所以生物信息学方法预 测结果的准确性就非常重要。在生物信息学方法中,基于网络的预测模型和基于机器学习的 预测模型。基于网络的方法的共同点是假设功能相关的miRNA与表型相似的疾病密切相关, 反之亦然。例如,Han等人提出了DismiPred方法,这种方法通过整合miRNA相似网络和公 共关联信息来对未知的miRNA与疾病关联做预测。Chen等人提出了HAMDA方法,HAMDA 充分利用了miRNA功能相似性网络以及疾病语义相似性网络这双层网络中的网络结构节点 属性,使得预测效果较好。但是DismiPred和HAMDA都不能应用于涉及孤立疾病或者孤立 miRNA的关系预测。除了网络的预测模型外,还有基于机器学习算法的预测模型,基于机器 学习的方法使用已知的疾病和miRNA关联来训练学习模型,然后运用训练后的模型对未知 的关联进行预测。例如,Li等人提出了NIMCCGCN方法,NIMCCGCN首先利用不同的数据集构建miRNA-疾病网络,再利用图卷积网络以及线性变换从miRNA-疾病网络提取出miRNA和疾病的特征表达,接着利用这些特征向量训练模型,最后利用训练好的模型对未知的miRNA-疾病对做预测。Chen等人提出了RFMDA机器模型框架,RFMDA基于随机森林提取 特征向量,然后从未知的miRNA-疾病关联中选择负样本,但是由于分样本的选择是随机的, 导致模型性能不稳定。Zhao等人提出了ABMDA,ABMDA是一种自适应增强模型,选取负样 本的方法是利用k均值聚类算法先将负样本分成23簇,再从这23簇中的每一簇随机选取相 同数量的负样本,但是没有考虑到每一簇的样本数是不同的。
因此针对上面方法中存在的孤立miRNA/疾病无法预测问题,负样本选取不平衡等问题 本文提出了一种基于回归以提取特征向量以及k均值选取负样本的性能优异的机器学习方法, 以预测未知miRNA-疾病对之间的相关性。
发明内容
本发明提出了一种基于回归的性能优异的miRNA与疾病关联预测方法,用以预测未知 的miRNA-疾病之间是否存在关联,主要包括以下步骤:
(1)收集已知疾病-miRNA相互作用数据,疾病、miRNA之间的成对关联信息,miRNA语义信息和疾病相似性数据。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于湖南大学,未经湖南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111387787.8/2.html,转载请声明来源钻瓜专利网。