[发明专利]基于特征筛选和集成算法的非编码RNA预测方法在审
申请号: | 202010240971.9 | 申请日: | 2020-03-31 |
公开(公告)号: | CN111462820A | 公开(公告)日: | 2020-07-28 |
发明(设计)人: | 孙婷婷 | 申请(专利权)人: | 浙江科技学院 |
主分类号: | G16B30/00 | 分类号: | G16B30/00 |
代理公司: | 杭州万合知识产权代理事务所(特殊普通合伙) 33294 | 代理人: | 丁海华 |
地址: | 310012 浙*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 特征 筛选 集成 算法 编码 rna 预测 方法 | ||
本发明公开了一种基于特征筛选和集成算法的非编码RNA预测方法,包括以下步骤:a、在RNA数据库中获取非编码RNA序列组成正样本数据集,并选取与非编码RNA序列相同数量的RNA序列组成负样本数据集,得到正样本数据集和负样本数据集组成的数据集,并将数据集分割成训练集和预测集;b、利用特征筛选和集成算法构建机器学习模型,将训练集输入至机器学习模型中使其进行训练,通过训练后的机器学习模型进行非编码RNA预测。本发明可以对非编码RNA进行预测,预测结果较为准确,预测效率大大提高。
技术领域
本发明涉及RNA预测技术领域,特别涉及一种基于特征筛选和集成算法的 非编码RNA预测方法。
背景技术
一直以来生物研究者使用生物实验的方法识别非编码RNA,生物实验的方法 主要是通过各种先进实验技术来大规模识别非编码RNA基因。虽然生物实验方 法可以准确识别非编码RNA,但是对那些表达水平极低、在不同时期才表达或者 在特定环境下才表达的非编码RNA,生物实验的方法不再适用,除此之外,依靠 生化实验方法识别非编码RNA既耗时而且价格昂贵,因此,目前生物实验的方 法对非编码RNA识别受到不同程度的限制,所以我们有必要利用生物信息学方 法从基因组序列中识别非编码RNA。
非编码RNA在染色体复制、RNA加工与修饰、肿瘤抑制、细胞调亡和基因调 控网络方面扮演着重要角色。非编码RNA分子参与的调控网络可以影响人类发 育、进化、遗传变异和多种疾病的等关键生理进程。对非编码RNA深入研究可 能揭示一个全新的由RNA介导的遗传信息表达调控网络,从而以不同的视角阐 明和解释人类基因组的结构和功能,也将为人类疾病和治疗提供新的技术和思 路。随着新一代高通芯片和测序技术的发展,不同物种的基因组已经陆续测序 完成,利用生物信息学方法从基因组序列中预测非编码RNA基因非常重要,已 成为RNA基因组学的研究热点。
近几年人工智能的飞速发展,机器学习和深度学习应用领域的不断扩大, 将人工智能与生物学相结合的想法及研究成为新的探索点,也是目前研究和应 用的热门领域。实际上,深度学习的优势在于它可以将数据映射到高维空间中, 深度学习自主地发现生物基因序列中我们用肉眼无法发现的内在特征,虽然深 度学习有很高识别生物基因序列的能力,但是深度学习通过卷积层自主提取生 物特征是无法预知的,导致了生物学研究者无法对生物特征的功能进一步了解。 而机器学习可以提取所需的生物特征,并对生物特征进一步研究,通过研究结 果从不同的视角解析生物特征的结构和功能。想要更深一步研究非编码RNA的 功能和结构,非编码RNA的识别是最关键的一步。通过生物实验的方法识别非 编码RNA虽然准确可靠,但是对那些表达水平极低、在不同时期才表达或者在 特定环境下才表达的非编码RNA,生物实验的方法不再适用。除此之外,实验的 方法既耗时而且价格昂贵。因此,如何利用机器学习对非编码RNA进行准确预 测成为申请人所要研究与解决的技术问题。
发明内容
本发明的目的在于,提供一种基于特征筛选和集成算法的非编码RNA预测 方法。本发明可以对非编码RNA进行预测,预测结果较为准确,预测效率大大 提高。
本发明的技术方案:基于特征筛选和集成算法的非编码RNA预测方法,包 括以下步骤:
a、在RNA数据库中获取非编码RNA序列组成正样本数据集,并选取与非编 码RNA序列相同数量的RNA序列组成负样本数据集,得到正样本数据集和负样本 数据集组成的数据集,并将数据集分割成训练集和预测集;
b、利用特征筛选和集成算法构建机器学习模型,将训练集输入至机器学习 模型中使其进行训练,通过训练后的机器学习模型进行非编码RNA预测。
上述的基于特征筛选和集成算法的非编码RNA预测方法,包括以下步骤:
a、在RNA数据库中获取lncRNA序列组成正样本数据集,并选取与lncRNA 序列相同数量的mRNA序列组成负样本数据集,得到正样本数据集和负样本数据 集组成的数据集,并将数据集分割成训练集和预测集;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江科技学院,未经浙江科技学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010240971.9/2.html,转载请声明来源钻瓜专利网。