[发明专利]一种RNA选择性剪接位点识别方法及系统在审
| 申请号: | 201910305376.6 | 申请日: | 2019-04-16 |
| 公开(公告)号: | CN110010201A | 公开(公告)日: | 2019-07-12 |
| 发明(设计)人: | 孙晓勇;李瑞;魏庆功 | 申请(专利权)人: | 山东农业大学 |
| 主分类号: | G16B30/10 | 分类号: | G16B30/10;G16B40/00 |
| 代理公司: | 济南圣达知识产权代理有限公司 37221 | 代理人: | 杨晓冰 |
| 地址: | 271018 山*** | 国省代码: | 山东;37 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 选择性剪接 位点 学习神经网络 预处理 点数据 卷积神经网络 循环神经网络 数据构建 数据训练 测试集 训练集 验证集 标签 测试 预测 | ||
本发明公开了一种RNA选择性剪接位点识别方法及系统,该方法包括以下步骤:选取RNA选择性剪接位点数据和非RNA选择性剪接位点数据,并对其进行预处理,利用预处理后的数据构建训练集、验证集与测试集,并生成相应的标签;搭建卷积神经网络与循环神经网络相结合的深度学习神经网络模型;利用训练集中数据训练深度学习神经网络模型;采用训练后的深度学习神经网络模型对测试集中数据进行识别,得到RNA剪接位点和非RNA剪接位点。本发明可以快速准确的识别并预测新的RNA选择性剪接位点。
技术领域
本公开涉及RNA选择性剪接位点识别技术领域,尤其涉及一种基于深度学习算法的RNA选择性剪接位点识别方法及系统。
背景技术
真核基因由多个外显子(编码区)和内含子(非编码区)组成。基因剪接位点是指一对外显子和内含子之间的边界。外显子-内含子边界称为“供体(Donor)”,内含子-外显子边界称为“受体(Accepter)”。前体mRNA删除内含子,并通过选择性剪接连接外显子,使基因最终表达为蛋白质,如图1所示。
基因剪接是基因转录过程的重要组成部分,在转录组研究中起着关键作用。选择性剪接直接影响着基因表达的蛋白质多样性,能够准确的识别供体受体对于破解蛋白质主要结构、功能和相互作用是很重要的,也是生物信息的人工智能识别中的一项重要任务。
发明人在研发过程中发现,现有采用生物测序的方式识别剪接位点往往费用非常昂贵,并且时间较久,浅层的机器学习识别准确率则并不理想。
发明内容
为了克服上述现有技术的不足,本公开提供了一种基于深度学习算法的RNA选择性剪接位点识别方法及系统,采用深度学习算法,构建一个对RNA剪接位点的序列识别并判断的深度学习神经网络模型,利用深度学习神经网络模型对RNA剪接位点信息进行识别,更加快速和方便。
本公开的第一方面的一种RNA选择性剪接位点识别方法的技术方案是:
一种RNA选择性剪接位点识别方法,该方法包括以下步骤:
选取RNA选择性剪接位点数据和非RNA选择性剪接位点数据,并对其进行预处理,利用预处理后的数据构建训练集、验证集与测试集,并生成相应的标签;
搭建卷积神经网络与循环神经网络相结合的深度学习神经网络模型;
利用训练集中数据训练深度学习神经网络模型;
采用训练后的深度学习神经网络模型对测试集中数据进行识别,得到RNA剪接位点和非RNA剪接位点。
本公开的第二方面的一种RNA选择性剪接位点识别系统的技术方案是:
一种RNA选择性剪接位点识别系统,该系统包括:
数据选取模块,用于选取RNA选择性剪接位点数据和非RNA选择性剪接位点数据,并对其进行预处理,利用预处理后的数据构建训练集、验证集与测试集,并生成相应的标签;
模型搭建模块,用于搭建深度卷积神经网络和循环神经网络相结合的深度学习神经网络模型;
模型训练模块,用于利用训练集中数据训练深度学习神经网络模型,提取并保存训练结果的权重参数;
剪接位点识别模块,用于采用训练后的深度学习神经网络模型对测试集中数据进行识别,得到RNA剪接位点和非RNA剪接位点。
本公开的第三方面的一种计算机可读存储介质的技术方案是:
一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上所述的RNA选择性剪接位点识别方法中的步骤。
本公开的第四方面的一种计算机可读存储介质的技术方案是:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山东农业大学,未经山东农业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910305376.6/2.html,转载请声明来源钻瓜专利网。





