[发明专利]一种基于卷积神经网络的RNA-蛋白质结合位点预测方法有效

专利信息
申请号: 202111519617.0 申请日: 2021-12-14
公开(公告)号: CN113936738B 公开(公告)日: 2022-04-22
发明(设计)人: 潘正森;周树森;邹海林;柳婵娟;臧睦君;刘通;王庆军 申请(专利权)人: 鲁东大学
主分类号: G16B20/30 分类号: G16B20/30;G16B40/00;G06N3/04;G06N3/08
代理公司: 暂无信息 代理人: 暂无信息
地址: 264025 山东*** 国省代码: 山东;37
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 卷积 神经网络 rna 蛋白质 结合 预测 方法
【权利要求书】:

1.一种基于卷积神经网络的RNA-蛋白质结合位点预测方法,包括预处理RNA序列、训练卷积神经网络和测试卷积神经网络三个过程,其具体步骤如下:

步骤1、为了从RNA序列中提取更多的结合信息,需要使用P个不同长度的窗口分别处理RNA序列,P表示窗口数量,当不同窗口长度之间的间隔X确定下来时,P就根据公式 (1) 确定下来,因此,需要首先确定P个不同的窗口长度;

其中,MaxL是初始窗口长度,MinL是最小窗口长度,X是从初始窗口长度递减核苷酸的个数;

步骤2、使用P个不同长度的窗口分别处理RNA序列;对于不等长的RNA序列,当窗口长度大于RNA序列时,使用补足碱基N把RNA序列填充到窗口长度;当窗口长度小于RNA序列时,根据窗口长度把RNA序列分割成Q个有部分重叠的等长子序列,Q表示等长子序列数量,当窗口长度确定下来时,Q就根据公式 (3) 确定下来,子序列不足的RNA序列使用全是补足碱基N的子序列填充;

其中,L是RNA序列长度,W是窗口大小,S是窗口之间的重叠长度,当剩余RNA碱基数量大于10时,从后向前截窗口大小的长度作为一条子序列;

步骤3、把步骤2中使用P个不同长度的窗口分别处理好的RNA序列数据通过单热编码的方式编码成P个矩阵;

步骤4、把步骤3中生成的P个单热编码矩阵作为卷积神经网络的输入,对于P个单热编码矩阵,每一个单热编码矩阵训练一个卷积神经网络模型;

步骤5、保存训练好的P个卷积神经网络模型;

步骤6、使用步骤5中保存好的模型来预测输入的RNA序列数据。

2.根据权利要求1所述的一种基于卷积神经网络的RNA-蛋白质结合位点预测方法,步骤1的实现过程如下:

确定处理RNA序列所使用的不同窗口长度:将501个核苷酸的长度作为初始窗口长度MaxL;其余窗口长度分别以MaxL为初始长度递减核苷酸个数为X的整数倍;考虑到模型的预测性能以及模型训练的和测试时间,X的值确定为50,窗口的最小长度MinL为101个核苷酸;窗口的个数P根据公式 (1) 确定;不同窗口的长度W根据公式 (2) 确定:

其中,i是窗口长度编号,最终产生P个不同长度的窗口。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于鲁东大学,未经鲁东大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202111519617.0/1.html,转载请声明来源钻瓜专利网。

同类专利
专利分类
×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top