[发明专利]一种环状RNA-RNA结合蛋白关系预测模型构建方法有效

专利信息
申请号: 202011575605.5 申请日: 2020-12-28
公开(公告)号: CN112562788B 公开(公告)日: 2022-06-28
发明(设计)人: 袁亮亮;杨旸 申请(专利权)人: 上海交通大学
主分类号: G16B30/00 分类号: G16B30/00;G16B50/30;G16B20/00;G06Q10/04;G06N3/08;G06F40/289;G06F40/242
代理公司: 上海伯瑞杰知识产权代理有限公司 31227 代理人: 孟旭彤
地址: 200240 *** 国省代码: 上海;31
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 环状 rna 结合 蛋白 关系 预测 模型 构建 方法
【权利要求书】:

1.一种环状RNA-RNA结合蛋白关系预测模型构建方法,其特征是,包括有以下步骤:

S1、将原始的环状RNA序列数据集中的环状RNA序列与对应的蛋白质序列对应结合构造为环状RNA-RNA结合蛋白序列对,重构形成目标数据集;

S2、采用典型的词向量训练方法训练参考资料库中环状RNA序列片段和蛋白质序列片段的分布式表征,得到对应的词向量字典;

S3、根据S2所得的词向量字典,将S1得到的目标数据集中的序列对映射成对应的词向量矩阵对,以将原始的环状RNA序列和蛋白质序列转化成对应的分布式表征形式;

S4、将S3得到的序列对的分布式表征输入伪孪生网络,得到编码后对应的两个特征向量;

S5、将S4得到的编码后的两个特征向量输入一个度量函数,输出对绑定概率的预测,计算预测值和标签的差值,优化模型参数;

S6、将步骤S3、S4、S5在原始的环状RNA序列数据集全集上进行一次称为一轮迭代,若迭代轮数等于给定常数或达到早停算法的阈值则停止迭代,进入步骤S7,否则返回步骤S3,迭代轮数加1,其中迭代轮数初始值为0;

S7、模型训练迭代结束后保存测试指标和得到的模型。

2.根据权利要求1所述的环状RNA-RNA结合蛋白关系预测模型构建方法,其特征是,步骤S1中将原始的环状RNA序列数据集中的环状RNA序列与对应的蛋白质序列对应结合构造为环状RNA-RNA结合蛋白序列对,重构形成目标数据集具体为:

S11、初始化新数据集N为空;

S12、对于一个与某种类型RNA结合蛋白相结合的环状RNA序列子数据集,确定该RNA结合蛋白的蛋白质序列;

S13、将S12中环状RNA序列子数据集中每一个样本的环状RNA序列和对应结合的RNA结合蛋白组成一对,样本的标签不变,加入新数据集N;

S14、将步骤S12、S13进行一次称为一轮迭代,若所有类型的RNA结合蛋白对应的环状RNA序列子数据集都已经经过重构则停止迭代,进入步骤S15,否则返回步骤S12;

S15、保存新数据集N作为重构后的目标数据集。

3.根据权利要求2所述的环状RNA-RNA结合蛋白关系预测模型构建方法,其特征是,步骤S2中采用典型的词向量训练方法训练参考资料库中环状RNA序列片段和蛋白质序列片段的分布式表征的步骤包括:

S21、确定RNA序列语料库和蛋白质序列语料库;

S22、将语料库的序列进行分词,对于RNA序列,以长度为10,步长为1的滑动窗口切分成RNA子序列;对蛋白质序列,以长度为5的滑动窗口,步长为1的方式切分成蛋白质子序列,切分后形成两个新的语料库,RNA子序列和蛋白质子序列分别作为单词;

S23、使用典型的词向量训练方法,分别训练两个语料库,得到RNA序列的分布式表征和蛋白质序列的分布式表征,对应生成两个词向量字典,分别为RNA序列表征词典与蛋白质序列表征词典。

4.根据权利要求3所述的环状RNA-RNA结合蛋白关系预测模型构建方法,其特征是,步骤S3中得到原始的环状RNA序列和蛋白质序列对应的分布式表征的步骤包括:

S31、将RNA序列映射为词向量矩阵,以长度为10,步长为1的滑动窗口,将RNA原序列从首部开始进行切分,得到RNA子序列集;根据S2中得到的RNA序列表征词典,依次将RNA子序列集中的RNA子序列映射为词向量,堆叠得到的词向量矩阵为RNA原序列的分布式表征;

S32、将蛋白质序列映射为词向量矩阵,以长度为5,步长为1的滑动窗口,将蛋白质原序列从首部开始进行切分,得到蛋白质子序列集;根据S2中得到的蛋白质序列表征词典,依次将蛋白质子序列集中的子序列映射为词向量,堆叠得到的词向量矩阵为蛋白质原序列的分布式表征。

5.根据权利要求4所述的环状RNA-RNA结合蛋白关系预测模型构建方法,其特征是,步骤S4将序列对的分布式表征输入伪孪生网络的步骤包括:将步骤S3得到的词向量矩阵对分别输入伪孪生网络的两个分支,每个分支是不共享权重的编码器模块,编码器模块可采用不同的网络骨干。

6.根据权利要求5所述的环状RNA-RNA结合蛋白关系预测模型构建方法,其特征是,步骤S5中将编码后的两个特征向量输入一个度量函数的步骤包括:将S4中的两个分支输出的特征向量拼接,输入一个全连接网络中,损失函数为交叉熵损失函数。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海交通大学,未经上海交通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202011575605.5/1.html,转载请声明来源钻瓜专利网。

同类专利
专利分类
×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top