[发明专利]一种环状RNA-RNA结合蛋白关系预测模型构建方法有效

申请号：	202011575605.5	申请日：	2020-12-28
公开（公告）号：	CN112562788B	公开（公告）日：	2022-06-28
发明（设计）人：	袁亮亮;杨旸	申请（专利权）人：	上海交通大学
主分类号：	G16B30/00	分类号：	G16B30/00;G16B50/30;G16B20/00;G06Q10/04;G06N3/08;G06F40/289;G06F40/242
代理公司：	上海伯瑞杰知识产权代理有限公司 31227	代理人：	孟旭彤
地址：	200240 ***	国省代码：	上海;31
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种环状 rna 结合蛋白关系预测模型构建方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种环状RNA-RNA结合蛋白关系预测模型构建方法，其特征是，包括有以下步骤：

S1、将原始的环状RNA序列数据集中的环状RNA序列与对应的蛋白质序列对应结合构造为环状RNA-RNA结合蛋白序列对，重构形成目标数据集；

S2、采用典型的词向量训练方法训练参考资料库中环状RNA序列片段和蛋白质序列片段的分布式表征，得到对应的词向量字典；

S3、根据S2所得的词向量字典，将S1得到的目标数据集中的序列对映射成对应的词向量矩阵对，以将原始的环状RNA序列和蛋白质序列转化成对应的分布式表征形式；

S4、将S3得到的序列对的分布式表征输入伪孪生网络，得到编码后对应的两个特征向量；

S5、将S4得到的编码后的两个特征向量输入一个度量函数，输出对绑定概率的预测，计算预测值和标签的差值，优化模型参数；

S6、将步骤S3、S4、S5在原始的环状RNA序列数据集全集上进行一次称为一轮迭代，若迭代轮数等于给定常数或达到早停算法的阈值则停止迭代，进入步骤S7，否则返回步骤S3，迭代轮数加1，其中迭代轮数初始值为0；

S7、模型训练迭代结束后保存测试指标和得到的模型。

2.根据权利要求1所述的环状RNA-RNA结合蛋白关系预测模型构建方法，其特征是，步骤S1中将原始的环状RNA序列数据集中的环状RNA序列与对应的蛋白质序列对应结合构造为环状RNA-RNA结合蛋白序列对，重构形成目标数据集具体为：

S11、初始化新数据集N为空；

S12、对于一个与某种类型RNA结合蛋白相结合的环状RNA序列子数据集，确定该RNA结合蛋白的蛋白质序列；

S13、将S12中环状RNA序列子数据集中每一个样本的环状RNA序列和对应结合的RNA结合蛋白组成一对，样本的标签不变，加入新数据集N；

S14、将步骤S12、S13进行一次称为一轮迭代，若所有类型的RNA结合蛋白对应的环状RNA序列子数据集都已经经过重构则停止迭代，进入步骤S15，否则返回步骤S12；

S15、保存新数据集N作为重构后的目标数据集。

3.根据权利要求2所述的环状RNA-RNA结合蛋白关系预测模型构建方法，其特征是，步骤S2中采用典型的词向量训练方法训练参考资料库中环状RNA序列片段和蛋白质序列片段的分布式表征的步骤包括：

S21、确定RNA序列语料库和蛋白质序列语料库；

S22、将语料库的序列进行分词，对于RNA序列，以长度为10，步长为1的滑动窗口切分成RNA子序列；对蛋白质序列，以长度为5的滑动窗口，步长为1的方式切分成蛋白质子序列，切分后形成两个新的语料库，RNA子序列和蛋白质子序列分别作为单词；

S23、使用典型的词向量训练方法，分别训练两个语料库，得到RNA序列的分布式表征和蛋白质序列的分布式表征，对应生成两个词向量字典，分别为RNA序列表征词典与蛋白质序列表征词典。

4.根据权利要求3所述的环状RNA-RNA结合蛋白关系预测模型构建方法，其特征是，步骤S3中得到原始的环状RNA序列和蛋白质序列对应的分布式表征的步骤包括：

S31、将RNA序列映射为词向量矩阵，以长度为10，步长为1的滑动窗口，将RNA原序列从首部开始进行切分，得到RNA子序列集；根据S2中得到的RNA序列表征词典，依次将RNA子序列集中的RNA子序列映射为词向量，堆叠得到的词向量矩阵为RNA原序列的分布式表征；

S32、将蛋白质序列映射为词向量矩阵，以长度为5，步长为1的滑动窗口，将蛋白质原序列从首部开始进行切分，得到蛋白质子序列集；根据S2中得到的蛋白质序列表征词典，依次将蛋白质子序列集中的子序列映射为词向量，堆叠得到的词向量矩阵为蛋白质原序列的分布式表征。

5.根据权利要求4所述的环状RNA-RNA结合蛋白关系预测模型构建方法，其特征是，步骤S4将序列对的分布式表征输入伪孪生网络的步骤包括：将步骤S3得到的词向量矩阵对分别输入伪孪生网络的两个分支，每个分支是不共享权重的编码器模块，编码器模块可采用不同的网络骨干。

6.根据权利要求5所述的环状RNA-RNA结合蛋白关系预测模型构建方法，其特征是，步骤S5中将编码后的两个特征向量输入一个度量函数的步骤包括：将S4中的两个分支输出的特征向量拼接，输入一个全连接网络中，损失函数为交叉熵损失函数。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于上海交通大学，未经上海交通大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202011575605.5/1.html，转载请声明来源钻瓜专利网。

专利分类

专利文献下载