[发明专利]一种环状RNA-RNA结合蛋白关系预测模型构建方法有效
| 申请号: | 202011575605.5 | 申请日: | 2020-12-28 |
| 公开(公告)号: | CN112562788B | 公开(公告)日: | 2022-06-28 |
| 发明(设计)人: | 袁亮亮;杨旸 | 申请(专利权)人: | 上海交通大学 |
| 主分类号: | G16B30/00 | 分类号: | G16B30/00;G16B50/30;G16B20/00;G06Q10/04;G06N3/08;G06F40/289;G06F40/242 |
| 代理公司: | 上海伯瑞杰知识产权代理有限公司 31227 | 代理人: | 孟旭彤 |
| 地址: | 200240 *** | 国省代码: | 上海;31 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 环状 rna 结合 蛋白 关系 预测 模型 构建 方法 | ||
1.一种环状RNA-RNA结合蛋白关系预测模型构建方法,其特征是,包括有以下步骤:
S1、将原始的环状RNA序列数据集中的环状RNA序列与对应的蛋白质序列对应结合构造为环状RNA-RNA结合蛋白序列对,重构形成目标数据集;
S2、采用典型的词向量训练方法训练参考资料库中环状RNA序列片段和蛋白质序列片段的分布式表征,得到对应的词向量字典;
S3、根据S2所得的词向量字典,将S1得到的目标数据集中的序列对映射成对应的词向量矩阵对,以将原始的环状RNA序列和蛋白质序列转化成对应的分布式表征形式;
S4、将S3得到的序列对的分布式表征输入伪孪生网络,得到编码后对应的两个特征向量;
S5、将S4得到的编码后的两个特征向量输入一个度量函数,输出对绑定概率的预测,计算预测值和标签的差值,优化模型参数;
S6、将步骤S3、S4、S5在原始的环状RNA序列数据集全集上进行一次称为一轮迭代,若迭代轮数等于给定常数或达到早停算法的阈值则停止迭代,进入步骤S7,否则返回步骤S3,迭代轮数加1,其中迭代轮数初始值为0;
S7、模型训练迭代结束后保存测试指标和得到的模型。
2.根据权利要求1所述的环状RNA-RNA结合蛋白关系预测模型构建方法,其特征是,步骤S1中将原始的环状RNA序列数据集中的环状RNA序列与对应的蛋白质序列对应结合构造为环状RNA-RNA结合蛋白序列对,重构形成目标数据集具体为:
S11、初始化新数据集N为空;
S12、对于一个与某种类型RNA结合蛋白相结合的环状RNA序列子数据集,确定该RNA结合蛋白的蛋白质序列;
S13、将S12中环状RNA序列子数据集中每一个样本的环状RNA序列和对应结合的RNA结合蛋白组成一对,样本的标签不变,加入新数据集N;
S14、将步骤S12、S13进行一次称为一轮迭代,若所有类型的RNA结合蛋白对应的环状RNA序列子数据集都已经经过重构则停止迭代,进入步骤S15,否则返回步骤S12;
S15、保存新数据集N作为重构后的目标数据集。
3.根据权利要求2所述的环状RNA-RNA结合蛋白关系预测模型构建方法,其特征是,步骤S2中采用典型的词向量训练方法训练参考资料库中环状RNA序列片段和蛋白质序列片段的分布式表征的步骤包括:
S21、确定RNA序列语料库和蛋白质序列语料库;
S22、将语料库的序列进行分词,对于RNA序列,以长度为10,步长为1的滑动窗口切分成RNA子序列;对蛋白质序列,以长度为5的滑动窗口,步长为1的方式切分成蛋白质子序列,切分后形成两个新的语料库,RNA子序列和蛋白质子序列分别作为单词;
S23、使用典型的词向量训练方法,分别训练两个语料库,得到RNA序列的分布式表征和蛋白质序列的分布式表征,对应生成两个词向量字典,分别为RNA序列表征词典与蛋白质序列表征词典。
4.根据权利要求3所述的环状RNA-RNA结合蛋白关系预测模型构建方法,其特征是,步骤S3中得到原始的环状RNA序列和蛋白质序列对应的分布式表征的步骤包括:
S31、将RNA序列映射为词向量矩阵,以长度为10,步长为1的滑动窗口,将RNA原序列从首部开始进行切分,得到RNA子序列集;根据S2中得到的RNA序列表征词典,依次将RNA子序列集中的RNA子序列映射为词向量,堆叠得到的词向量矩阵为RNA原序列的分布式表征;
S32、将蛋白质序列映射为词向量矩阵,以长度为5,步长为1的滑动窗口,将蛋白质原序列从首部开始进行切分,得到蛋白质子序列集;根据S2中得到的蛋白质序列表征词典,依次将蛋白质子序列集中的子序列映射为词向量,堆叠得到的词向量矩阵为蛋白质原序列的分布式表征。
5.根据权利要求4所述的环状RNA-RNA结合蛋白关系预测模型构建方法,其特征是,步骤S4将序列对的分布式表征输入伪孪生网络的步骤包括:将步骤S3得到的词向量矩阵对分别输入伪孪生网络的两个分支,每个分支是不共享权重的编码器模块,编码器模块可采用不同的网络骨干。
6.根据权利要求5所述的环状RNA-RNA结合蛋白关系预测模型构建方法,其特征是,步骤S5中将编码后的两个特征向量输入一个度量函数的步骤包括:将S4中的两个分支输出的特征向量拼接,输入一个全连接网络中,损失函数为交叉熵损失函数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海交通大学,未经上海交通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011575605.5/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种处理废弃农用岩棉再利用的方法及农用岩棉
- 下一篇:一种自动卷标设备





