[发明专利]一种环状RNA-RNA结合蛋白关系预测模型构建方法有效
| 申请号: | 202011575605.5 | 申请日: | 2020-12-28 |
| 公开(公告)号: | CN112562788B | 公开(公告)日: | 2022-06-28 |
| 发明(设计)人: | 袁亮亮;杨旸 | 申请(专利权)人: | 上海交通大学 |
| 主分类号: | G16B30/00 | 分类号: | G16B30/00;G16B50/30;G16B20/00;G06Q10/04;G06N3/08;G06F40/289;G06F40/242 |
| 代理公司: | 上海伯瑞杰知识产权代理有限公司 31227 | 代理人: | 孟旭彤 |
| 地址: | 200240 *** | 国省代码: | 上海;31 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 环状 rna 结合 蛋白 关系 预测 模型 构建 方法 | ||
本发明公开了一种环状RNA‑RNA结合蛋白关系预测模型构建方法,解决了现有技术仅限制了预测准确率的问题,其技术方案要点是将初始的环状RNA序列数据集样本构造为环状RNA‑RNA结合蛋白序列对的形式;采用自监督学习的方式训练得到词向量字典;根据训练得到的词向量字典,将样本序列对映射成对应的词向量矩阵作为表征;将样本序列对的向量表征对应输入伪孪生网络,得到编码后的特征向量输入到度量函数中,计算绑定概率预测值并计算获得其与标签的差值,优化模型参数;模型训练迭代结束后保存得到的模型,本发明的环状RNA‑RNA结合蛋白关系预测模型构建方法,能针对RNA序列和蛋白质序列进行数据挖掘,能有效提高环状RNA‑RNA结合蛋白结合预测的准确率。
技术领域
本发明涉及生物信息数据挖掘技术,特别涉及一种环状RNA-RNA结合蛋白关系预测模型构建方法。
背景技术
环状RNA是一类特殊的非编码RNA分子,与传统的linear RNA不同,环状RNA分子呈封闭环状结构,不受RNA外切酶影响,表达更加稳定。
近年的研究表明,环状RNA在疾病中发挥着重要的调控作用,已成为RNA领域最新的研究热点。其中,对于环状RNA和RNA结合蛋白(RBP)的研究是一个主流方向,主要通过研究环状RNA与RBP之间的调控关系从而更好地理解环状RNA的功能。
目前大量已开源的高通量测序实验数据的出现,使得基于数据学习的机器学习算法得以在这个领域发挥作用,通过机器学习算法,可以学习到序列绑定关系的模式,对未知的序列的绑定关系进行预测,相比于湿实验测定的方式减少了成本。
近年来有很多针对环状RNA序列预期其对应的RNA结合蛋白的工作,如2019年Zhang K等人在“CRIP:predicting circRNA-RBP binding sites using a codon-basedencoding and hybrid deep neural networks”中采用CNN+LSTM的模型架构来学习序列关于结合蛋白的绑定模式,在此基础上,2020年Jia C等人在“PASSION:an ensemble neuralnetwork approach for identifying the binding sites of RBPs on circRNAs”中通过集成多种网络模型的方式进一步提升了预测准确率。此外,2020年Yuning Yang等人在“iCircRBP-DHN:identification of circRNA-RBP interaction sites using deephierarchical network”引入了更多的机制,相比前两种方式取得了更好的效果。但以上三种方法的局限在于它们都仅用到了环状RNA序列信息,通过学习环状RNA序列的特定模式来判断是否与目标RNA结合蛋白相结合,而环状RNA序列与蛋白序列绑定是由两序列的相互作用而实现的,仅用到环状RNA序列信息限制了预测准确率,还有待改进的空间。
发明内容
本发明的目的是提供一种环状RNA-RNA结合蛋白关系预测模型构建方法,能针对RNA序列和蛋白质序列进行数据挖掘,能够有效地学习到环状RNA序列和RNA结合蛋白序列之间交互模式的模型,以提高环状RNA-RNA结合蛋白结合预测的准确率。
本发明的上述技术目的是通过以下技术方案得以实现的:
一种环状RNA-RNA结合蛋白关系预测模型构建方法,包括有以下步骤:
S1、将原始的环状RNA序列数据集中的环状RNA序列与对应的蛋白质序列对应结合构造为环状RNA-RNA结合蛋白序列对,重构形成目标数据集;
S2、采用自监督学习的方式训练参考资料库中环状RNA序列片段和蛋白质序列片段的分布式表征,得到对应的词向量字典;
S3、根据S2所得的词向量字典,将S1得到的目标数据集中的序列对映射成对应的词向量矩阵对,以将原始的环状RNA序列和蛋白质序列转化成对应的分布式表征形式;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海交通大学,未经上海交通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011575605.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种处理废弃农用岩棉再利用的方法及农用岩棉
- 下一篇:一种自动卷标设备





