[发明专利]基于胶囊网络的RNA与蛋白质绑定偏好预测方法和系统在审
| 申请号: | 202110266679.9 | 申请日: | 2021-03-11 |
| 公开(公告)号: | CN113160885A | 公开(公告)日: | 2021-07-23 |
| 发明(设计)人: | 黄德双;申圳 | 申请(专利权)人: | 同济大学 |
| 主分类号: | G16B20/30 | 分类号: | G16B20/30;G06N3/08;G06N3/04 |
| 代理公司: | 北京东方盛凡知识产权代理事务所(普通合伙) 11562 | 代理人: | 王颖 |
| 地址: | 200092 *** | 国省代码: | 上海;31 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 胶囊 网络 rna 蛋白质 绑定 偏好 预测 方法 系统 | ||
本发明公开了基于胶囊网络的RNA与蛋白质绑定偏好预测方法和系统,对原始胶囊网络进行修改使其能够同步从RNA序列数据和结构数据中学习特征信息,由于RNA序列数据和结构数据存在差异,因此模型分别使用独立的卷积层和主要胶囊层从二者中提取特征信息,将融合后的信息作为数字胶囊层的输入,本发明提供的技术方案中,步骤简单,实用性强,预测准确率高,为RNA与蛋白质绑定偏好预测提供了技术参考。
技术领域
本发明属于RNA与蛋白质绑定预测技术领域,涉及基于胶囊网络的RNA与蛋白质绑定偏好预测方法和系统。
背景技术
根据遗传中心法则,DNA中包含的遗传信息的表达过程主要由转录和翻译两个阶段构成。转录阶段是合成RNA的过程,也是遗传信息从DNA传递给RNA的过程。翻译阶段是以mRNA中的蛋白质编码信息为基础,在tRNA、多种氨基酸、核糖体、酶等的共同作用下合成具有生物活性的蛋白质的过程。研究表明翻译阶段RNA与蛋白质的相互作用在体外翻译抑制、精子合成、蛋白质合成等复杂生命活动过程中发挥着重要作用。RBP能够识别RNA序列中以特殊方式排列且能够与自身绑定的位点,这些位点被称为RNA绑定位点或RNA基元。从基因表达的层次来看,在面对温度、酸碱度等变化时,翻译过程的蛋白质合成、翻译调控等都会受到影响,进而影响基因表达和生命活动的正常进行。因此,RNA序列中能够与RBP绑定的位点的准确预测有助于研究人员深入理解基因表达过程中翻译阶段的复杂调控机制。高通量测序技术的不断发展提供了大量可靠的RNA-蛋白质绑定相关的数据,促使研究人员提出一系列基于传统机器学习方法的RNA基元预测算法。
部分方法在计算时仅使用RNA序列数据中提取的特征,也有一些方法在计算时融合了多种特征(序列特征、结构特征、绑定亲和力特征等)。尽管这些方法取得了较好的预测性能,但是仍存在着时间复杂度高、噪声敏感等缺陷。为了解决这些问题,研究人员使用经过改进的基于深度学习的模型用于RNA基元预测并取得了较好的预测准确度。对于基因组序列分析任务而言,我们可以将卷积神经网络中的卷积核视为一个基元检测器,不同长度的卷积核能够获取对应长度基元的特征。得益于卷积神经网络优异的特征学习能力,DeepBind和DeepSEA等基于卷积神经网络的模型取得了较好的预测性能。基于深度学习方法的基因组序列分析模型的架构可以分为三部分:数据编码、特征学习和分类识别。如何在不损失RNA序列特征信息的情况下将基因组序列转换为神经网络能够处理的形式是深度学习方法在基因组序列分析任务中遇到的一大挑战。由于RNA序列是由A、C、G、U四种碱基组成,因此我们可以使用独热编码、高阶编码等方法编码RNA序列。这些编码方式在编码时仅考虑元素自身,并未考虑RNA序列的生物特性和位点间的关联关系,对于这些关联关系的学习需要由后端的卷积神经网络或者递归神经网络等进行特征学习。从自然语言处理的角度,我们可以将RNA序列视为一种文本数据,因此可以使用词嵌入等方法编码RNA序列。与独热编码相比,这种方法在编码词向量时考虑了不同位点间的关联关系,能够改善模型的预测性能。编码后的RNA序列在计算机中表现形式类似于图像的存储形式,也就是说RNA与蛋白质绑定偏好的预测任务能够被视为计算机视觉领域中的图像二分类任务。DeepBind、DeepSEA、DanQ、iDeepS等模型的优异表现也证明了基于深度学习方法的模型能够有效完成基因组序列分析任务。DNA两条链间碱基的相互配对使得DNA具有复杂的空间结构,RNA是DNA中遗传信息经过转录阶段合成的产物。尽管RNA是一种单链序列,构成RNA序列的四种基本元素A、C、G、U间仍存在碱基间相互配对的情况,碱基间的相互配对会使RNA序列在局部形成茎环、发夹、假结等结构。研究表明RNA序列中基元位点及相邻位点的局部结构的复杂程度能够影响该位点与RBP的绑定,进而影响调控功能的正常发挥。这意味着如果在RNA基元预测模型中综合使用从RNA序列数据和结构数据中提取的特征信息,可能会进一步改善模型的预测性能。基于CNN的模型在计算机视觉、自然语言处理、基因组序列分析等领域表现出较好的性能,但是我们不能忽视CNN存在的缺陷。无论是图像数据还是文本数据,特征间的关联信息对模型能否做出准确判断有一定的影响,而CNN缺乏特征间关联信息的学习能力。以人脸检测为例,CNN能学习到眼睛、鼻子等特征,但是缺乏学习各个部位间的位置关系的能力,因此打乱图像中眼睛、鼻子、嘴巴的位置就可能使模型做出错误的判断。不仅是图像领域,在自然语言处理中关键词汇间的关系学习以及基因组序列分析中基元位点间的关系学习上也存在同样的问题。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于同济大学,未经同济大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110266679.9/2.html,转载请声明来源钻瓜专利网。





