[发明专利]一种基于多尺度注意力卷积神经网络的RNA结合蛋白预测方法及装置有效
| 申请号: | 202010571759.0 | 申请日: | 2020-06-22 |
| 公开(公告)号: | CN111798921B | 公开(公告)日: | 2022-08-05 |
| 发明(设计)人: | 杜博;刘子翼;罗甫林 | 申请(专利权)人: | 武汉大学 |
| 主分类号: | G16B5/20 | 分类号: | G16B5/20;G16B15/20;G16B20/30;G16B40/00;G06N3/04 |
| 代理公司: | 武汉科皓知识产权代理事务所(特殊普通合伙) 42222 | 代理人: | 罗飞 |
| 地址: | 430072 湖*** | 国省代码: | 湖北;42 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 尺度 注意力 卷积 神经网络 rna 结合 蛋白 预测 方法 装置 | ||
本发明公开了一种基于多尺度注意力卷积神经网络的RNA结合蛋白预测方法,包括训练阶段和预测阶段。训练阶段包括RNA数据的预处理,RNA数据的编码,构建神经网络和网络参数训练。通过将RNA的数学抽象的统计模式转化成矩阵的形式,输入到预先设计好的基于注意力机制的多尺度卷积神经网络,通过使设计的特别交叉熵损失函数最小,使用Adam优化方法训练神经网络中的参数。在预测阶段,以四个碱基为基本单元的RNA序列数据被输入到网络中,神经网络最后一层输出RNA数据中是否有结合蛋白对应的结合位点的概率大小,从而获得对RNA序列类别的预测结果。本发明可以提高预测精度。
技术领域
本发明涉及生物信息技术领域,具体涉及一种基于多尺度注意力卷积神经网络的RNA结合蛋白预测方法及装置。
背景技术
生物信息技术是利用数学模型、统计学方法和计算机处理生物学数据的技术,生物信息学是一门随着人类基因组计划的启动而兴起的一门新的交叉学科。在生物信息学中,对于DNA/RNA和蛋白质的研究尤其重要,DNA/RNA是生物体中遗传信息的载体和传递者,参与了遗传信息的转录翻译等重要的生化过程,蛋白质则是生命的物质基础,这种有机大分子,是构成细胞的基本有机物,是生命活动的主要承担者。研究DNA/RNA和蛋白质对于理解生命体内部的反应过程,治疗疾病等有着非常重大的意义和价值,DNA/RNA和蛋白质不仅仅各自发挥着作用,它们的相互作用调控生物体内部的反应过程,而与RNA结合的蛋白质即RNA结合蛋白。
RNA结合蛋白(RBP)在活细胞的多个生物学过程中起着重要作用,例如基因调控和mRNA定位等。基因调节包括在活生物体中大量的共转录和转录后基因表达,包括聚腺苷酸化,RNA剪接,修饰,加帽,定位,翻译和更新。研究人员发现,许多RBP的突变可能引起某些重要的疾病,例如神经退行性疾病,癌症和心血管疾病,这是由某些RBP的功能障碍引起的。因此,在这方面的深入研究可以帮助人们进一步了解许多生物学机制和相关疾病的治疗。
高通量技术的发展极大地促进了RNA-蛋白质相互作用的基因组研究。这些高通量技术,例如交联免疫沉淀与高通量测序(CLIP-seq),可提供大量实验验证的RBP结合位点数据。但是它仍然有一些缺点,可能需要通过一些计算方法来弥补。首先,高通量技术既费时又昂贵。其次,由于实验噪声和当前的局限性,收集到的数据中存在许多假阳性和假阴性样本。
预测RNA中是否存在结合蛋白的结合位点这个问题是一个二分类的问题,是在给定RNA序列数据的情况下,通过学习RNA结合位点的结构,从而预测RNA数据中是否存在对应结合位点。目前,相关的方法主要用于分析DNA/RNA数据的特点以及寻找一些基因缺陷导致的疾病的病理等等。
为了解决这些问题,国内外的科学家已提出了许多机器学习算法和计算工具来预测RBP结合位点并生成对应结合位点的结构。例如,BioBayesNet是第一个考虑结构特征,以解决转录因子结合位点的目标识别问题的工具。RNAContext是一种基序发现方法,可确定RBP对RNA序列和结构的相对结合偏好。GraphProt通过图形编码从序列和结构信息中提取大量特征,并使用支持向量机(SVM)来预测RNA结合位点是否存在。RNAcommender分析蛋白质结构域和预测的RNA二级结构,使用更高维的信息辅助从而得到更精确的预测。
本申请发明人在实施本发明的过程中,发现现有技术的方法,至少存在如下技术问题:
但是,这些传统的机器学习方法并不能充分提取RNA数据的潜在复杂的特征,所以导致其预测精度普遍不高。
由此可知,现有技术中的方法存在预测精度不高的技术问题。
发明内容
本发明提出一种基于多尺度注意力卷积神经网络的RNA结合蛋白预测方法及装置,用于解决或者至少部分解决现有技术中的方法存在的预测精度不高的技术问题。
为了解决上述技术问题,本发明第一方面提供了一种基于多尺度注意力卷积神经网络的RNA结合蛋白预测方法,包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉大学,未经武汉大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010571759.0/2.html,转载请声明来源钻瓜专利网。





