[发明专利]一种基于多尺度注意力卷积神经网络的RNA结合蛋白预测方法及装置有效
| 申请号: | 202010571759.0 | 申请日: | 2020-06-22 |
| 公开(公告)号: | CN111798921B | 公开(公告)日: | 2022-08-05 |
| 发明(设计)人: | 杜博;刘子翼;罗甫林 | 申请(专利权)人: | 武汉大学 |
| 主分类号: | G16B5/20 | 分类号: | G16B5/20;G16B15/20;G16B20/30;G16B40/00;G06N3/04 |
| 代理公司: | 武汉科皓知识产权代理事务所(特殊普通合伙) 42222 | 代理人: | 罗飞 |
| 地址: | 430072 湖*** | 国省代码: | 湖北;42 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 尺度 注意力 卷积 神经网络 rna 结合 蛋白 预测 方法 装置 | ||
1.一种基于多尺度注意力卷积神经网络的RNA结合蛋白预测方法,其特征在于,包括:
S1:获取RNA数据并进行预处理;
S2:对预处理后的RNA数据进行编码,构建网络训练样本;
S3:构建多尺度注意力卷积神经网络,其中,多尺度注意力卷积神经网络包括多个分支,每个分支设置不同大小的卷积核,分别用以学习在RNA数据中的不同尺度的特征,并引入通道注意力机制学习不同通道在分类时的重要性,在进行RNA结合位点识别时,不同的通道的卷积核对应不同的结合位点结构;
S4:将网络训练样本输入构建的多尺度注意力卷积神经网络中,并采用Adam优化方法训练多尺度注意力卷积神经网络中的参数,得到训练好的多尺度注意力卷积神经网络;
S5:将待预测的RNA数据进行预处理和编码后输入训练好的多尺度注意力卷积神经网络中,得到预测结果,其中,预测结果包括RNA数据是否有结合蛋白对应的结合位点;
其中,S3中构建的多尺度注意力卷积神经网络包括四个分支,第一个分支包括卷积、池化、相乘、卷积、池化和相乘,第二个分支、第三个分支以及第四个分支均包括卷积、池化、卷积和池化,第一个分支的第一个相乘为第一次卷积池化后的输出结果与各通道注意力权重相乘,第二相乘为第二卷积池化后的输出结果与各通道注意力权重相乘;每个分支提取出的不同尺度的特征相加后,通过一个全连接层,得到最终预测结果。
2.如权利要求1所述的预测方法,其特征在于,S1具体包括:将获取的不同长度的RNA数据填补至相同的长度。
3.如权利要求1所述的预测方法,其特征在于,S2具体包括:
将预处理后的RNA数据采用One-hot矩阵表示,构成网络训练样本。
4.如权利要求1所述的预测方法,其特征在于,构建的网络训练样本包括正训练样本和负训练样本,蛋白质对应的正训练样本为包含有该蛋白质结合位点的RNA数据,负训练样本为无该蛋白质结合位点的RNA数据,训练过程中,正训练样本标签赋值为1,负训练样本标签赋值为0。
5.如权利要求1所述的预测方法,其特征在于,通道注意力权重的计算方式为:
outputs=softmax(W2sigmoid(W1Z))
其中,Zk是通道描述符,W是卷积核的宽度,Xi,k为卷积池化后的输出,W1是编码器的权重,W2是用于学习每通道重要性的解码器权重,outputs为通道注意力权重。
6.如权利要求1所述的预测方法,其特征在于,在训练过程中,采用基于交叉熵改进的损失函数,
其中,yi是RNA数据真实的标签,是经过网络预测得到的标签,是后3个分支的第1个卷积层的第k个通道的卷积核,λ是正则化参数。
7.如权利要求1所述的预测方法,其特征在于,在S5中预测RNA结合位点的结构时,选取第一个卷积层的输出中大于最大值的80%作为结合位点的潜在位点,统计该权重对应到源RNA序列的排布情况,得到不同位置上不同碱基的概率大小,构成位置权重矩阵,即结合位点的预测,该权重为第一个卷积层的输出中大于最大值的80%的输出的值。
8.根据权利要求1所述的预测方法,其特征在于,S5中在预测RNA结合位点是否存在时,卷积神经网络输出的结果是一个N*2的矩阵,每个RNA数据对应一个2维向量,向量中的2个数之和为1,表示RNA中是否存在结合蛋白的结合位点的概率大小。
9.一种基于多尺度注意力卷积神经网络的RNA结合蛋白预测装置,其特征在于,包括:
预处理模块,用于获取RNA数据并进行预处理;
编码模块,用于对预处理后的RNA数据进行编码,构建网络训练样本;
网络构建模块,用于构建多尺度注意力卷积神经网络,其中,多尺度注意力卷积神经网络包括多个分支,每个分支设置不同大小的卷积核,分别用以学习在RNA数据中的不同尺度的特征,并引入通道注意力机制学习不同通道在分类时的重要性,在进行RNA结合位点识别时,不同的通道的卷积核对应不同的结合位点结构;
网络训练模块,用于将网络训练样本输入构建的多尺度注意力卷积神经网络中,并采用Adam优化方法训练多尺度注意力卷积神经网络中的参数,得到训练好的多尺度注意力卷积神经网络;
预测模块,用于将待预测的RNA数据进行预处理和编码后输入训练好的多尺度注意力卷积神经网络中,得到预测结果,其中,预测结果包括RNA数据是否有结合蛋白对应的结合位点;
其中,网络构建模块中构建的多尺度注意力卷积神经网络包括四个分支,第一个分支包括卷积、池化、相乘、卷积、池化和相乘,第二个分支、第三个分支以及第四个分支均包括卷积、池化、卷积和池化,第一个分支的第一个相乘为第一次卷积池化后的输出结果与各通道注意力权重相乘,第二相乘为第二卷积池化后的输出结果与各通道注意力权重相乘;每个分支提取出的不同尺度的特征相加后,通过一个全连接层,得到最终预测结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉大学,未经武汉大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010571759.0/1.html,转载请声明来源钻瓜专利网。





