[发明专利]一种基于上下文感知计算的RNA溶剂可及性预测方法在审
申请号: | 202111148787.2 | 申请日: | 2021-09-29 |
公开(公告)号: | CN113936741A | 公开(公告)日: | 2022-01-14 |
发明(设计)人: | 胡俊;樊学强;唐玉璇;贾宁欣;张贵军 | 申请(专利权)人: | 浙江工业大学 |
主分类号: | G16B40/00 | 分类号: | G16B40/00;G16B50/30;G06N3/04;G06N3/08 |
代理公司: | 浙江千克知识产权代理有限公司 33246 | 代理人: | 赵芳 |
地址: | 310014 浙*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 上下文 感知 计算 rna 溶剂 预测 方法 | ||
1.一种基于上下文感知计算的RNA溶剂可及性预测方法,其特征在于,包括:
S1.收集PDB数据库中所有已注释三级结构信息的RNA序列组成训练集合S,并使用POPS工具生成RNA序列对应的溶剂可及性标签Y;
S2.获取训练集合S中碱基个数为LX的RNA序列信息,并将获取的RNA序列信息记作SX;
S3.使用Infernal工具搜索SX的核苷酸数据库并生成对应的多序列联配信息MSA;
S4.对多序列联配信息MSA进行处理,生成MSA对应的特征矩阵FMSA;
S5.根据独热编码原理将碱基编码生成SX对应的独热编码矩阵OHE;
S6.使用LinearPartition-V工具生成SX对应的二级结构信息RSS;
S7.构建上下文感知计算神经网络框架MVCADNN,并使用构建的上下文感知计算神经网络框架MVCADNN训练RNA溶剂可及性预测模型,得到训练后的RNA溶剂可及性预测模型;
S8.将待预测RNA序列通过步骤S3-步骤S6处理后,生成RNA序列对应的特征信息,并生成的特征信息输入到训练后的RNA溶剂可及性预测模型中,得到RNA溶剂可及性的预测信息。
2.根据权利要求1所述的一种基于上下文感知计算的RNA溶剂可及性预测方法,其特征在于,所述步骤S3中多序列联配信息MSA,表示为:
其中,表示MSA中的第n条序列联配信息;N表示MSA中的序列联配信息总数目。
3.根据权利要求2所述的一种基于上下文感知计算的RNA溶剂可及性预测方法,其特征在于,所述步骤S4中特征矩阵FMSA,表示为:
其中,表示中的第lx个元素;表示中的第ly个元素;Rr表示元素集合R中的第r个元素;表示第x位置上r碱基的概率;表示第y位置上r碱基的概率;σ表示符号函数;表示第x位置和第y位置的碱基特征;表示第x位置和第y位置上的碱基的信息熵值;lx表示第x位置的碱基。
4.根据权利要求3所述的一种基于上下文感知计算的RNA溶剂可及性预测方法,其特征在于,所述步骤S5中独热编码矩阵OHE,表示为:
其中,表示OHE中的第l个元素的独热编码信息。
5.根据权利要求4所述的一种基于上下文感知计算的RNA溶剂可及性预测方法,其特征在于,所述步骤S5中的碱基编码包括OHEA=[1,0,0,0]、OHEU=[0,1,0,0]、OHEG=[0,0,1,0]、OHEC=[0,0,0,1];其中,A表示腺嘌呤、U表示尿嘧啶、G鸟嘌呤、C胞嘧啶。
6.根据权利要求1所述的一种基于上下文感知计算的RNA溶剂可及性预测方法,其特征在于,所述步骤S7中的上下文感知计算神经网络框架MVCADNN包括5个管道,第一管道、第二管道和第三管道分别用于挖掘隐含FMSA、OHE与RSS中的鉴别信息;第四管道用于挖掘隐含在FMSA、OHE与RSS的串行组合特征中的鉴别信息;第五管道用于挖掘由第一管道①、第二管道、第三管道和第四管道的输出经串行组合后的特征中的鉴别信息。
7.根据权利要求6所述的一种基于上下文感知计算的RNA溶剂可及性预测方法,其特征在于,所述第一管道、第二管道和第三管道均由两个两层的双向长短时记忆循环神经网络、三个全连接层、两个注意力机制模块组成。
8.根据权利要求6所述的一种基于上下文感知计算的RNA溶剂可及性预测方法,其特征在于,所述第四管道由一个1D膨胀卷积层,三个残差块,二个全连接层组成。
9.根据权利要求6所述的一种基于上下文感知计算的RNA溶剂可及性预测方法,其特征在于,所述第五管道由三个全连接层和三个注意力机制模块组成。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江工业大学,未经浙江工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111148787.2/1.html,转载请声明来源钻瓜专利网。