[发明专利]一种基于长短时记忆网络的蛋白质二级结构预测方法有效
| 申请号: | 202011285274.1 | 申请日: | 2020-11-17 |
| 公开(公告)号: | CN112365921B | 公开(公告)日: | 2022-07-15 |
| 发明(设计)人: | 胡俊;曾文武;贾宁欣;董世建;殷文杰;董明;张贵军 | 申请(专利权)人: | 浙江工业大学 |
| 主分类号: | G16B15/20 | 分类号: | G16B15/20;G06N3/04;G06N3/08 |
| 代理公司: | 杭州斯可睿专利事务所有限公司 33241 | 代理人: | 王利强 |
| 地址: | 310014 浙江省*** | 国省代码: | 浙江;33 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 短时记忆 网络 蛋白质 二级 结构 预测 方法 | ||
1.一种基于长短时记忆网络的蛋白质二级结构预测方法,其特征在于,所述预测方法包括以下步骤:
1)输入一个残基数为L的待进行二级结构预测的蛋白质序列信息,记作S;
2)对任意给定的一条残基个数为Lx蛋白质序列信息,记作Sx,使用HHblits工具搜索蛋白质序列数据库Uniclust90获取一个大小为M×L的多序列联配信息,记作其中表示MSA中的第i条序列联配信息,N为MSA中多序列联配信息总数目,每条序列联配信息均含有Lx个元素,每个元素均属于元素集合R={R1,…,Rr,…,R21},集合R是由二十种常见氨基酸和补位空格元素组成的;
3)对步骤2)得到Sx的多序列联配信息MSA,生成对应的位置特异性频率矩阵,记作PSFM,其中表示中的第l个元素,当与Rr为相同元素类型时,否则其中x为PSFM中对应位置上的元素;
4)对Sx使用PSI-BLAST工具获取一个大小为Lx×20的位置特异性打分矩阵,记作PSSM;
5)将步骤3)至4)中获取的特征矩阵PSFM、PSSM组合为一个Lx×41的特征矩阵,记作F;
6)蛋白质序列Sx中任意残基对应的样本表示为(Fi,labeli),i=1,2,...,Lx,Fi和labeli分别表示第i个残基的特征向量和二级结构标签信息,标签为蛋白质残基二级结构的三种状态,用0表示状态为helix(螺旋)的残基,用1表示状态为strand(折叠)的残基,用2表示状态为coil(卷曲)的残基;
7)取11个残基样本作为输入特征,以11为步长在(Fi,labeli)中滑动,每次滑动得到一个大小为11×41特征矩阵和一个长度为11的标签向量,记作O和Lab;
8)从PDB库中收集已知二级结构标签的蛋白质序列,记作D={Si,Yi},i=1,2,...,Q,Si表示第i条蛋白质序列,Yi表示Si的标签信息,Q是蛋白质序列的总数;
9)根据步骤2)至6),生成所有Si的特征矩阵,记作feai,i=1,2,...,Q,与对应标签Yi组成样本集合Ω={feai,Yi},根据步骤7)生成网络输入特征矩阵,记作Li/11表示蛋白质长度对11取整;
10)构建四层LSTM网络,前三层为双向层,第四层为单向层,前一层的输出作为后一层的输入,网络的输出记作X,X=(x1,x2,xi,…,x11),xi为第i个残基的标签概率分布;
11)构建大小为3×3待训练的状态转移矩阵,记作W,Wi,j表示标签i转移到标签j的得分,i,j=0,1,2;
12)构建条件随机场模型,记作CRF,模型表示为:
其中,p(y|x)表示在输入条件为x的情况下,模型预测的标签序列为y的概率;xi为步骤10)中输出矩阵X的第i个向量,yi表示第i个残基的二级结构标签,W为步骤11)中的状态转移矩阵;
13)将步骤10)-12)搭建的LSTM网络和条件随机场模型进行组合,记作LSTM-CRF,将I中的残基样本输入模型中,用极大似然法进行网络的训练,该模型的对数似然函数为
使用负对数似然函数作为损失函数:loss=-logp(y|x),使用随机梯度下降的方法进行优化;
14)将蛋白质S经过步骤2)-7)生成对应残基的特征向量,并输入到步骤13)训练的模型中,使用维特比算法进行预测,找出得分最高的路径,即为S序列残基二级结构的预测结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江工业大学,未经浙江工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011285274.1/1.html,转载请声明来源钻瓜专利网。





