[发明专利]基于自注意力神经网络和粗化算法的蛋白质分类方法在审
| 申请号: | 202010730960.9 | 申请日: | 2020-07-27 |
| 公开(公告)号: | CN111916144A | 公开(公告)日: | 2020-11-10 |
| 发明(设计)人: | 鱼滨;张一帆;张琛;谢宇;李春奕 | 申请(专利权)人: | 西安电子科技大学 |
| 主分类号: | G16B15/00 | 分类号: | G16B15/00;G16B40/00;G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 陕西电子工业专利中心 61205 | 代理人: | 田文英;王品华 |
| 地址: | 710071*** | 国省代码: | 陕西;61 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 注意力 神经网络 算法 蛋白质 分类 方法 | ||
1.一种基于自注意力神经网络和粗化算法的蛋白质分类方法,其特征在于,构建并训练一个自注意力神经网络,采用粗化算法对蛋白质样本建模生成的图结构进行粗化处理,该方法的具体步骤包括:
(1)构建自注意力神经网络:
(1a)搭建一个十层的自注意力神经网络,其结构依次为:第一全连接层→第一正则化层→第二全连接层→第二正则化层→第三全连接层→第三正则化层→第一激活函数层→第一图卷积网络层→第四全连接层→第二激活函数层;
(1b)将第一至第四全连接层的参数分别设置为N*256,256*128,128*64和3*N*64*1,第一至第三正则化层的大小分别设置为256,128和64,第一至第二激活函数分别设置为ReLU函数和Softmax函数,其中,在蛋白质数据集内,每一个蛋白质样本都由若干个节点组成,N则表示该数据集内所有样本的节点数中的最大值;
(2)生成蛋白质训练集:
(2a)随机选取至少5000个蛋白质样本组成训练集,每一个蛋白质样本均包含其内部的原子,原子间的连接关系,原子的特征向量矩阵以及该蛋白质分子的类别标签;
(2b)对训练集内的每个蛋白质分子进行建模,生成由节点和连接边组成的包含多边形结构和单链结构的图结构;
(3)利用粗化算法粗化图结构:
(3a)利用粗化算法的多边形优化算法,将每个包含多边形结构的图结构中每个多边形结构都缩为一个节点后,删除该多边形结构原有的内部连接边;
(3b)利用粗化算法的单链池化算法,将每个包含单链结构的图结构中每个单链结构的中间节点与该中间节点对应的连接边删除后,在该单链结构的首尾节点间生成一条连接边;
(4)利用正则化拉普拉斯矩阵计算公式,计算粗化后图结构的正则化拉普拉斯特征矩阵中的每个元素值;
(5)训练自注意力神经网络:
(5a)将粗化后图结构对应的正则化拉普拉斯特征矩阵、邻接矩阵和图标签依次输入到自注意力神经网络中;
(5b)用梯度下降法,更新自注意力神经网络的权值直到损失函数收敛为止,得到训练好的自注意力神经网络;
(6)对无标签蛋白质样本进行识别:
(6a)将一个无标签待识别的蛋白质样本输入到自注意力神经网络中,输出一个类别特征向量,C表示该蛋白质样本可能属于的类别数量,该类别特征向量中的每个元素值表示该蛋白质样本属于该元素对应类别的概率;
(6b)从无标签蛋白质样本的类别特征向量中选择最大的概率值对应的类别作为该无标签蛋白质样本的类别标签。
2.根据权利要求1所述的基于自注意力神经网络和粗化算法的蛋白质分类方法,其特征在于,步骤(1a)中所述第一图卷积网络层采用的自注意力公式如下:
其中,H(k+1)表示第一图卷积网络层中第k+1阶的节点特征矩阵,k表示第一图卷积网络层中阶的序号,n表示一个蛋白质图结构的节点总数,Π表示堆叠操作,Hi(k)表示第一图卷积网络层中第k阶的节点特征矩阵第i行的特征向量,Dp表示节点p的度数,p的取值与i的取值对应相等,∑表示累加操作,Ner()表示节点的邻居节点集合,j表示Ner(i)中节点的序号,∈表示属于符号,αx,y表示节点x对节点y的注意力系数,x的取值与i的取值对应相等,y的取值与j的取值对应相等,ω表示一个可学习的全局参数,表示第一图卷积网络层中第k-1阶节点特征矩阵第j行的特征向量。
3.根据权利要求1所述的基于自注意力神经网络和粗化算法的蛋白质分类方法,其特征在于,步骤(2b)中所述对训练集内的每个蛋白质分子进行建模的步骤如下:
第一步,将训练集内的每个蛋白质样本输入到计算机中,将蛋白质分子内的每个原子映射为以序号0开始的节点;
第二步,将每个蛋白质样本内的原子连接关系映射为节点的连接边;
第三步,将蛋白质分子的类别标签映射为以序号0开始的图标签;
第四步,将上述三步得到的节点、边和图标签组合为该蛋白质样本对应的包含多边形结构和单链结构的图结构。
4.根据权利要求1所述的基于自注意力神经网络和粗化算法的蛋白质分类方法,其特征在于,步骤(4)中所述正则化拉普拉斯矩阵计算公式如下:
其中,Le,r表示粗化后图结构的正则化拉普拉斯特征矩阵中的第e行第r列的元素值,:=表示赋值操作,vt和vm分别表示图结构中序号为t和m的节点,t的取值与e的取值对应相等,m的取值与r的取值对应相等,Dz、Dp和Dq分别表示图结构中序号为z、p和q节点的度,其中z和p的取值与e的取值对应相等,q的取值与r的取值对应相等,*表示相乘操作,t表示Ner(m)中节点的序号。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安电子科技大学,未经西安电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010730960.9/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种显示主板电源故障的电路
- 下一篇:一种水表冰冻隐患识别方法及系统





