[发明专利]基于深度学习的白细胞抗原与多肽结合亲和力预测方法在审
申请号: | 202010732369.7 | 申请日: | 2020-07-27 |
公开(公告)号: | CN111951887A | 公开(公告)日: | 2020-11-17 |
发明(设计)人: | 叶一林;万季;汪健;徐韵婉;潘有东;王奕;宋麒 | 申请(专利权)人: | 深圳市新合生物医疗科技有限公司 |
主分类号: | G16B20/30 | 分类号: | G16B20/30;G16B40/00;G06N3/04;G06N3/08 |
代理公司: | 北京冠和权律师事务所 11399 | 代理人: | 安琪 |
地址: | 518055 广东省深圳市南*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 深度 学习 白细胞 抗原 多肽 结合 亲和力 预测 方法 | ||
1.一种基于深度学习的白细胞抗原与多肽结合亲和力预测方法,其特征在于,包括:
步骤S101:对人类白细胞抗原序列进行编码;
步骤S102:构建所述人类白细胞抗原序列与肽段对序列;
步骤S103:构建所述人类白细胞抗原序列与肽链对编码矩阵;
步骤S104:人类白细胞抗原与肽段结合的亲和力预测模型构建。
2.如权利要求1所述的基于深度学习的白细胞抗原与多肽结合亲和力预测方法,其特征在于,所述步骤S104:人类白细胞抗原与肽段结合的亲和力预测模型构建,包括:
步骤S201:捕获编码矩阵序列信息;
步骤S202:从多个角度为氨基酸分配权重;
步骤S203:计算人类白细胞抗原序列-肽段的亲和力。
3.如权利要求2所述的基于深度学习的白细胞抗原与多肽结合亲和力预测方法,其特征在于,所述步骤S201:捕获编码矩阵序列信息,包括:
将所述编码矩阵序列中的每一个氨基酸视为所述人类白细胞抗原序列中的一个结点;
将所述结点的编码向量依次送入双向长短期记忆网络中;所述双向长短期记忆网络可以分别按照所述编码矩阵序列的正向与逆向顺序对所述编码矩阵序列进行特征学习。
4.如权利要求2所述的基于深度学习的白细胞抗原与多肽结合亲和力预测方法,其特征在于,所述步骤S202:从多个角度为氨基酸分配权重,包括:
通过多头注意力机制将所述编码矩阵序列的特征映射至多个特征空间;
在多个子空间下,得到每个特征空间下各氨基酸的注意力权重;
通过一个滤片尺寸为head*1*1的卷积神经网络单独为每个特征空间分配权重,随后分别对于每个氨基酸的多个注意力权重进行加权求和,从而得到序列的重要性向量,公式如下:
W=[w1,w2,...,whead]
其中,W为卷积神经网络的滤片矩阵,wh为第h个特征空间所对应的权重,xh为第h个特征空间下各氨基酸的注意力权重向量。
5.如权利要求2所述的基于深度学习的白细胞抗原与多肽结合亲和力预测方法,其特征在于,所述步骤S203:计算人类白细胞抗原序列-肽段的亲和力,包括:
通过两个全连接层整合特征表示,并利用一个Sigmoid函数得到0~1之间的值,作为该对人类白细胞抗原(HLA)序列-肽段对的亲和力分值,公式如下:
temp1=Tanh(out·W1+b1)
x=Sigmoid(temp1·W2+b2)
其中W1与W2分别是两个全连接层的权重矩阵,b1与b2分别为两个全连接层的偏置向量,Tanh表示双曲正切变换。
6.如权利要求1所述的基于深度学习的白细胞抗原与多肽结合亲和力预测方法,其特征在于,所述步骤S101:对人类白细胞抗原序列进行编码,包括:
人类白细胞抗原核心区域的伪序列来表示人类白细胞抗原亚型。
7.如权利要求6所述的基于深度学习的白细胞抗原与多肽结合亲和力预测方法,其特征在于,所述步骤S102:构建人类白细胞抗原序列与肽段对序列,包括:
将所述伪序列与相应的肽段序列拼接成一个整体,形成长度为42~49的长序列。
8.如权利要求7所述的基于深度学习的白细胞抗原与多肽结合亲和力预测方法,其特征在于,所述步骤S103:构建人类白细胞抗原序列与肽链对编码矩阵,包括:
采用BLOSUM62矩阵对所述长序列中的每一个氨基酸进行编码,形成维度为lseq*20的所述编码矩阵,其中lseq表示序列的长度;
或,
采用One-Hot向量对所述长序列中的每一个氨基酸进行编码,形成所述编码矩阵。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳市新合生物医疗科技有限公司,未经深圳市新合生物医疗科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010732369.7/1.html,转载请声明来源钻瓜专利网。