[发明专利]基于多模态深度编码的HLA抗原呈递预测方法和系统有效
申请号: | 202111205908.2 | 申请日: | 2021-10-15 |
公开(公告)号: | CN113807468B | 公开(公告)日: | 2022-05-27 |
发明(设计)人: | 方榯楷;费才溢;徐实 | 申请(专利权)人: | 南京澄实生物科技有限公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06N3/04;G06Q10/04;G16B30/10;G06N3/08 |
代理公司: | 南京天华专利代理有限责任公司 32218 | 代理人: | 刘畅;傅婷婷 |
地址: | 210000 江苏省南京市江北新*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 多模态 深度 编码 hla 抗原 呈递 预测 方法 系统 | ||
1.一种基于多模态深度编码的HLA抗原呈递预测方法,其特征在于它包括以下步骤:
S1、使用全局最大差异打分矩阵生成负样本训练集;S1中负样本的生成为:使用来自于使用窗口滑动的方法,根据预设的参数阈值,生成阴性序列并使用全局差异打分矩阵筛选生成的序列片段,获得非随机生成的阴性训练集;
S2、特征选择:选定与HLA抗原呈递相关的特征,作为待融合特征;S2中待融合特征选择为:多肽序列特征、上下游序列特征、呈递亲和力特征;
S3、归一化处理:设置隐嵌入维度作为不同待融合特征的最终输入维度,将S1中获取的待融合特征进行变换和尺度缩放,获得标准特征;
多肽序列特征通过以下方法获得标准特征:对于给定多肽肽链氨基酸序列,使用随机矩阵将其每个氨基酸编码到可学习的到隐空间,再利用长短记忆循环神经网络进行处理得到多肽序列特征;进行随机矩阵编码映射后,根据所有数据中最长肽链序列的长度进行补长;
上下游序列特征通过以下方法获得标准特征:对于给定基因上下游肽链,利用独热方法进行编码,编码后的上下游序列进行裁剪得到定长的序列,此编码序列送入多层感知机网络模型进行变换,提取特征作为上下游序列特征;
呈递亲和力特征通过尺度缩放获得标准特征;
呈递亲和力特征的尺度变化公式为:
1-log50(kd)
式中,kd表示原始亲和力指数的单位;
呈递亲和力特征的尺度变化公式或为:
式中,kd表示原始亲和力指数的单位;
S4、特征融合:将维度相同的标准特征作线性融合操作,融合后的特征向量/矩阵输入深度神经网络,进行非线性变换与融合,获得表达HLA抗原呈递的最终特征分数;
S5、构建预测模型:特征融合,构建包含最终特征分数的预测模型和优化模型;
S6、求解优化模型,获得最优参数的预测模型;
S7、使用最优参数的预测模型进行HLA抗原呈递预测。
2.根据权利要求1所述的方法,其特征在于根据S2中特征选择的不同,S3中选定相应的归一化处理方案;具体为:
-长序列特征,使用随机矩阵将其每个氨基酸编码到可学习的到隐空间,再利用长短记忆循环神经网络进行处理;
-短序列特征,利用独热方法进行编码,编码后的序列送入多层感知机网络模型进行变换;
-向量特征,采用主成分分解PCA进行编码,将所有数据的向量形式的特征组合成特征矩阵,应用主成分分解进行矩阵分解;根据隐嵌入维度选择特定数目的矩阵特征向量作编码变换;
-标量特征,采用多维尺度放缩,高斯核方法进行编码:将所有数据的标量形式的特征作为高斯核的输入,得到高斯核的协方差矩阵;将矩阵的各列进行多维尺度放缩,得到编码变换的特征向量。
3.根据权利要求1所述的方法,其特征在于S4特征融合中,所述线性融合操作包括点乘、或加和、或组合成特征矩阵。
4.根据权利要求1所述的方法,其特征在于S5中构建优化模型:
式中,fWf是含可学习参数的预测模型;
W表示该模型中可学习参数,包括各融合特征获取时方案权重;wn表示对不同样本的损失函数所赋予权重,N表示样本总数;
xn表示输入的特定数据,yn是训练数据中是否呈递结合的真实值,o’是S逻辑函数。
5.根据权利要求1所述的方法,其特征在于S6中求解优化模型:多次遍历所有训练数据,利用基于随机梯度优化方法的优化器进行优化,得到最优的模型参数,获得预测模型fW。
6.根据权利要求5所述的方法,其特征在于采用多策略生成负样本构建训练数据数据集;所述训练数据经过包括重抽样、剔除负样本的数据处理。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京澄实生物科技有限公司,未经南京澄实生物科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111205908.2/1.html,转载请声明来源钻瓜专利网。