[发明专利]基于多模态深度编码的HLA抗原呈递预测方法和系统有效

专利信息
申请号: 202111205908.2 申请日: 2021-10-15
公开(公告)号: CN113807468B 公开(公告)日: 2022-05-27
发明(设计)人: 方榯楷;费才溢;徐实 申请(专利权)人: 南京澄实生物科技有限公司
主分类号: G06K9/62 分类号: G06K9/62;G06N3/04;G06Q10/04;G16B30/10;G06N3/08
代理公司: 南京天华专利代理有限责任公司 32218 代理人: 刘畅;傅婷婷
地址: 210000 江苏省南京市江北新*** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 多模态 深度 编码 hla 抗原 呈递 预测 方法 系统
【权利要求书】:

1.一种基于多模态深度编码的HLA抗原呈递预测方法,其特征在于它包括以下步骤:

S1、使用全局最大差异打分矩阵生成负样本训练集;S1中负样本的生成为:使用来自于使用窗口滑动的方法,根据预设的参数阈值,生成阴性序列并使用全局差异打分矩阵筛选生成的序列片段,获得非随机生成的阴性训练集;

S2、特征选择:选定与HLA抗原呈递相关的特征,作为待融合特征;S2中待融合特征选择为:多肽序列特征、上下游序列特征、呈递亲和力特征;

S3、归一化处理:设置隐嵌入维度作为不同待融合特征的最终输入维度,将S1中获取的待融合特征进行变换和尺度缩放,获得标准特征;

多肽序列特征通过以下方法获得标准特征:对于给定多肽肽链氨基酸序列,使用随机矩阵将其每个氨基酸编码到可学习的到隐空间,再利用长短记忆循环神经网络进行处理得到多肽序列特征;进行随机矩阵编码映射后,根据所有数据中最长肽链序列的长度进行补长;

上下游序列特征通过以下方法获得标准特征:对于给定基因上下游肽链,利用独热方法进行编码,编码后的上下游序列进行裁剪得到定长的序列,此编码序列送入多层感知机网络模型进行变换,提取特征作为上下游序列特征;

呈递亲和力特征通过尺度缩放获得标准特征;

呈递亲和力特征的尺度变化公式为:

1-log50(kd)

式中,kd表示原始亲和力指数的单位;

呈递亲和力特征的尺度变化公式或为:

式中,kd表示原始亲和力指数的单位;

S4、特征融合:将维度相同的标准特征作线性融合操作,融合后的特征向量/矩阵输入深度神经网络,进行非线性变换与融合,获得表达HLA抗原呈递的最终特征分数;

S5、构建预测模型:特征融合,构建包含最终特征分数的预测模型和优化模型;

S6、求解优化模型,获得最优参数的预测模型;

S7、使用最优参数的预测模型进行HLA抗原呈递预测。

2.根据权利要求1所述的方法,其特征在于根据S2中特征选择的不同,S3中选定相应的归一化处理方案;具体为:

-长序列特征,使用随机矩阵将其每个氨基酸编码到可学习的到隐空间,再利用长短记忆循环神经网络进行处理;

-短序列特征,利用独热方法进行编码,编码后的序列送入多层感知机网络模型进行变换;

-向量特征,采用主成分分解PCA进行编码,将所有数据的向量形式的特征组合成特征矩阵,应用主成分分解进行矩阵分解;根据隐嵌入维度选择特定数目的矩阵特征向量作编码变换;

-标量特征,采用多维尺度放缩,高斯核方法进行编码:将所有数据的标量形式的特征作为高斯核的输入,得到高斯核的协方差矩阵;将矩阵的各列进行多维尺度放缩,得到编码变换的特征向量。

3.根据权利要求1所述的方法,其特征在于S4特征融合中,所述线性融合操作包括点乘、或加和、或组合成特征矩阵。

4.根据权利要求1所述的方法,其特征在于S5中构建优化模型:

式中,fWf是含可学习参数的预测模型;

W表示该模型中可学习参数,包括各融合特征获取时方案权重;wn表示对不同样本的损失函数所赋予权重,N表示样本总数;

xn表示输入的特定数据,yn是训练数据中是否呈递结合的真实值,o’是S逻辑函数。

5.根据权利要求1所述的方法,其特征在于S6中求解优化模型:多次遍历所有训练数据,利用基于随机梯度优化方法的优化器进行优化,得到最优的模型参数,获得预测模型fW。

6.根据权利要求5所述的方法,其特征在于采用多策略生成负样本构建训练数据数据集;所述训练数据经过包括重抽样、剔除负样本的数据处理。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京澄实生物科技有限公司,未经南京澄实生物科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202111205908.2/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top