[发明专利]使用递归神经网络编码器和注意力加权来改进对新表位的主要组织相容性复合物(MHC)-肽结合预测的方法和系统在审
| 申请号: | 201980054372.3 | 申请日: | 2019-08-14 |
| 公开(公告)号: | CN112912960A | 公开(公告)日: | 2021-06-04 |
| 发明(设计)人: | J·苏多尔;K·弗努克 | 申请(专利权)人: | 南托米克斯有限责任公司 |
| 主分类号: | G16B35/10 | 分类号: | G16B35/10;G16B30/10;G16B40/20;G16B50/00;C07K14/74 |
| 代理公司: | 中国专利代理(香港)有限公司 72001 | 代理人: | 李志强;黄希贵 |
| 地址: | 美国加利*** | 国省代码: | 暂无信息 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 使用 递归 神经网络 编码器 注意力 加权 改进 新表位 主要 组织 相容性 复合物 mhc 结合 | ||
提供了用于预测MHC‑肽结合亲和力的技术。获得多个训练肽序列,并且使用训练肽序列训练神经网络模型以预测MHC‑肽结合亲和力。包括RNN的神经网络模型的编码器被配置为处理输入训练肽序列以通过将RNN的最终隐藏状态应用于RNN的中间状态输出从而生成注意力加权输出、并且线性组合注意力加权输出来生成编码固定维数的输出。在编码器之后的完全连接层被配置为处理编码固定维数的输出以生成MHC‑肽结合亲和力预测输出。计算装置被配置为使用经训练的神经网络来预测针对测试肽序列的MHC‑肽结合亲和力。
技术领域
本公开总体上涉及预测主要组织相容性复合物(MHC)-肽结合,并且更具体地涉及采用一个或多个递归神经网络来生成MHC-肽结合亲和力预测的神经网络模型。
背景技术
T细胞或T淋巴细胞是一种在细胞介导的免疫中起核心作用的淋巴细胞(白细胞的亚型)类型。T细胞的独特特征是它们区分体内健康细胞和异常细胞(例如感染的细胞或癌细胞)的能力。健康细胞通常在其细胞表面表达大量自身衍生型肽-主要组织相容性复合物(pMHC),尽管T细胞抗原受体可与这些自身衍生型pMHC的至少一部分相互作用,但T细胞通常会忽略这些健康细胞。但是,当同一细胞含有甚至微量的病原体衍生的pMHC时,T细胞就会被激活并引发免疫应答。阳性选择的T细胞将与pMHC具有亲和力,并在体内发挥有用的功能,包括与MHC和肽复合物相互作用以实现免疫应答,而与MHC分子上表达的自身抗原结合太强的阴性选择的T细胞则被消除以允许免疫系统的自身耐受。
细胞毒性T细胞(又称TC细胞、CTL、T杀伤细胞、杀伤T细胞)破坏病毒感染的细胞和肿瘤细胞。这些细胞(因为它们在其表面表达CD8糖蛋白,也称为CD8 T细胞)通过与非自身蛋白(肽抗原)的片段结合而识别病毒感染的或肿瘤细胞靶标,这些非自身蛋白的片段通常长度为8-15个氨基酸并由主要组织相容性复合物(MHC)I类分子呈递。特定长度的肽通常简称为“N聚体”。例如,长度为9个氨基酸的肽序列可以被称为9聚体。
I类MHC分子是主要组织相容性复合物(MHC)分子的两种主要类别中的一种(另一种是II类MHC),并且存在于人类所有有核细胞的表面上。它们的功能是向细胞毒性T细胞展示细胞内肽抗原,从而触发免疫系统对所展示的特定非自身抗原的立即应答。
免疫学中的当前挑战是理解哪种肽与哪种I类MHC分子良好结合,即哪种肽最适合激活细胞毒性T细胞应答,特别是因为MHC化合物的每个等位基因(变体形式)具有不同的特性。如果可以准确预测各种长度的蛋白质片段的这种MHC-肽结合亲和力,则可以例如基于确定哪种肿瘤抗原最有可能触发免疫系统应答来开发新的免疫疗法。
神经网络已被用于预测MHC-肽结合亲和力。虽然I类MHC分子可以结合长度为6-20个氨基酸的肽(尽管它们通常长度为8-15个氨基酸)且II类MHC分子可以结合长度为10-30个氨基酸的肽(尽管它们通常长度为12-25个氨基酸),但当前的一个缺点是,这些神经网络模型的输入通常是固定长度的,并且在不填充(即,将一个或多个‘0’或空值添加到编码的肽序列中以匹配神经网络的固定输入长度)的情况下不能适应可变的肽序列长度。虽然当使用单长度肽序列(例如,仅包含9聚体肽序列、仅包含10聚体肽序列等的数据集)训练神经网络时,这种填充已显示出对预测性能没有影响,但当使用可变长度的肽序列进行训练时,目前使用这种填充的神经网络模型无法达到其完全预测性能潜力。因此,当使用可变长度的肽序列训练神经网络时,仍然需要改进MHC-肽结合亲和力预测性能的技术。此外,它将改进MHC-肽结合亲和力预测性能,从而能够确定对于预测MHC-肽结合亲和力而言最重要的、测试输入序列的肽位置。
发明内容
本文描述了涉及使用神经网络模型来预测MHC-肽结合亲和力的设备、系统、方法和制品。各个实施例基于神经网络模型,该神经网络模型采用递归神经网络编码器和注意力加权来当用可变长度的肽序列训练时以提高的准确性生成MHC-肽结合亲和力预测。这样,可以对测试肽序列进行准确的MHC-肽结合亲和力预测,这些测试肽序列类似于结合亲和力数据已知的训练肽序列,但是长度不同。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南托米克斯有限责任公司,未经南托米克斯有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201980054372.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:适合用于电化学电池单元的高拉伸强度纸
- 下一篇:精确分配食物的系统和方法





