[发明专利]一种蛋白质生成的方法及相关设备在审

申请号：	202310645923.1	申请日：	2023-06-01
公开（公告）号：	CN116543829A	公开（公告）日：	2023-08-04
发明（设计）人：	黄楚天;熊袁鹏;刘子敬;幺宝刚	申请（专利权）人：	粤港澳大湾区数字经济研究院（福田）
主分类号：	G16B15/20	分类号：	G16B15/20;G16B40/00;G16C20/50;G16C20/70;G06N3/04;G06N3/084
代理公司：	深圳市君胜知识产权代理事务所(普通合伙) 44268	代理人：	刘芙蓉
地址：	518045 广东省深圳市福田区福***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种蛋白质生成方法相关设备
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明涉及生物制药技术领域，尤其涉及一种蛋白质生成的方法及相关设备。该方法包括步骤：获取蛋白质的结构数据和/或序列数据；利用所述蛋白质的结构数据和/或序列数据计算得到负归一化泊松经验场，训练神经网络学习所述负归一化泊松经验场，得到泊松流生成模型；根据所述泊松流生成模型，生成新的蛋白质。本发明提出了基于泊松流生成模型对蛋白质结构和序列进行生成的人工智能方法，该方法所生成的二面角与键角可以反映自然的二级构象，生成的序列符合蛋白质序列内在表达，并不是简单地生成与自然界中存在的序列“相似”的序列。此外，本发明的泊松流生成模型能够生成长度可变的蛋白质。

技术领域

本发明涉及生物制药技术领域，尤其涉及一种蛋白质生成的方法及相关设备。

背景技术

蛋白质是生物体内发挥重要功能的一类大分子，而抗体(图1中(a)所示)是其中发挥免疫功能的一种特殊类型。传统的蛋白质设计方法，包括抗体的设计，主要基于医学与免疫学实验，这类实验技术往往存在成本高昂、周期过长等缺点。得益于近年来人工智能技术与理论的发展，计算方法，特别是深度学习技术，可以加速新蛋白质的发现，并在开发人类疾病的新疗法方面发挥重要作用。当前基于深度学习的蛋白质设计方法，主要使用扩散生成模型进行蛋白质设计，其蛋白质设计的过程为从一堆随机生成的噪声数据(但是需要符合特定概率分布函数)中逐渐去除若干噪声信号，并最终得到无噪声的蛋白质结构。但是，上述扩散生成模型，其加噪与去噪过程都用随机微分方程来模拟，而随机微分方程的采样速度较低，因此生成蛋白质的速度较慢，不能满足高通量的性能要求。

因此，现有技术还有待于改进和发展。

发明内容

鉴于上述现有技术的不足，本发明的目的在于提供一种蛋白质生成的方法及相关设备，旨在解决现有多数蛋白质生成模型采用扩散生成模型，采样速度慢，从而不利于大规模蛋白质生成任务，限制了大分子药物分子筛选过程的通量的问题。

本发明采用的技术方案如下：

一种蛋白质生成的方法，其中，所述方法包括步骤：

获取蛋白质的结构数据和/或序列数据；

利用所述蛋白质的结构数据和/或序列数据计算得到负归一化泊松经验场，通过训练神经网络学习所述负归一化泊松经验场，得到泊松流生成模型；

根据所述泊松流生成模型，生成新的蛋白质。

可选地，所述蛋白质的结构数据由氨基酸的六个特征量表示，所述六个特征量包括三个二面扭转角φ、ψ、ω和三个键角θ₁、θ₂、θ₃

可选地，所述蛋白质的序列数据由氨基酸的独热编码表示。

可选地，所述利用所述蛋白质的结构数据和/或序列数据计算得到负归一化泊松经验场，通过训练神经网络学习所述负归一化泊松经验场，得到泊松流生成模型，具体包括：

将所述蛋白质的结构数据和/或序列数据扰动到增强空间中，得到扰动后的蛋白质的结构数据和/或序列数据；