[发明专利]模型训练、蛋白质特征提取和功能预测的方法与装置在审
| 申请号: | 202110996109.5 | 申请日: | 2021-08-27 |
| 公开(公告)号: | CN114333980A | 公开(公告)日: | 2022-04-12 |
| 发明(设计)人: | 吴家祥 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
| 主分类号: | G16B5/00 | 分类号: | G16B5/00;G16B40/00;G16B50/00;G06N3/04;G06N3/08;G06N20/00 |
| 代理公司: | 北京励诚知识产权代理有限公司 11647 | 代理人: | 赵爽 |
| 地址: | 518057 广东省深圳*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 模型 训练 蛋白质 特征 提取 功能 预测 方法 装置 | ||
1.一种预训练模型的训练方法,所述预训练模型用于对蛋白质进行特征提取,其特征在于,包括:
基于起始蛋白质的三维结构,构建起始拓扑图G,其中,所述起始拓扑图G采用所述起始蛋白质的氨基酸残基作为节点,所述起始拓扑图G采用邻近氨基酸残基对作为边;和
将所述起始拓扑图G输入至预训练模型,对所述预训练模型进行训练,以便获得用于对所述蛋白质进行特征提取的预训练模型,
其中,所述预训练模型包括具有SE(3)等变性的图神经网络。
2.根据权利要求1所述的方法,其特征在于,所述预训练模型在所述具有SE(3)等变性的图神经网络之前设置有注意力层。
3.根据权利要求2所述的方法,其特征在于,所述注意力层为多头注意力层。
4.根据权利要求2或3所述的方法,其特征在于,所述注意力层采用氨基酸残基的特征h,氨基酸残基之间的组合特征g以及氨基酸残基之间的α-碳原子距离r作为输入特征,输出经过更新的氨基酸残基特征h’和α-碳原子坐标s’i。
5.根据权利要求2所述的方法,其特征在于,所述图神经网络包括选自EGNN、SE(3)-Transformer和Lie-Transformer的至少之一。
6.根据权利要求1所述的方法,其特征在于,对所述预训练模型进行训练包括:
对所述起始拓扑图G施加预先指定的噪声,以便得到至少一个经过扰动的拓扑图G’;和
采用所述经过扰动的拓扑图G’作为输入特征,对预训练模型进行去噪训练,所述去噪训练采用所述经过扰动的拓扑图G’与所述起始拓扑图G之间的真实去噪梯度作为训练标记,以便得到所述预训练模型。
7.一种对蛋白质进行特征提取的方法,其特征在于,包括:
基于蛋白质的三维结构,构建拓扑图G,其中,所述拓扑图G采用所述蛋白质的氨基酸残基作为节点,所述拓扑图G采用采用邻近氨基酸残基对作为边;
基于所述拓扑图G,提取所述蛋白质的特征向量;
将所述蛋白质的所述特征向量,输入预训练模型,以便获得经过预训练的氨基酸残基特征,所述预训练模型是根据具有三维结构信息的蛋白质数据进行预训练得到的,所述预训练模型包括具有SE(3)等变性的图神经网络。
8.根据权利要求7所述的方法,其特征在于,进一步包括:
将所述经过预训练的氨基酸残基特征进行全局池化处理,以便获得整体蛋白质特征。
9.根据权利要求7所述的方法,其特征在于,所述预训练模型在所述具有SE(3)等变性的图神经网络之前设置有注意力层。
10.根据权利要求9所述的方法,其特征在于,所述注意力层为多头注意力层。
11.根据权利要求9或10所述的方法,其特征在于,
所述注意力层采用氨基酸残基的特征h,氨基酸残基之间的组合特征g以及氨基酸残基之间的α-碳原子距离r作为输入特征,输出经过更新的氨基酸残基特征h’和α-碳原子坐标s’i。
12.根据权利要求1所述的方法,其特征在于,所述图神经网络包括选自EGNN、SE(3)-Transformer和Lie-Transformer的至少之一。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110996109.5/1.html,转载请声明来源钻瓜专利网。





