[发明专利]一种基于对比学习的分子图表示学习方法有效
| 申请号: | 202011564310.8 | 申请日: | 2020-12-25 |
| 公开(公告)号: | CN112669916B | 公开(公告)日: | 2022-03-15 |
| 发明(设计)人: | 陈华钧;杨海宏;方尹;庄祥 | 申请(专利权)人: | 浙江大学 |
| 主分类号: | G16C20/70 | 分类号: | G16C20/70;G16C20/20;G16C20/80;G06N3/04;G06N3/08;G06N20/00 |
| 代理公司: | 杭州天勤知识产权代理有限公司 33224 | 代理人: | 彭剑 |
| 地址: | 310013 浙江*** | 国省代码: | 浙江;33 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 对比 学习 分子 图表 学习方法 | ||
1.一种基于图表示学习和对比学习的分子属性预测方法,其特征在于,包括以下步骤:
(1)获取每个分子的分子指纹表示,计算每两个分子指纹之间的相似度;
(2)收集全量的化学官能团信息,为分子中的每个原子匹配对应的官能团;其中,当某个原子属于多个官能团时,优先匹配包含原子个数多的官能团作为该原子对应的官能团;
(3)用异构图对分子图建模,异构图为包含不同类型节点和边的图,不同原子对应不同的节点类型,不同键对应不同的边类型;
(4)构建结构感知分子编码器,利用结构感知分子编码器中的关系图卷积网络RGCN编码分子中每个原子的表示及其所属官能团的表示,通过聚合函数将分子映射到特征空间,得到具有结构感知的特征表示;具体过程为:
将具有初始化节点特征和官能团特征的异构图作为结构感知分子编码器的输入,结构感知分子编码器中的关系图卷积网络RGCN通过对不同类型的边计算和聚合信息,以及对不同类型的节点整合不同边所聚合的信息来进行信息传递;得到每个原子及其所属官能团的特征表示后,再将节点与官能团的特征进行聚合,得到分子的具有结构感知的特征表示;
关系图卷积网络RGCN进行信息传递的公式如下:
其中,R是所有边的集合,是与节点i相邻的边类型为r的所有邻居节点,ci,r是一个可以学习的参数,是当前层l的权重矩阵,是当前层l对当前节点i的特征向量;对邻居节点的特征乘以边类型所对应的权重,再乘以一个可学习的参数后求和,最后加上自环边所传递的信息,经过激活函数σ,作为本层的输出,下一层的输入;
(5)根据分子之间的指纹相似度,选取正、负样本,在特征空间中进行对比学习;
(6)通过在大样本分子数据集上利用对比学习的方法进行训练,得到具有结构感知的分子编码器,应用于下游分子属性的预测任务。
2.根据权利要求1所述的基于图表示学习和对比学习的分子属性预测方法,其特征在于,步骤(1)中,通过Rdkit将分子的SMILES表示转化为分子指纹;所述的分子指纹选择Morgan指纹、MACCs指纹和拓扑指纹中的一种。
3.根据权利要求2所述的基于图表示学习和对比学习的分子属性预测方法,其特征在于,步骤(1)中,两个分子指纹之间的相似度计算采用谷本系数,公式为:
其中,采用MACCs指纹预先指定了166种分子的部分分子结构,当含有该分子结构时,对应位置记为1,反之则记为0;a和b分别表示在A、B分子中显示1的数量,c表示A、B分子中同时显示1的数量。
4.根据权利要求1所述的基于图表示学习和对比学习的分子属性预测方法,其特征在于,步骤(5)中,选取正、负样本时,选取1个与目标分子相似度大于某阈值的分子为正样本,选取K个相似度小于某阈值的分子为负样本;将目标分子对应的特征表示记为q,将正样本的特征表示记为k0,将K个负样本的特征表示记为k1,…,kK。
5.根据权利要求4所述的基于图表示学习和对比学习的分子属性预测方法,其特征在于,获得每个目标分子及其正、负样本的特征表示后,利用损失函数计算损失,并通过反向传播算法更新结构感知分子编码器的参数,促使结构感知分子编码器将目标分子与正样本识别为相似实例,并与不相似的样本区分开。
6.根据权利要求5所述的基于图表示学习和对比学习的分子属性预测方法,其特征在于,所述的损失函数为InfoNCE,公式为:
其中,τ为超参数,该损失函数促使结构感知分子编码器将目标分子q与正样本k0识别为相似实例,将q与不相似的实例k1,…,kK区分开。
7.根据权利要求1所述的基于图表示学习和对比学习的分子属性预测方法,其特征在于,步骤(6)的具体过程为:
在大样本分子数据集上通过步骤(5)所述的对比学习方法训练具有结构感知的分子编码器;然后将小样本数据集中的分子数据输入具有结构感知的分子编码器,再利用线性分类器对编码器输出的分子表示做分类,进行分子属性的预测。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大学,未经浙江大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011564310.8/1.html,转载请声明来源钻瓜专利网。





