[发明专利]一种基于对比学习的分子图表示学习方法有效

专利信息
申请号: 202011564310.8 申请日: 2020-12-25
公开(公告)号: CN112669916B 公开(公告)日: 2022-03-15
发明(设计)人: 陈华钧;杨海宏;方尹;庄祥 申请(专利权)人: 浙江大学
主分类号: G16C20/70 分类号: G16C20/70;G16C20/20;G16C20/80;G06N3/04;G06N3/08;G06N20/00
代理公司: 杭州天勤知识产权代理有限公司 33224 代理人: 彭剑
地址: 310013 浙江*** 国省代码: 浙江;33
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 对比 学习 分子 图表 学习方法
【说明书】:

发明公开了一种基于对比学习的分子图表示学习方法,包括:获取每个分子的分子指纹表示,计算每两个分子指纹之间的相似度;收集全量的化学官能团信息,为分子中的每个原子匹配对应的官能团;用异构图对分子图建模;利用结构感知分子编码器中的RGCN编码分子中每个原子的表示及其所属官能团的表示,通过聚合函数将分子映射到特征空间,得到具有结构感知的特征表示;根据分子之间的指纹相似度,选取正、负样本,在特征空间中进行对比学习;在大样本分子数据集上利用对比学习的方法进行训练,得到具有结构感知的分子编码器,应用于下游分子属性的预测任务。本发明有助于捕捉更丰富的分子结构信息,解决分子属性预测的问题。

技术领域

本发明属于图表示学习领域,尤其是涉及一种基于对比学习的分子图表示学习方法。

背景技术

在过去几年中,图表示学习(Graph Representation Learning)已成为分析图结构数据的热门研究领域。图表示学习旨在学习一种编码函数,该函数充分利用图数据的优势,将具有复杂结构的图数据转换为保留多样化图属性和结构特征的低维空间中的密集表示。

传统的无监督图表示学习方法,利用随机游走方法将图转化为节点序列,建模了中心节点与邻居节点之间的共现关系。但是这类学习框架有两个明显缺点:一是编码器之间缺少参数共享,会占用过多计算资源;二是模型缺乏泛化能力,难以推广应用于新图。

近年来,使用图神经网络(Graph Neural Network,GNN)进行图表示学习受到了广泛的关注。图神经网络通常通过邻域状态的加权总和来更新节点的隐藏状态。通过节点之间的信息传递,图神经网络能够捕捉来自其邻域的信息。

分子图是一类天然具有丰富结构信息的图数据,目前有众多研究利用深度学习方法编码分子,以加速药物的研发和分子识别。为了表示向量空间中的分子,传统的分子指纹试图将分子编码为固定长度的二进制向量,分子指纹上的每个比特位对应于一种分子片段。

为了提高分子指纹的表达能力,一些研究引入图神经网络,将分子的SMILES表示作为输入,学习分子在低维向量空间中的表示,并应用于下游的属性预测等任务。

但是,获取分子性质标签的实验过程既耗时又消耗资源,分子任务面临标记数据不足等问题。同时,由于分子空间极为庞大,模型泛化能力一般较差。为提高神经网络的泛化能力,一些工作试图在分子的图表示上建立预训练模型。大多数工作在预训练的节点级别任务中,将原子的类型作为标签,但由于分子中原子的类型较少,且存在个别原子几乎在所有分子中频繁出现的情况,这样训练出的模型未必能捕捉到有价值的化学领域信息。而在有监督的图级别任务中,通过标签训练所得到的模型往往只涉及部分特定知识,且大多数分子缺乏标注,这也限制了模型在实际场景中的使用。

因此,亟需设计一种新的分子图表示学习方法,来解决现有技术存在的上述问题。

发明内容

本发明提供了一种基于对比学习的分子图表示学习方法,可以获得具有领域信息且具有区分性的分子图表示,解决分子属性预测等问题。

一种基于对比学习的分子图表示学习方法,包括以下步骤:

(1)获取每个分子的分子指纹表示,计算每两个分子指纹之间的相似度;

(2)收集全量的化学官能团信息,为分子中的每个原子匹配对应的官能团;其中,当某个原子属于多个官能团时,优先匹配包含原子个数多的官能团;

(3)用异构图对分子图建模,异构图为包含不同类型节点和边的图,不同原子对应不同的节点类型,不同键对应不同的边类型;

(4)构建结构感知分子编码器,利用结构感知分子编码器中的关系图卷积网络RGCN编码分子中每个原子的表示及其所属官能团的表示,通过聚合函数将分子映射到特征空间,得到具有结构感知的特征表示;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大学,未经浙江大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202011564310.8/2.html,转载请声明来源钻瓜专利网。

同类专利
专利分类
×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top