[发明专利]基于子图-变分自编码结构的分子生成方法在审

专利信息
申请号: 202011170128.4 申请日: 2020-10-28
公开(公告)号: CN112397157A 公开(公告)日: 2021-02-23
发明(设计)人: 李成涛;柳俊宏 申请(专利权)人: 星药科技(北京)有限公司
主分类号: G16C20/50 分类号: G16C20/50;G16C20/70
代理公司: 北京中南长风知识产权代理事务所(普通合伙) 11674 代理人: 郑海
地址: 100083 北京市海淀*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 编码 结构 分子 生成 方法
【说明书】:

一种基于子图‑变分自编码结构的分子生成方法,首先挖掘训练集中所有分子的频繁子图集,再通过基于统计的计数阈值与药学性质筛选频繁子图,得到满足条件的分子子图总集S*;对训练集中的每个分子G进行图分解,得到相应的分子子图集合S;将分子集S输入编码器进行编码,得到相应的隐空间向量Z;最后将Z输入解码器进行解码,得到重构的分子G′,本发明克服了传统逐原子生成方法带来的化学特性缺失和难以合成等缺点,通过子结构的应用保证了分子的某些化学性质,进而生成化学性质稳定并且易于合成的分子结构,为新型药物小分子的发现与设计带来极大的便利,降低了相关工作人员对领域知识的依赖,提高了新型药物设计和开发的效率,缩短研发周。

技术领域

本发明属于人工智能药物研发领域,具体涉及基于分子子图-自编码结构的分子生成与优化的药物研发领域。

背景技术

在药物分子生成与优化领域中,由于分子间排列组合众多,形成的分子空间过于庞大,通过人工自定义规则来筛选的空间有限,如何利用已有分子数据,自动化地找到与目标分子最相关的分子或分子空间至关重要。传统的方法通常是对已知分子和目标分子的化学性质进行分析,并人工设计新的分子结构。这种方法效率非常低,而且这个过程非常依赖于化学家的领域知识和经验,因此有人提出基于机器学习的方法自动生成新分子;常用的方法是将分子表示为SMILES(简化分子线性输入规范)字符串,然后训练图神经网络模型或者是RNN模型来自动生成新分子结构。

目前常见的自动生成新分子的模型主要是先把分子表示为SMILES形式,再利用常用的时间序列模型或自然语言处理模型来生成SMILES序列,最后再转成对应的分子。然而分子的SMILES表示并不能很好的刻画分子之间的相似性,两种化学结构高度相似的分子可能会被编码成两串相差甚远的SMILES字符。并且,SMILES序列生成模型中,并不能很好的保持有效的化学结构。

在最新的研究中,有人提出基于Graph的分子生成模型,如图1所示,就是将分子表示为一个图,然后以图作为输入数据,生成一个新的图,新图就是新生成的分子。这种方法通常是以原子为单位不断进行生成,最后形成一个完整的分子图。这种基于图的方法生成的分子虽然在某些化学特性比SMILES具有更好的表达性,但是由于整个图是基于单个原子逐步产生的,因此在生成的过程中,并没有考虑一些全局的化学结构,因此得到的分子通常在某些化学特性上并不能满足实际需求。

发明内容

发明目的:通过子图的方式保持并传递相关的化学结构与特性,再通过隐变量空间发掘更多潜在的分子结构,进而进行自动组合,生成多样化的分子。

技术方案;本发明基于VAE框架提出了一种基于分子子图-自编码结构的分子生成与优化方法,具体流程如图1所示,主要过程如下:

首先基于gSpan算法挖掘训练集中所有分子(没有任何特别的功能)的频繁子图集(图1-b),再通过基于统计的计数阈值与药学性质筛选频繁子图,得到满足条件的分子子图总集S*(图1-c);

其次对训练集中的每个分子G进行图分解,得到相应的分子子图集合S(图1-d);

再次将分子集S输入multiscale VAE的编码器进行编码,得到相应的隐空间向量z(图1-3);

最后将z输入multiscale VAE的解码器进行解码,得到重构的分子G′(图1-4);

通过上述过程联合训练编码器和解码器,当训练完成后,可先利用编码器将输入分子映射到隐空间中,再通过对隐变量的解码来生成所需要的分子。其中multiscale VAE如图2所示,分别包含原子层的编码解码与子图层的编码解码。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于星药科技(北京)有限公司,未经星药科技(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202011170128.4/2.html,转载请声明来源钻瓜专利网。

同类专利
专利分类
×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top