[发明专利]一种基于变分自编码器的分子生成与优化在审
申请号: | 202111414061.9 | 申请日: | 2021-11-25 |
公开(公告)号: | CN114038516A | 公开(公告)日: | 2022-02-11 |
发明(设计)人: | 王爽;宋弢;庞善臣;李臻;魏志强 | 申请(专利权)人: | 中国石油大学(华东) |
主分类号: | G16C20/50 | 分类号: | G16C20/50;G16C20/30;G16C20/70;G06N3/04;G06N3/08 |
代理公司: | 无锡知更鸟知识产权代理事务所(普通合伙) 32468 | 代理人: | 王丽娜 |
地址: | 266000 山*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 编码器 分子 生成 优化 | ||
本发明提出了一种基于变分自编码器的分子生成与优化,其特征在于,包括如下步骤:步骤1、将分子分解为子结构;步骤2、在变分自编码器和门控神经网络基础上构建生成模型,并通过该生成模型将子结构转变为分子子结构树,通过逐步添加子结构的方式生成化合物分子;步骤3、利用优化模型对化合物分子的隐向量进行优化,最终形成优化后的化合物分子,借此,本发明将分子转变为分子子结构树,在解码器过程中提出一种自回归模型,该模型通过逐步添加子结构的方式生成化合物分子,模型较好地学习到了分子子结构之间的连接关系,规避了节点添加过程中的化合价检测,解决了现有技术中的问题。
技术领域
本发明属于分子生成技术领域,特别涉及一种基于变分自编码器的分子生成与优化。
背景技术
分子生成与优化是药物设计的重要环节,基于深度学习的分子生成与优化一方面基于深度学习的药物生成与优化,从源头上实现了药物设计的智能化,药物分子从已有化学分子库筛选转变为从无到有地生成具有期望性质的药物分子,缩短了新药发现的周期。另一方面扩充虚拟分子库,为新药发现提供更多合理的、新颖的药物分子。
现有的基于深度学习的分子生成与优化的研究已取得一定的进展,但存在部分问题亟待解决。现有的分子生成模型中,多以原子为节点进行分子生成。为使得生成的分子符合化学价规则,生成过程的每一步都伴随原子化合价检测,这说明深度学习模型并未完全学习到分子的化合价规则,模型的学习能力和普适能力有待提升。
发明内容
本发明提出一种基于变分自编码器的分子生成与优化,解决了上述问题。
本发明的技术方案是这样实现的:一种基于变分自编码器的分子生成与优化,包括如下步骤:
步骤1、将分子分解为子结构;
步骤2、在变分自编码器和门控神经网络基础上构建生成模型,并通过该生成模型将子结构转变为分子子结构树,通过逐步添加子结构的方式生成化合物分子;
步骤3、利用优化模型对化合物分子的隐向量进行优化,最终形成优化后的化合物分子。
作为一种优选的实施方式,变分自编码器包括编码器、解码器和损失函数;
编码器,采用MSGG模型,通过三个通道提取分子特征,对于每个通道,MSGG 模型采用门控神经网络和注意力机制结合的方式得到三个通道的输出,三个输出结合得到最终的分子隐向量表示;
解码器,采用自回归生成模型,该自回归生成模型由初始节点生成、分子子结构树动态表示、拓扑连接预测、新边生成、新节点生成和终止预测组成;
损失函数,给定一个训练样本,生成模型输出其对应的预测值,在训练的过程中计算预测值和真实值之间的差距数值。
作为一种优选的实施方式,初始节点生成的方法为,编码器通过MSGG模型首先将分子子结构树映射到d维的隐向量空间z,并为每个输入构建均值为μ,方差为σ的正态分布,再从d维的独立多元正态分布中采样初始向量zr,并将zr输入到一个多层感知机网络fr,为所有子结构的概率分布建模,即得到初始节点,初始节点的表达式为:
作为一种优选的实施方式,分子子结构树动态表示的方法为通过节点和边作为分子子结构树的基本单元,节点和边逐个添加的过程即为分子子结构树的生成过程,生成过程中的每一步对应一个GRU单元,一系列的GRU单元构成了 GRU模型,GRU单元的数量随新节点的增加而动态增加,在t步生成的分子子结构树Tt经过GRU模型计算被记为GRU(Tt),其表达式为:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国石油大学(华东),未经中国石油大学(华东)许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111414061.9/2.html,转载请声明来源钻瓜专利网。