[发明专利]一种基于变分自编码器的分子生成与优化在审
| 申请号: | 202111414061.9 | 申请日: | 2021-11-25 |
| 公开(公告)号: | CN114038516A | 公开(公告)日: | 2022-02-11 |
| 发明(设计)人: | 王爽;宋弢;庞善臣;李臻;魏志强 | 申请(专利权)人: | 中国石油大学(华东) |
| 主分类号: | G16C20/50 | 分类号: | G16C20/50;G16C20/30;G16C20/70;G06N3/04;G06N3/08 |
| 代理公司: | 无锡知更鸟知识产权代理事务所(普通合伙) 32468 | 代理人: | 王丽娜 |
| 地址: | 266000 山*** | 国省代码: | 山东;37 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 编码器 分子 生成 优化 | ||
1.一种基于变分自编码器的分子生成与优化,其特征在于,包括如下步骤:
步骤1、将分子分解为子结构;
步骤2、在变分自编码器和门控神经网络基础上构建生成模型,并通过该生成模型将子结构转变为分子子结构树,通过逐步添加子结构的方式生成化合物分子;
步骤3、利用优化模型对化合物分子的隐向量进行优化,最终形成优化后的化合物分子。
2.根据权利要求1所述的一种基于变分自编码器的分子生成与优化,其特征在于,所述变分自编码器包括编码器、解码器和损失函数;
编码器,采用MSGG模型,通过三个通道提取分子特征,对于每个通道,MSGG模型采用门控神经网络和注意力机制结合的方式得到三个通道的输出,三个输出结合得到最终的分子隐向量表示;
解码器,采用自回归生成模型,该自回归生成模型由初始节点生成、分子子结构树动态表示、拓扑连接预测、新边生成、新节点生成和终止预测组成;
损失函数,给定一个训练样本,生成模型输出其对应的预测值,在训练的过程中计算预测值和真实值之间的差距数值。
3.根据权利要求2所述的一种基于变分自编码器的分子生成与优化,其特征在于,所述初始节点生成的方法为,编码器通过MSGG模型首先将分子子结构树映射到d维的隐向量空间z,并为每个输入构建均值为μ,方差为σ的正态分布,再从d维的独立多元正态分布中采样初始向量zr,并将zr输入到一个多层感知机网络fr,为所有子结构的概率分布建模,即得到初始节点,初始节点的表达式为:
4.根据权利要求2所述的一种基于变分自编码器的分子生成与优化,其特征在于,所述分子子结构树动态表示的方法为通过节点和边作为分子子结构树的基本单元,节点和边逐个添加的过程即为分子子结构树的生成过程,生成过程中的每一步对应一个GRU单元,一系列的GRU单元构成了GRU模型,GRU单元的数量随新节点的增加而动态增加,在t步生成的分子子结构树Tt经过GRU模型计算被记为GRU(Tt),其表达式为:
其中,Ht是第t步分子子结构树的隐状态向量矩阵,由生成序列内的所有节点在t步的隐状态向量构成,Yt是GRU对截至t步时已生成的分子子结构树提取的整体特征向量表示,是在t步时输入到GRU模型中的第i个节点序列特征,是第i个节点在第t步对应的隐状态,是在t步第i个GRU单元的输出。
5.根据权利要求2所述的一种基于变分自编码器的分子生成与优化,其特征在于,所述拓扑连接预测的方法为通过拓扑连接计算确定新生成节点,即父节点的位置,其拓扑连接计算的表达式为:
其中,Ct是节点Vt的拓扑连接序列,m是连接距离;
给定一个经过t步生成的分子子结构树,下一步t+1需生成的新节点的拓扑连接位置经过神经网络fl根据此时分子子结构树的状态计算得出,其计算的表达式为:
Ct+1=Softmax(fl([Yt,zr]))
其中Ct+1是第t+1步的拓扑连接预测,Yt是上一时刻子结构树的状态表示,zr是隐空间向量。
6.根据权利要求2所述的一种基于变分自编码器的分子生成与优化,其特征在于,所述新边生成的方法如表达式所示;
其中,是父节点特征,Nt(Vp)是节点Vp在步数t时的邻居顶点集合,Et+1,p是存在于新节点Vt+1和父节点Vp之间的边,fe是多层感知机网络,代表边Et+1,p的特征。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国石油大学(华东),未经中国石油大学(华东)许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111414061.9/1.html,转载请声明来源钻瓜专利网。





