[发明专利]一种单步逆向合成方法及系统有效
| 申请号: | 202011383345.1 | 申请日: | 2020-12-01 |
| 公开(公告)号: | CN112397155B | 公开(公告)日: | 2023-07-28 |
| 发明(设计)人: | 谢朋宇;卓汉逵 | 申请(专利权)人: | 中山大学 |
| 主分类号: | G16C20/30 | 分类号: | G16C20/30;G16C20/70;G06N3/0464;G06N3/047;G06N3/08 |
| 代理公司: | 深圳市创富知识产权代理有限公司 44367 | 代理人: | 李思坪 |
| 地址: | 510275 广东*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 逆向 合成 方法 系统 | ||
本发明公开了一种单步逆向合成方法及系统,该方法包括:获取反应方程训练集;S2、以反应方程训练集训练反应中心识别模块;以反应方程训练集训练语法树生成模块;获取待测产物SMILES表达式并输入到训练完成的反应中心识别模块,得到待测合成子序列;将待测合成子序列输入到训练完成的语法树生成模块,得到待测抽象语法树;基于抽象语法树的语法规则得到对应反应物的SMILES表达式。该系统包括:反应中心识别模块和语法树生成模块。本发明在保证可拓展性前提下具有更高预测准确率。本发明作为一种单步逆向合成方法及系统,可广泛应用于化合物合成分析领域。
技术领域
本发明属于化合物合成分析领域,尤其涉及一种单步逆向合成方法及系统。
背景技术
逆合成分析是解决有机合成路线的重要方法,其实质是通过分析目标分子结构,逐步将其拆解为更简单、更容易合成的中间产物,直到推理出的所有反应物都是现有的构建块,从而完成对目标分子合成路线的设计。现有的单步逆向合成分析在体系上可以分为基于模板和免模板的方法。模板是利用反应方程提取出的通配模式,反映了具有相同反应中心的反应方程的规律。基于模板的方法需要预处理得到模板,不仅耗费资源,而且泛化性能受限。
发明内容
为了解决上述技术问题,本发明的目的是提供一种单步逆向合成方法及系统,实现了在保证可拓展性前提下具有更高预测准确率。
本发明所采用的第一技术方案是:一种单步逆向合成方法,包括以下步骤:
获取反应方程数据集并对反应方程数据集进行预处理,得到训练集;
根据训练集中反应方程的反应物和产物训练预构建的反应中心识别模块,得到训练完成的反应中心识别模块;
根据训练集中反应方程的合成子序列训练预构建的语法树生成模块,得到训练完成的语法树生成模块;
获取待测产物SMILES表达式并输入到训练完成的反应中心识别模块,得到待测合成子序列;
将待测合成子序列输入到训练完成的语法树生成模块,得到待测抽象语法树;
基于抽象语法树的语法规则对待测抽象语法树进行处理,得到对应反应物的SMILES表达式。
进一步,还包括:
将部分反映方程数据集作为验证集,对训练完成的反应中心识别模块和训练完成的语法树生成模块进行验证。
进一步,所述获取反应方程数据集并对反应方程数据集进行预处理,得到训练集这一步骤,其具体包括:
获取反应方程数据集;
过滤反应方程数据集中产物数量大于1的方程;
过滤反应方程数据集中含有不合法SMILE表达式的方程;
得到训练集。
进一步,所述根据训练集中反应方程的反应物和产物训练预构建的反应中心识别模块,得到训练完成的反应中心识别模块这一步骤,其具体还包括:
根据训练集中反应方程的产物和反应物的对比,标记产物在反应过程中需要断开的键对,得到标签矩阵;
基于RDKIT获取产物中的原子并以原子为节点、键对为边的逻辑,得到产物分子图;
根据标签矩阵和产物分子图训练预构建的反应中心识别模块,得到训练完成的反应中心识别模块。
进一步,所述根据训练集中反应方程的合成子序列训练预构建的语法树生成模块,得到训练完成的语法树生成模块这一步骤,其具体包括:
以标题向量为指引,并基于多头注意力机制学习向量之间的相关性,得到句子间的语义关系;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中山大学,未经中山大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011383345.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:车辆空调系统控制方法、车辆及存储介质
- 下一篇:电压闪变再启动控制器





