[发明专利]一种自动清洗化学反应噪声数据的方法及系统在审
| 申请号: | 202111214208.X | 申请日: | 2021-10-19 |
| 公开(公告)号: | CN113886377A | 公开(公告)日: | 2022-01-04 |
| 发明(设计)人: | 陈慧敏;方什;陈德铭 | 申请(专利权)人: | 上海药明康德新药开发有限公司 |
| 主分类号: | G06F16/215 | 分类号: | G06F16/215;G16C20/10;G16C20/70;G16C20/90 |
| 代理公司: | 上海市汇业律师事务所 31325 | 代理人: | 王函 |
| 地址: | 200131 上海市浦东新区中国*** | 国省代码: | 上海;31 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 自动 清洗 化学反应 噪声 数据 方法 系统 | ||
1.一种自动清洗化学反应噪声数据的方法,其特征在于,包含以下步骤:
步骤A1:获取反应结构式的数据集并进行标准化处理与去重得到预处理数据;
步骤A2:去掉预处理数据中所有的多产物反应数据,仅保留预处理数据中单产物反应数据进行训练得到一个正向合成算法模型;
步骤A3:取出预处理数据中多产物反应数据并将多产物反应数据中的反应物输入至步骤A2的正向合成算法模型中预测产物;
步骤A4:判断预测产物是否为多产物中任一个产物;
若是,则将该多产物反应数据中的多产物替换成预测产物后加入到训练数据集中;
若不是,则删除该多产物反应数据;
步骤A5:重复步骤A3-A4处理全部多产物反应数据得到清洗过的训练数据集;
步骤A6:利用清洗后的训练数据集训练新的正向模型,并验证效果好于用步骤A1数据训练的正向合成算法模型。
2.如权利要求1所述的一种自动清洗化学反应噪声数据的方法,其特征在于,步骤A1中,所述进行标准化处理采用RDKit包对反应结构式的数据集进行标准化处理;
所述去重指删除重复反应数据。
3.如权利要求2所述的自动清洗化学反应噪声数据的方法,其特征在于,采用所述RDKit包对反应结构式的数据集进行标准化处理具体方法为:
使用化学结构的SMILES序列数据形式通过连接反应物化学结构和产物化学结构表示反应式,化学结构间用点(.)分隔。
4.如权利要求3所述的一种自动清洗化学反应噪声数据的方法,其特征在于,步骤A2中采用transformer模型训练得到所述正向合成算法模型的方法如下:
步骤B1:将训练数据集中的反应结构式如A.BC拆分为输入X和输出Y的训练对(X,Y),其中,X为反应的输入化合物A.B,Y为反应的产物C,其中A、B表示反应物,C表示产物;
步骤B2:将训练数据集中的训练数据输入transformer模型框架,输入X是反应物A.B,输出的结果Y为产物C预测,按常规的transformer训练流程,通过迭代不断降低模型的损失函数loss(X,Y),使得预测的产物C预测与实际的产物C的差别尽可能小,理想情况下满足C预测=C;
步骤B3:经过使用(X,Y)训练后,正向合成算法模型能接受反应的化学结构式输入X,如A.B,并预测其产物C预测。
5.如权利要求4所述的一种自动清洗化学反应噪声数据的方法,其特征在于,步骤A3中,将预处理数据中的所有多产物数据Am.BmCm.Dm取出,利用步骤A2中的正向合成算法,输入Am.Bm,预测出C预测,其中,下标m为multiple;
步骤A4中,当C预测是Cm或者Dm中的任一个,则将步骤A3中的Am.BmCm.Dm替换成Am.BmC预测,并加入到训练集;
当C预测不是Cm或者Dm中的任何一个,则认为这条数据是错误的,进行删除。
6.如权利要求1-5任一项所述的一种自动清洗化学反应噪声数据的方法,其特征在于,步骤A6中,若此清洗的结果用于逆合成,利用步骤A1及步骤A5的训练集分别训练对应的逆向合成算法,并验证效果好于步骤A1数据训练的模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海药明康德新药开发有限公司,未经上海药明康德新药开发有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111214208.X/1.html,转载请声明来源钻瓜专利网。
- 上一篇:文章的相似性检测方法及装置
- 下一篇:一种机械足





