[发明专利]一种自动清洗化学反应噪声数据的方法及系统在审

专利信息
申请号: 202111214208.X 申请日: 2021-10-19
公开(公告)号: CN113886377A 公开(公告)日: 2022-01-04
发明(设计)人: 陈慧敏;方什;陈德铭 申请(专利权)人: 上海药明康德新药开发有限公司
主分类号: G06F16/215 分类号: G06F16/215;G16C20/10;G16C20/70;G16C20/90
代理公司: 上海市汇业律师事务所 31325 代理人: 王函
地址: 200131 上海市浦东新区中国*** 国省代码: 上海;31
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 自动 清洗 化学反应 噪声 数据 方法 系统
【说明书】:

本发明公开了一种自动清洗化学反应噪声数据的方法与系统,方法包含获取反应结构式的数据集并进行标准化处理与去重得到预处理数据;去掉预处理数据中所有多产物反应数据,仅保留预处理数据中单产物反应数据进行训练得到一个正向合成算法模型;取出预处理数据中多产物反应数据中的反应物输入至正向合成算法模型中得到预测产物;判断预测产物是否为多产物中任一个产物;是则将该多产物反应数据中的多产物替换成预测产物后加入到训练数据集中;否则删除;处理全部多产物反应数据得到清洗过的训练数据集并训练新正向模型;系统包含反应结构式数据预处理模块、正向合成算法模型训练模块、多产物反应数据预测模块、判断模块、新的正向模型训练模块。

技术领域

本发明涉及清洗化学反应噪声数据领域,具体涉及一种自动清洗化学反应噪声数据的方法及系统。

背景技术

计算机辅助正向合成是指给一组定反应物(例如反应物A、反应物B)预测生成的主产物C,当存在副产物D时,通常只显示主产物,写成A.BC的形式;逆向合成则是给定一个产物C,预测出合理的一组或多组反应物,形式是CA.B;

计算机辅助合成方法有基于模版的方法,近几年利用自然语言处理中翻译任务的概念,用transformer框架预测正向产物和逆向反应物的工作由于效果较好而快速增加,此外,利用图注意力等方法也有越来越多的学者研究;

无论使用哪种方法,训练数据是否正确都会产生至关重要的影响,常用的公开数据集有美国专利数据USPTO中抽取的化学反应式,由于存在较多噪声,Lowe等人对USPTO进行清洗,得到数据正确率高的USPTO50K,可显著提升模型效果,但局限于50K的数据量,无法在实际工作中使用,因此急需可自动清洗大量数据的方法;

会显著降低计算机辅助的合成算法性能的数据噪声,主要包括:1反应物缺失/多余;2反应本身错误;3多产物反应,其中有主产物和副产物;4多步反应;

通过算法实验验证,市面上已有的一些数据降噪方法可有效减少1、2、4类错误,而对第3类错误效果微弱,本专利技术方案主要针对第三类错误设计了降噪算法,经过验证本专利技术方案的方法对3类错误效果显著,同时对1、2、4类错误也有一定降噪效果;

市面上行之有效的数据降噪方法之一是通过被算法“遗忘”次数排序判断是否是噪声数据,Bengio等认为被“遗忘”的次数越多,越可能是噪声数据,深度学习模型通过不断迭代提升正确率等指标,在迭代过程中,某个训练数据在上一轮迭代中预测正确,而到了下一轮迭代又无法预测正确,产生了“遗忘”的现象,如果某个数据被反复学习和遗忘,可以认为这个数据和其他大部分数据有着不同的特征,较大概率是噪声数据;

另一种方法,先用带有噪声的数据训练一个基准模型,通过一批干净数据(即噪声非常少的数据)对基准模型进行微调,产生新的模型,将带有噪声的数据的反应物,分别用两个模型进行预测产物,可得到两组softmax函数产生的probability(模型信心指标,当probability=1时可认为模型对这个结果非常有信心,probability=0时可认为非常不确定),计算log(probability_基准)-log(probability_新模型)并根据差值从大到小排序,某个反应的差值越大说明数据和干净数据的区别越大,越可能是噪声数据,还有剪枝等降噪方法,经过验证,效果都不如“遗忘”排序的方法,因此本专利的目标是改善“遗忘”算法;

利用“遗忘”排序算法对270w反应数据进行降噪,原始数据中1、2、4类噪声共占19%,降噪后降低至8%;而第3类噪声原始占比约6.8%,降噪后占比约6%,证明“遗忘”算法对第3类噪声不敏感。

发明内容

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海药明康德新药开发有限公司,未经上海药明康德新药开发有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202111214208.X/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top