[发明专利]基于图神经网络的化合物分类方法有效

专利信息
申请号: 202110419531.4 申请日: 2021-04-19
公开(公告)号: CN113066537B 公开(公告)日: 2022-04-08
发明(设计)人: 解宇;马芷璇;张琛;鱼滨;刘公绪;温超 申请(专利权)人: 山西大学;西安电子科技大学
主分类号: G16C20/30 分类号: G16C20/30;G06N3/04
代理公司: 陕西电子工业专利中心 61205 代理人: 田文英;王品华
地址: 030006 山*** 国省代码: 山西;14
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 神经网络 化合物 分类 方法
【说明书】:

本发明公开了一种基于图神经网络的化合物分类方法,用于解决现有分类方法忽略了化合物分类中的结构信息导致分类结果不准确和分类效率较低的问题。本发明的步骤为:(1)构建两个图神经网络;(2)生成带有类别标签的训练集和不带有类别标签的训练集;(3)训练两个图神经网络;(4)对不包含类别标签的化合物进行分类。本发明搭建并训练了两个图神经网络,能更好地捕获化合物中所蕴含的结构信息,采用预训练、协同训练与自训练方法使得本发明在处理具有复杂信息的化合物时有着较短的处理时间和较高的化合物分类准确率。

技术领域

本发明属于物理技术领域,更进一步涉及图像分类技术领域中的一种基于图神经网络的化合物分类方法。本发明可根据建模后的化合物图的结构特征和分子节点属性,通过图神经网络对图结构和节点属性提取化合物分子的属性信息,并根据该信息来进行分类,比如判断某个化合物是否为抗生素分子化合物。

背景技术

化合物作为现实生活中的非欧几里得数据可以自然地以图数据结构来表示,即通常用于表征一组对象(即节点)及其关系(即节点之间的连边)。在常规的化合物分类技术中,通常需要通过一系列的物理或者化学实验才能判断某一个化合物的特性,比如判断某一个化合物是否为抗生素分子化合物。机器学习作为一种先进技术,现在也被应用于这些工作中,这些化合物被作为一个图结构数据输入到一个特定的机器学习模型中,然后利用已有的带标签的数据进行大量的学习优化最终得出了一个有很强适应力的机器学习模型。然后在此模型的基础上,将待分类的化合物结构以及其属性信息输入模型中,最终得出该化合物的化学物理特性。

平安国际智慧城市科技股份有限公司在其申请的专利文献“化合物分类方法及相关设备”(申请号:202010917059.2,申请公布号:111986740 A)中提出了一种对化合物进行分类方法。该方法的实施步骤是:步骤1,获取样本化合物的基于化合物性质的第一标签向量。步骤2,将样本化合物的第一原子表示转化为第一原子向量序列,将第一原子表示对应的缺失原子转化为第一原子表示的第二标签向量。步骤3,根据第一标签向量和性质特征向量训练由特征提取模型和第一分类模型构成的性质分类模型,根据第二标签向量和缺失原子向量训练由特征提取模型和第二分类模型构成的缺失原子预测模型。步骤4,用训练后的性质分类模型以及目标化合物的第二原子向量为输入,对目标化合物进行分类。该方法存在的不足之处是,忽略了化合物的结构信息,在化合物中,不同的分子结构、原子结构均可能会带来与其结构对应的化合物特性的巨大变化,例如丙酮和丙醛具有相同的化学分子式,所含的元素是无差别的,但由于结构不同导致二者的化合物特性不同,因此如果不将对化合物的结构分析纳入化合物分类当中将会导致得到错误的分类结果。

华侨大学在其申请的专利文献“一种油茶籽油皂苷类化合物分类及结构推测方法”(申请号:201911145474.4,申请公布号:110849993 A)中提出了一种基于蛋白质三维模型的分类方法。该方法的实施步骤是:步骤1,按照皂苷元骨架结构差异分成三种不同类型。步骤2,总结油茶籽油不同类型皂苷类化合物在质谱中的裂解特征。步骤3,对油茶籽油样品进行皂苷类化合物提取和检测基础上,结合裂解特征,根据皂苷元骨架结构、m/z差值以及现有茶皂苷的官能团位点,推测未知皂苷类化合物的结构。该方法存在的不足之处是,由于该方法根据化合物在质谱中的裂解特征进行化合物分类,而通过质谱技术观察裂解特征进而计算出化合物的化学式工作量较大,会占用较长的时间,最终会影响到化合物分类的效率。

发明内容

本发明的目的在于针对上述现有技术存在的不足,提出一种基于图神经网络的化合物分类方法,用于解决现有分类方法忽略了化合物分类中的结构信息导致分类结果不准确和分类效率较低的问题。

实现本发明目的的思路是,构建化合物图结构数据集,构建两个图神经网络,采用预训练方法约束两个图神经网络对同一样本输出的一致性达到提高分类效率的目的,采用协同训练方法生成伪标签提高对不带有类别标签的化合物的利用率,采用自训练方法对化合物建模生成的图结构进行学习以避免因忽略化合物分类中的结构信息导致分类结果不准确的问题。

实现本发明目的的具体步骤如下:

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山西大学;西安电子科技大学,未经山西大学;西安电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110419531.4/2.html,转载请声明来源钻瓜专利网。

同类专利
专利分类
×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top