[发明专利]一种基于变换神经网络的小分子化学结构图像识别方法在审
| 申请号: | 202211510366.4 | 申请日: | 2022-11-29 |
| 公开(公告)号: | CN115909328A | 公开(公告)日: | 2023-04-04 |
| 发明(设计)人: | 蒋文波;刘雪梅;薛梓佳 | 申请(专利权)人: | 西华大学 |
| 主分类号: | G06V20/69 | 分类号: | G06V20/69;G06V10/42;G06V10/774;G06V10/82;G06N3/04;G06N3/08 |
| 代理公司: | 北京正华智诚专利代理事务所(普通合伙) 11870 | 代理人: | 王玲玲 |
| 地址: | 610039 四川*** | 国省代码: | 四川;51 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 变换 神经网络 分子 化学 结构 图像 识别 方法 | ||
本发明公开了一种基于变换神经网络的小分子化学结构图像识别方法,包括以下步骤:S1:获取小分子化学结构图像,并对小分子化学结构图像进行预处理;S2:将预处理后的小分子化学结构图像作为MobileViT_2网络的输入,提取小分子化学结构图像的特征向量;S3:将原始SMILES序列作为标签和小分子化学结构图像的特征向量共同作为Conditional DETR网络解码部分的输入,得到SELFIES序列,并通过selfies程序包转换成新的SMILES序列,作为识别结果输出。本发明结合MobileViT_2网络和Conditional DETR网络,解决了复杂序列预测结果精度不高、模型收敛速度慢以及学得的权重不稳定等问题。
技术领域
本发明属于图像处理技术领域,具体涉及一种基于变换神经网络的小分子化学结构图像识别方法。
背景技术
小分子药物的应用领域非常广泛,可用于肿瘤、神经系统、感染、代谢、心血管类疾病、非中枢性止痛、退热、抗炎、免疫或过敏性疾病、皮肤病、消化系统疾病和骨骼疾病等方面。据统计,在常用药物中,小分子药物的数量可占总量的98%。在生命科学的数据管理领域中,从公开的资源(如:期刊论文和专利)中提取化学结构一直是困难和耗时的。近年来,随着以深度学习算法为基础的计算机视觉和自然语言处理技术得到快速发展,利用深度学习技术从图像中提取出有价值的信息得到越来越广泛的应用。深度神经网络能自动提取特征,并且在化学结构图像上具有较好的鲁棒性和泛化能力。由于许多小分子相关文献中的小分子化合物的结构细节以JPEG、PNG、GIF及BMP等图像格式呈现,失去了原有的化学意义。自动分析这些化学结构图像并将其转换为计算机可识别格式,如SMILES表示法,对于小分子药物的分析与发现有实际的应用价值。国内外研究者在小分子化学结构图像识别研究方面已开展了大量的工作并取得了较大的进展,但是仍存在以下问题:
第一、复杂序列预测精度不高:小分子化学结构图像识别效果由主观评价指标和客观评价指标来体现。目前有研究将图像特征提取网络与Transformer(变换神经网络)相结合,该算法对字符种类少且包含字符个数较少的简单序列预测效果较好,但是在小分子数据库中也包含了许多字符种类多且包含字符个数较多的较为复杂的序列;而且由于化学结构图像本身携带的图像特征信息较少且较稀疏,由此所导致特征表达能力弱,特征提取过程中能提取到的特征信息较少,使得特征提取过程中能提取到的特征信息较少或不完整,进而导致后续预测效果中出现字符及化学键识别错误的情况。虽然目前所用算法对简单序列的预测效果较好,但在复杂序列上的预测效果无论在主观评价指标还是客观评价指标上表现都很一般。
第二、模型收敛速度慢:在化学结构图像识别算法的研究中,很多学者通过经典的编-解码结构的变换神经网络模型来提升预测序列的准确率,取得了不错的效果。然而,由于经典的变换神经网络模型复杂度较高、参数量大,训练过程需要大量的数据,尽管最终序列预测的整体效果得到了一定的提升,但是模型的收敛速度较慢,实用价值较低。
第三、模型学习出现波动,学得的权重不稳定:由于目前所用的深度学习模型较深较大,在训练的过程中,mini-Batch内的数据分布方差特别大,就会导致模型学习剧烈波动,使其学得的权重很不稳定。
发明内容
本发明为了解决以上问题,提出了一种基于变换神经网络的小分子化学结构图像识别方法。
本发明的技术方案是:一种基于变换神经网络的小分子化学结构图像识别方法包括以下步骤:
S1:获取小分子化学结构图像,并对小分子化学结构图像进行预处理;
S2:将预处理后的小分子化学结构图像作为MobileViT_2网络的输入,提取小分子化学结构图像的特征向量;
S3:获取原始SMILES序列,将其作为标签并和小分子化学结构图像的特征向量共同作为Conditional DETR网络解码部分的输入,得到SELFIES序列,并通过selfies程序包转换成新的SMILES序列,作为识别结果,完成小分子化学结构图像识别。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西华大学,未经西华大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211510366.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种可调节钢梁的静载试验装置
- 下一篇:一种客户关系管理系统及方法





