[发明专利]一种用于DTA预测的多模态信息融合模型及方法在审
申请号: | 202310188140.5 | 申请日: | 2023-03-02 |
公开(公告)号: | CN116206688A | 公开(公告)日: | 2023-06-02 |
发明(设计)人: | 欧阳纯萍;刘永彬;张琳琳;万亚平;田纹龙;余颖 | 申请(专利权)人: | 南华大学 |
主分类号: | G16B40/00 | 分类号: | G16B40/00;G16B15/30;G06N3/0455;G06N3/0464;G06N3/08;G06N3/048;G06N3/047 |
代理公司: | 长沙新裕知识产权代理有限公司 43210 | 代理人: | 颜田庆 |
地址: | 421001 湖*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 用于 dta 预测 多模态 信息 融合 模型 方法 | ||
本发明提供了一种用于DTA预测的多模态信息融合模型及方法,该模型包括药物分子结构信息编码器、靶标结构信息编码器、多模态平衡模块和药物靶标融合模块;药物分子结构信息编码器使用Transformer模型对药物字符串模态信息进行编码,并使用GIN模型提取药物图模态信息特征;靶标结构信息编码器使用Transformer模型对靶标字符串模态信息进行编码,并使用GCN模型提取药物图模态信息特征;多模态平衡模块使用对比学习的方法将药物字符串和图模态信息进行平衡与整合,以及将靶标字符串和图模态信息进行平衡与整合;药物靶标融合模块将多模态平衡模块得到的药物和靶标的两种模态特征连接起来,用于DTA预测。
技术领域
本发明涉及药物靶标结合亲和力预测技术领域,尤其指一种用于DTA预测的多模态信息融合模型及方法。
背景技术
药物发现是发现潜在新型药物的过程,涉及了药理学、化学、生物学等多种领域,通常需要耗费巨大的经济成本与时间成本。据统计,开发一种新药需要花费约26亿美元,而得到FDA的批准需要17年时间。多年来,随着计算机技术的发展,计算机辅助药物发现已成为一种趋势,所以迫切地需要开发出一种计算模型推进药物发现的进程。其中,成功识别药物-靶标相互作用是药物发现的关键步骤,而能进一步准确识别药物-靶标相互作用关系的亲和力对药物研发则更为重要。DTA代表了药物分子与靶标结合的强弱关系,一般来说,化合物分子与靶标结合越强,该化合物就越有可能影响靶标的生物学功能,也更有可能是一种合适的候选药物。因此,建立计算模型准确预测DTA可以加速药物分子的筛选过程,最大限度地减少不必要的体外筛选实验,对药物研发具有重要的意义。
目前已经提出了许多用于DTA预测的计算方法和模型,例如:传统的分子对接技术,其基于目标和化合物分子的3D结构,通过计算机模拟预测药物和靶标的结合模式和结合亲和力。许多成熟的分子对接算法是作为软件开发的,例如Gold和Dock,这些分子对接技术非常耗时。随着计算机技术的发展,出现了分子动力学模拟技术,如Elanie等人将快速几何对接算法与分子力学相互作用能量评估相结合,计算每个配体原子的潜力进行评分,更加灵活,预测结果更加准确,但代价是昂贵的计算和时间成本。
大多数早期的机器学习方法是基于通过结构相似性计算进行预测的矩阵计算,这大大降低了成本。例如,He等人提出了一种称为SimBoost的方法,该方法预测化合物和蛋白质结合亲和力的连续值。Li等提出了一种基于随机森林的分子对接方法,该方法通过应用Kronecker相似矩阵乘积进行预测。然而,这些方法过分依赖于分子的结构数据特征,并且获取这些数据既困难又费时。随着深度学习和大数据时代的飞速发展,卷积神经网络(CNN)、图神经网络(GNNs)以及它们的变体被应用于药物发现领域。由于药物和靶标的结构信息在DTA预测中起着极为关键的作用,因此现有的DTA预测方法大多基于药物和靶标的结构信息,它们可以分为基于字符串模态和基于图模态的方法。
基于字符串模态的方法是从序列数据中学习特征。例如,DeepDTA使用CNN对靶标序列和药物SMILES的一维表示进行特征提取。WideDTA在此基础上计算补充了蛋白质结构域、基序和最大共同亚结构词信息,并引入了一种基于词的序列表示法来进行DTA预测。相比之下,AttentionDTA则更加关注药物和靶标序列中重要的关键子序列,并引入了了一种双侧多头注意机制,以预测DTA。这些方法都只关注了药物SMILES和靶标信息的字符串模态,并且这种模态的信息忽略了空间结构以及氢原子信息。此外,在嵌入过程中只考虑了字符串的固定长度,这将导致一些有用信息的丢失。为了解决这一弊端,基于图模态的方法应运而生。GraphDTA提出将药物分子结构信息表示为图,并使用GNNs对药物分子图进行特征提取,使用CNN对靶标序列进行特征提取。DGraphDTA利用药物分子图和靶结构图进行DTA预测,通过图形卷积神经网络模型(GCN)进行特征提取。然而,药物分子图又缺失了字符串的上下文语义信息和原子的位置排列。并且该方法中靶标结构图只考虑了靶标的空间结构,而没有考虑靶标残基的排列顺序,忽略了肽链残基的位置信息。因此,有必要系统地考虑药物和靶标结构的多模态信息,以获得更好地预测DTA的完整信息。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南华大学,未经南华大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310188140.5/2.html,转载请声明来源钻瓜专利网。