[发明专利]一种基于分子相似性和半监督学习的药物虚拟筛选方法和装置有效
申请号: | 202110478484.0 | 申请日: | 2021-04-29 |
公开(公告)号: | CN113192572B | 公开(公告)日: | 2022-08-23 |
发明(设计)人: | 吴建盛;徐华健;胡海峰;朱燕翔 | 申请(专利权)人: | 南京邮电大学 |
主分类号: | G16C20/50 | 分类号: | G16C20/50;G16C20/70;G16C20/90;G06K9/62 |
代理公司: | 南京苏科专利代理有限责任公司 32102 | 代理人: | 范丹丹 |
地址: | 210046 *** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 分子 相似性 监督 学习 药物 虚拟 筛选 方法 装置 | ||
本发明揭示了一种基于分子相似性和半监督学习的药物虚拟筛选方法和装置,该方法包括以下步骤:S1:收集数据集,得到有生物活性值的配体分子样本和无生物活性值的配体分子样本;S2:使用S1步骤中得到的有生物活性值的配体分子样本构建回归模型;S3:计算数据集中分子间的相似度;S4:利用S3步骤中得到的分子相似度和S2步骤中得到的回归模型,计算三元组损失;S5:根据S2步骤和S4步骤得到的损失函数训练模型。基于半监督学习方法,在模型训练中引入大量的无实验生物活性值样本,使用分子相似度和三元组损失对无实验生物活性值样本的模型预测值进行约束,解决实际应用场景中大量无生物活性值的样本无法有效参与模型训练的难题。
技术领域
本发明涉及一一种基于分子相似性和半监督学习的药物虚拟筛选方法和装置,可用于人工智能药物设计技术领域。
背景技术
药物研发具有投入大,风险高,周期长的特点,一般而言,一个药物研发周期在10年以上,研发投入在数亿美金,并且呈现逐年上升的趋势。药物虚拟筛选是药物发现的重要环节,能大大地降低筛选的时间和成本,对于加速药物研发具有重要意义。近年来,随着人工智能药物设计领域的发展,机器学习算法在药物设计领域得到了大量的应用,基于机器学习的药物虚拟筛选方法已成为其主流的方法,它首先通过有已知活性值的数据集有监督训练机器学习模型,再使用模型预测未知活性的配体分子的活性值,从而筛选出预测活性值较高的配体分子做进一步的先导化合物筛选。
然而,好的机器学习模型往往需要使用大量的已知活性值的配体分子数据来进行训练,然而在实际的应用场景中,通过实验获取已知生物活性的数据集通常耗时耗力。因此,在已知生物活性样本量不足的情况下,如何构建一个性能好的回归预测模型是运用机器学习方法做药物虚拟筛选面临的一个实际问题。
和通过实验得到的生物活性值的数据相比,无生物活性值的小分子数据获取就简单很多,只需要从相应的化学物数据库中下载即可。因此,为解决上述问题,我们使用半监督学习方法,仅需较少的有生物活性值的分子样本,同时使用大量的无生物活性值的分子样本,来完成模型的训练。对于无生物活性值的样本,计算其与有生物活性值的样本的相似度,引入三元组损失,对其模型预测值进行有效约束。
发明内容
本发明的目的就是为了解决现有技术中存在的上述问题,提出一种基于分子相似性和半监督学习的药物虚拟筛选方法和装置。
本发明的目的将通过以下技术方案得以实现:一种基于分子相似性和半监督学习的药物虚拟筛选方法,该方法包括以下步骤:
S1:收集数据集,得到有生物活性值的配体分子样本和无生物活性值的配体分子样本;
S2:使用所述S1步骤中得到的有生物活性值的配体分子样本构建回归模型;
S3:计算数据集中分子间的相似度;
S4:利用所述S3步骤中得到的分子相似度和S2步骤中得到的回归模型,计算三元组损失;
S5:根据S2步骤和S4步骤得到的损失函数训练模型。
优选地,在所述S1步骤中,从公开数据集中收集对特定药物靶标作用的配体分子的活性值Yi及配体分子的SMILES分子式Xi,构建有生物活性值的配体分子数据集;另外对于无生物活性值的样本,只收集配体分子的SMILES分子式X′j,构建无生物活性值的配体分子数据集。
优选地,在所述S2步骤中,构建回归预测模型对有生物活性值的样本做监督回归学习,对配体分子Xi预测的结果记为真实生物活性值值为Yi,计算出均方误差损失LMSE:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京邮电大学,未经南京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110478484.0/2.html,转载请声明来源钻瓜专利网。