[发明专利]一种基于分子相似性和半监督学习的药物虚拟筛选方法和装置有效
申请号: | 202110478484.0 | 申请日: | 2021-04-29 |
公开(公告)号: | CN113192572B | 公开(公告)日: | 2022-08-23 |
发明(设计)人: | 吴建盛;徐华健;胡海峰;朱燕翔 | 申请(专利权)人: | 南京邮电大学 |
主分类号: | G16C20/50 | 分类号: | G16C20/50;G16C20/70;G16C20/90;G06K9/62 |
代理公司: | 南京苏科专利代理有限责任公司 32102 | 代理人: | 范丹丹 |
地址: | 210046 *** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 分子 相似性 监督 学习 药物 虚拟 筛选 方法 装置 | ||
1.一种基于分子相似性和半监督学习的药物虚拟筛选方法,其特征在于:该方法包括以下步骤:
S1:收集数据集,得到有生物活性值的配体分子样本和无生物活性值的配体分子样本;
S2:使用所述S1步骤中得到的有生物活性值的配体分子样本构建回归模型;
S3:计算数据集中分子间的相似度;
S4:利用所述S3步骤中得到的分子相似度和S2步骤中得到的回归模型,计算三元组损失;其中,对有生物活性值的样本Xi,其生物活性值为Yi,按1:2的比例,取无生物活性值的样本X′j、X′k,经过S2步骤的回归网络模型得到的预测值为引入三元组损失对无生物活性值样本的活性值进行约束;其中三元组损失:
其中[.]+的含义为:若括号内的值大于0,则[.]+等于括号内的值;若括号内的值小于0,则[.]+等于0,a和St分别是活性值差值和相似度差值的阈值;
S5:根据S2步骤和S4步骤得到的损失函数训练模型。
2.根据权利要求1所述的一种基于分子相似性和半监督学习的药物虚拟筛选方法,其特征在于:在所述S1步骤中,从公开数据集中收集对特定药物靶标作用的配体分子的活性值Yi及配体分子的SMILES分子式Xi,构建有生物活性值的配体分子数据集;另外对于无生物活性值的样本,只收集配体分子的SMILES分子式X′j,构建无生物活性值的配体分子数据集。
3.根据权利要求1所述的一种基于分子相似性和半监督学习的药物虚拟筛选方法,其特征在于:在所述S2步骤中,构建回归预测模型对有生物活性值的样本做监督回归学习,对配体分子Xi预测的结果记为真实生物活性值值为Yi,计算出均方误差损失
4.根据权利要求1所述的一种基于分子相似性和半监督学习的药物虚拟筛选方法,其特征在于:在所述S3步骤中,首先使用rdkit化学信息包对配体分子的SMILES分子式Xi、X′j做解析处理生成分子指纹Fpi、Fp′j,对得到的分子指纹Fpi、Fp′j计算两分子Xi、X′j间的相似度Sij,公式如下:
其中c为两个分子指纹中相同的位数,a为分子指纹Fpi的长度,b为分子指纹Fp′j的长度。
5.根据权利要求1所述的一种基于分子相似性和半监督学习的药物虚拟筛选方法,其特征在于:在所述S5步骤中,根据损失函数更新模型参数,使用均方误差损失和三元组损失之和做总的模型损失函数:
使用梯度下降算法,反向传播更新回归预测模型参数,从而训练回归预测模型。
6.一种基于分子相似性和半监督学习的药物虚拟筛选装置,其特征在于:该装置包括数据集的获取和划分模块、回归模型预测模块、三元组损失模块和模型参数更新模块;所述三元组损失模块包括相似度计算模块,三元组损失计算模块;相似度计算模块,用于计算有生物活性值样本和无生物活性值样本对之间的相似性,对于每一个输入回归预测模块的有生物活性值样本,按1:2的比例,对每一个有生物活性值样本Xi,选取两个无生物活性值样本X′j、X′k,使用相似度计算公式分别计算Xi和X′j、Xi和X′k的分子相似度Sij、Sik;
所述三元组损失计算模块,用于约束无生物活性值样本通过回归模型得到的预测值;使用公式:计算三元组损失Ltri。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京邮电大学,未经南京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110478484.0/1.html,转载请声明来源钻瓜专利网。