[发明专利]一种基于机器学习的药物重定位方法在审
申请号: | 202110169907.0 | 申请日: | 2021-02-04 |
公开(公告)号: | CN112837743A | 公开(公告)日: | 2021-05-25 |
发明(设计)人: | 石阳;任涛;王逸群;曲颖 | 申请(专利权)人: | 东北大学 |
主分类号: | G16B15/30 | 分类号: | G16B15/30;G06K9/62;G06N20/00 |
代理公司: | 沈阳东大知识产权代理有限公司 21109 | 代理人: | 李珉 |
地址: | 110819 辽宁*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 机器 学习 药物 定位 方法 | ||
1.一种基于机器学习的药物重定位方法,其特征在于:包括以下步骤:
步骤1:选取N种药物作为实验样本,并通过爬虫技术爬取每种药物的适应症,每种药物的分子式唯一,并以SMILES格式进行表示;同时将N种药物按照一定比例分为训练集和测试集;
步骤2:选取M种靶点蛋白数据作为N种药物样本特征,一个靶点蛋白对应一种或者多种药物,表示该药物与该靶点蛋白之间有相互作用;并利用基于机器学习的数据降维算法将N*M的“药物—靶点蛋白向量”进行数据降维;
步骤3:利用相关性分析算法,选取每种药物的n种理化特征;
步骤4:将经过降维后的“药物—靶点蛋白向量”特征和药物的理化特征一并作为药物分子的特征,以药物的适应症作为标签,构建药物疗效数据集,建立Xgboost梯度提升树、Catboost梯度提升树、LightGB梯度提升树,并使用药物疗效数据集中的数据对三种梯度提升树进行训练;
步骤5:融合训练好的三种梯度提升树建立药物疗效的预测模型,并利用Kflod算法,对N种药物的疗效进行多轮预测,最终预测出m种对某疾病治疗有效的药物。
2.根据权利要求1所述的一种基于机器学习的药物重定位方法,其特征在于:所述步骤1在drugcentral网站中利用爬虫技术爬取每种药物相应的适应症信息,具体方法为:
调用pandas库中的read_csv函数读取所要研究药物的名称并储存于列表之中;调用requests库中的get函数获取网页源代码;调用re库中compile函数对网页源代码中的正则表达式进行预编译;编译后,使用findall函数根据正则表达式从网页源代码中将与所要研究药物匹配的适应症全部找出,并将爬取到的数据储存于列表之中,最后存储为一个csv文件。
3.根据权利要求1所述的一种基于机器学习的药物重定位方法,其特征在于:所述步骤1利用基于机器学习的数据降维算法PCA对“药物—靶点蛋白”向量进行数据降维。
4.根据权利要求1所述的一种基于机器学习的药物重定位方法,其特征在于:所述步骤3利用卡方验证、方差分析和基于熵估计的非参数检验这三种相关性分析算法分别计算每种药物的理化特征间的相关性指数,按照相关性指数降序排序,并经过去重,最终选取每种药物的n种理化特征。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东北大学,未经东北大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110169907.0/1.html,转载请声明来源钻瓜专利网。