[发明专利]一种基于机器学习的药物重定位方法在审
申请号: | 202110169907.0 | 申请日: | 2021-02-04 |
公开(公告)号: | CN112837743A | 公开(公告)日: | 2021-05-25 |
发明(设计)人: | 石阳;任涛;王逸群;曲颖 | 申请(专利权)人: | 东北大学 |
主分类号: | G16B15/30 | 分类号: | G16B15/30;G06K9/62;G06N20/00 |
代理公司: | 沈阳东大知识产权代理有限公司 21109 | 代理人: | 李珉 |
地址: | 110819 辽宁*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 机器 学习 药物 定位 方法 | ||
本发明提供一种基于机器学习的药物重定位方法,涉及机器学习技术领域。该方法选取多种药物作为样本,并获取每种药物的适应症;再选取多种靶点蛋白数据作为药物样本特征,并利用基于机器学习的数据降维算法将药物—靶点蛋白向量进行数据降维;利用相关性分析算法,选取每种药物的多种理化特征;然后将经过降维后的药物—靶点蛋白向量特征和药物理化特征一并作为药物分子的特征,以药物的适应症作为标签,构建药物疗效数据集,建立三种梯度提升树,并使用药物疗效数据集中的数据对三种梯度提升树进行训练;融合三种提升树建立药物疗效的预测模型,并利用Kflod算法,对N药物的疗效进行多轮预测,最终预测出m种对某疾病治疗有效的药物。
技术领域
本发明涉及机器学习技术领域,尤其涉及一种基于机器学习的药物重定位方法。
背景技术
根据统计数据,一种新药从构思产生,到先导化合物的合成,再经过临床实验,到最终成功上市,需要大概15年的时间,需要耗费10亿美元左右。而且这个费用是在逐年增长的。并且药物研发存在着风险,如果在研发后期的实验中发现药物存在问题,之前的投入将会白白浪费,因此风险很大。
药物重定位是指发现已上市药物的新适应症,是网络药理学的重要应用领域。药物重定位策略是目前已知的药物研发策略中风险与效益比最好的策略之一,也是一种解决新药开发高投入低成功率困境的有效方法之一。现有研究方法主要有基于小分子(或配体)特征的方法、基于蛋白靶点(或受体)特征的方法、基于表型(或网络)特征的方法。随着对防治重大疾病有效药物需求的不断增加,以及系统生物学、计算生物学、网络药理学等相关学科的快速发展,面对新药研发难度越来越大的严峻形势,药物重定位已成为世界范围内关注的热点,在药物研发领域占据重要地位。但是药物种类多样,药物分子理化性质众多,药物和蛋白靶点作用复杂。所以如何利用这些海量数据准确发掘出药物的新适应症是亟需解决的问题。
现如今,机器学习进入研究热流,可以对大数据进行分析与挖掘。作为一门人工智能的科学,机器学习通过计算机语言对数据进行深度挖掘,对规律进行深度探索。所以,通过构建机器学习模型来实现对药物的新适应症进行预测,可突破传统预测方法的缺点,实现更精确的预测判断,提高实验效率和节省成本。
药物重定位具有高效,低成本的特点,自新冠疫情发生以来,如何筛选出对新冠的药物成为一项亟待解决的问题,而传统的药物研发周期过于漫长,需要耗费大量的时间还有人力物力财力。而采用机器学习的方法对已将上市的药物进行筛选,从中选取可能对新冠有效的特效药,在此基础上进行临床实验就会节省大量的成本。
发明内容
本发明要解决的技术问题是针对上述现有技术的不足,提供一种基于机器学习的药物重定位方法,基于机器学习实现对药物的重定位。
为解决上述技术问题,本发明所采取的技术方案是:一种基于机器学习的药物重定位方法,包括以下步骤:
步骤1:选取N种药物作为实验样本,并通过爬虫技术爬取每种药物的适应症,每种药物的分子式唯一,并以SMILES格式进行表示;同时将N种药物按照一定比例分为训练集和测试集;
在drugcentral网站中利用爬虫技术爬取每种药物相应的适应症信息,具体方法为:
调用pandas库中的read_csv函数读取所要研究药物的名称并储存于列表之中;调用requests库中的get函数获取网页源代码;调用re库中compile函数对网页源代码中的正则表达式进行预编译;编译后,使用findall函数根据正则表达式从网页源代码中将与所要研究药物匹配的适应症全部找出,并将爬取到的数据储存于列表之中,最后存储为一个csv文件;
步骤2:选取M种靶点蛋白数据作为N种药物样本特征,一个靶点蛋白对应一种或者多种药物,表示该药物与该靶点蛋白之间有相互作用;并利用基于机器学习的数据降维算法将N*M的“药物—靶点蛋白向量”进行数据降维;
利用基于机器学习的数据降维算法PCA对“药物—靶点蛋白”向量进行数据降维;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东北大学,未经东北大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110169907.0/2.html,转载请声明来源钻瓜专利网。