[发明专利]一种快速虚拟筛选人体小肠易吸收药物的方法有效
| 申请号: | 201510069837.6 | 申请日: | 2015-02-10 |
| 公开(公告)号: | CN104636619B | 公开(公告)日: | 2017-11-14 |
| 发明(设计)人: | 朱祥伟 | 申请(专利权)人: | 青岛农业大学 |
| 主分类号: | G06F19/00 | 分类号: | G06F19/00 |
| 代理公司: | 青岛中天汇智知识产权代理有限公司37241 | 代理人: | 郝团代 |
| 地址: | 266000 山*** | 国省代码: | 山东;37 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 快速 虚拟 筛选 人体 小肠 吸收 药物 方法 | ||
1.一种快速虚拟筛选人体小肠易吸收药物的方法,其特征在于,包括以下步骤:
一、化合物小肠吸收数据库的优化:将已有的化合物分子结构及其小肠吸收率数值收集形成化合物小肠吸收数据库,分别对化合物数据的结构与活性进行优化,得到具有明确的小肠吸收率的单一化合物数据库,化合物的分子量集中在50~500之间;所述优化方式为剔除有机金属化合物、混合物,消除顺反异构,消除化合物结构手性碳结构,将剩余的所有化合物结构都标准化,经过排序,对于小肠吸收率相同的重复化合物保留一个,对于吸收率数值不同的重复化合物,根据其重复个数,若重复数目为2,计算两重复化合物小肠吸收率的平均值M,若|S1-M|/M>0.20,则表示活性值差异大,舍弃该化合物,若|S1-M|/M在0.20以内,则以平均值M为该化合物实际小肠吸收率;若重复化合物数目为3个或超过3个,则采用狄克逊Dixon检验法,剔出异常值后,对剩余小肠吸收值取平均值代表该化合物实际的小肠吸收率,S1表示两化合物中一个的吸收率;
二、描述符计算与变量预处理:将步骤一所得化合物信息利用不同的化合物描述符计算软件,计算不同类型的描述符,为解决描述符中存在大量的近似常量或共线性高的变量,首先利用如下方法对描述符进行归一化处理xs=(xi-xmin)/(xmax-xmin),其中,xs为归一化后描述符的值,xi为描述符原始值,xmax与xmin分别表示描述符的最大与最小值,通过上述公式xs=(xi-xmin)/(xmax-xmin)将描述符值归一到0到1之间,同时记录每个描述符的最小值xmin和最大值xmax,删除标准偏差小于0.001的描述符,若两个描述符的相关性大于0.90,则删除其中一个;
三、重要变量筛选及线性模型构建:基于步骤一中得到的化合物活性数据和步骤二中计算的结构描述符数据利用变量筛选方法,对每个类型的描述符变量依重要性大小进行排序,挑选部分重要描述符,以化合物的小肠吸收率为因变量,采用多元线性回归方法构建的预测化合物小肠吸收率的线性方程模型,对于每种类型的描述符,构建一组多元线性回归方程;
四、预测药物前导化合物的人小肠吸收率:药物前导化合物分子结构按照步骤一中的结构优化方法优化,按步骤二中的软件计算药物前导化合物的化学结构描述符,依据步骤二中记录每种描述符的最小值xmin和最大值xmax,对药物前导化合物的描述符进行归一化处理,最终依步骤三选取的重要描述符,将新化合物中对应描述符的数值代入步骤三构建的多元线性回归方程,计算出活性,即该药物前导化合物的人小肠吸收率预测值,同时,将不同线性方程的预测值平均,即是药物前导化合物分子的最终小肠吸收预测值。
2.根据权利要求1所述的快速虚拟筛选人体小肠易吸收药物的方法,其特征在于:所述不同类型的描述符是指:各种依据有机化合物的分子结构计算其相关参数的结构描述符,包括一维、二维、三维的化学结构描述符。
3.根据权利要求1所述的快速虚拟筛选人体小肠易吸收药物的方法,其特征在于:所述变量筛选方法包括简单的逐步回归到复杂的机器学习方法,可以针对所有描述符的重要性进行定量化排序的变量筛选方法。
4.根据权利要求1所述的快速虚拟筛选人体小肠易吸收药物的方法,其特征在于:所述挑选部分重要描述符是指:依据描述符重要性排序,从最重要描述符进行始挑选,其最终用于构建多元线性回归模型的描述符个数不超过建模化合物数目的10%。
5.根据权利要求1所述的快速虚拟筛选人体小肠易吸收药物的方法,其特征在于:所述步骤二经预处理后,得到388个具有准确小肠吸收率的单一化合物。
6.根据权利要求1所述的快速虚拟筛选人体小肠易吸收药物的方法,其特征在于:所述步骤二中采用Dragon和CDK两种描述符计算软件,所述步骤三中利用随机森林法进行经变量筛选,选取10个重要的Dragon描述符为自变量,以化合物的小肠吸收率为因变量,构建线性方程模型,公式1:
y=1.126(±0.0743)+1.145(±0.196)*TPSA(Tot)-0.339(±0.143)*Hy-0.338(±0.0936)*F03[N-O]+0.00850(±0.176)*nO-0.0624(±0.0935)*ALOGP-0.326(±0.0920)*O-057+0.330(±0.315)*nROH+0.741(±0.274)*T(N..O)+0.495(±0.252)*T(O..O)-0.803(±0.299)*O-056,拟合误差为0.163,其中,TPSA(Tot)表示拓扑极性表面积(N,O,S,P);Hy表示亲水性;F03[N-O]表示N与O拓扑距离为3的结构数目;nO表示氧原子数目;ALOGP表示Ghose-Crippen辛醇-水分配系数;O-057表示酚、醇及羧酸中的OH;nROH表示羟基数目;T(N..O)表示N与O拓扑总距离;T(O..O)表示O与O拓扑总距离;O-056表示乙醇基团;
选取10个重要的CDK描述符为自变量,以化合物的小肠吸收率为因变量,构建线性模型,公式2:
y=1.070(±0.0521)-1.090(±0.293)*TopoPSA-0.800(±0.186)*nHBDon-0.742(±0.111)*MDEO-11+0.515(±0.211)*nHBAcc-0.0570(±0.151)*khs.sOH+1.118(±0.268)*WTPT-4-0.0434(±0.0820)*XLogP-1.390(±0.356)*ATSc1-0.0401(±0.0413)*khs.aaNH+0.388(±0.296)*WTPT-3,其中,TopoPSA表示拓扑极性表面积;nHBDon表示氢键供体数目;MDEO-11表示C,N与O的分子距离指数;nHBAcc表示氢键受体数目;khs.sOH,表示E-state碎片数目;WTPT-4表示Randic路径加权指数;XLogP表示基于原子类型计算的辛醇-水分配系数;ATSc1和Khs.aaNH表示没有明确含义;WTPT-3表示Randic路径指数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于青岛农业大学,未经青岛农业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510069837.6/1.html,转载请声明来源钻瓜专利网。
- 上一篇:电池监视装置以及电池监视装置的诊断方法
- 下一篇:感测装置
- 同类专利
- 专利分类
G06F 电数字数据处理
G06F19-00 专门适用于特定应用的数字计算或数据处理的设备或方法
G06F19-10 .生物信息学,即计算分子生物学中的遗传或蛋白质相关的数据处理方法或系统
G06F19-12 ..用于系统生物学的建模或仿真,例如:概率模型或动态模型,遗传基因管理网络,蛋白质交互作用网络或新陈代谢作用网络
G06F19-14 ..用于发展或进化的,例如:进化的保存区域决定或进化树结构
G06F19-16 ..用于分子结构的,例如:结构排序,结构或功能关系,蛋白质折叠,结构域拓扑,用结构数据的药靶,涉及二维或三维结构的
G06F19-18 ..用于功能性基因组学或蛋白质组学的,例如:基因型–表型关联,不均衡连接,种群遗传学,结合位置鉴定,变异发生,基因型或染色体组的注释,蛋白质相互作用或蛋白质核酸的相互作用





