[发明专利]预测细胞色素P4501A2抑制剂抑制浓度的方法有效
申请号: | 201510234047.9 | 申请日: | 2015-05-08 |
公开(公告)号: | CN104866710B | 公开(公告)日: | 2017-11-10 |
发明(设计)人: | 卢小泉;张苗;陈晶;王世霞;关志强;马琴 | 申请(专利权)人: | 西北师范大学 |
主分类号: | G06F19/00 | 分类号: | G06F19/00 |
代理公司: | 北京中恒高博知识产权代理有限公司11249 | 代理人: | 吕玉博 |
地址: | 730070 甘肃*** | 国省代码: | 甘肃;62 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 简化 最小 预测 细胞 色素 p450 cyp1a2 抑制剂 抑制 浓度 方法 | ||
技术领域
本发明涉及一种简化偏最小二乘预测细胞色素P450酶CYP1A2抑制剂的抑制浓度的方法,属于化学计量学和化学信息学的交叉领域。
背景技术
细胞色素酶系由一群基因超家族编码的酶蛋白所组成。细胞色素p450是由血红蛋白-巯基盐所组成的超家族,广泛存在于动物,真核有机体,植物,真菌和细菌中,是必不可少的结构酶。细胞色素P450超家族的命名以CYP代表细胞色素P450,其后更有数字和字母,依次为家族、亚(或次)家族和酶个体三级。CYP1A亚族主要包括CYP1A1和CYP1A2。研究表明CYP1A2主要参与多环芳烃和芳香胺类化合物的代谢。此外,CYP1A2参与了多种药物的代谢并且在一些前致癌物和毒性物质的体内活动中也起到重要作用。于是对CYP1A2更进一步的研究可用于评价一些临床药物的治疗效果以及对一些药物的设计提供帮助。由于通过实验验证会耗费大量的时间和成本,因此近几年开展以QSAR方法建立模型对未知化合物进行准确预测逐渐成为热点。
偏最小二乘法(PLS)作为一个多元线性回归方法,其主要目的是要建立一个线性模型,其采用得分因子作为原始预测变量线性组合的依据,并且得分因子之间必须线性无关,必须使用提取因子的方法从数据中提取因子计算出得分矩阵,权重矩阵建立回归模型。当自变量存在严重多重相关性的条件下,偏最小二乘法(PLS)则存在无法满足运算要求的可能。
发明内容
本发明要解决的技术问题是克服现有的缺陷,提供了一种简化偏最小二乘预测细胞色素P450酶CYP1A2抑制剂的抑制浓度的方法,该方法准确有效、预测准确率高、模型稳定。
为了解决上述技术问题,本发明提供了如下的技术方案:
一种简化偏最小二乘(SIMPLS)预测细胞色素P450酶CYP1A2抑制剂的抑制浓度的方法,包括如下步骤,
1)样本集的收集、处理及优化收集细胞色素P450抑制剂分子的结构以及相对应的抑制浓度,对收集的每个抑制剂分子进行结构优化;
2)抑制剂分子描述符的构建输入优化之后的细胞色素P450抑制剂分子结构,计算出与其对应的分子描述符值,每个抑制剂分子包括若干个变量;
每个抑制剂分子包括1666个描述符值,其中有原子极化率,原子的范德华力,原子质量和原子电负性等;
3)抑制剂分子描述符数据集的初步筛选
删除对矩阵没有意义的描述符,降低冗余度;
即删除某一列变量全为“0”的描述符,降低冗余度。
4)抑制剂分子描述符数据集的重新标度
将经过初步筛选的抑制剂分子描述符利用matlab工具,采用Standardization这个函数将抑制剂分子描述符的数据映射到一个较小的范围,大约在[-6,6]之间;
standardization函数是一个将数据标准化的函数,实验中将大小差距大的数据用standardization函数处理会得到一个差距较小的数据矩阵,而-6~6是一个范围,,但其中有几个数据特别小(8.060288576680109e-04,这是其中一个),但这样的数据不超过十个。因为还要对描述符进行一个筛选,因此这几个较小的数据对整个实验的影响可以忽略不计;
5)抑制剂分子描述符数据集的划分
将步骤2)至4)处理后的抑制剂分子描述符数据集,利用kennard-stone(KS)方法将数据集分为训练集和测试集;
6)建立模型
用细胞色素P450抑制剂分子结构即就是用步骤2)至4)处理之后的抑制剂描述符与其对应的抑制浓度建立关系模型,即QSAR模型;
7)预测细胞色素P450酶CYP1A2抑制剂的抑制浓度
根据所述步骤5)所得的测试集与所述步骤6)所建立的QSAR模型来预测细胞色素P450抑制剂的抑制浓度;
在上述方案的基础上,步骤1)一共收集52个细胞色素P450抑制剂分子的结构以及相对应的抑制浓度,利用Gaussion view画出每个抑制剂分子的结构,通过Gaussion03中密度泛函理论(DFT)采用B3LYP的方法以及6-31G基组对抑制剂分子结构进行优化直到Gaussion03中的四个条件达到收敛时才算完成优化任务,四个条件分别为Maximum Force(最大力,力也就是梯度),Maximum Displacement(最大位移),Rms Force(梯度的方根),Rms Displacement(位移的方根)。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西北师范大学,未经西北师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510234047.9/2.html,转载请声明来源钻瓜专利网。
- 同类专利
- 专利分类
G06F 电数字数据处理
G06F19-00 专门适用于特定应用的数字计算或数据处理的设备或方法
G06F19-10 .生物信息学,即计算分子生物学中的遗传或蛋白质相关的数据处理方法或系统
G06F19-12 ..用于系统生物学的建模或仿真,例如:概率模型或动态模型,遗传基因管理网络,蛋白质交互作用网络或新陈代谢作用网络
G06F19-14 ..用于发展或进化的,例如:进化的保存区域决定或进化树结构
G06F19-16 ..用于分子结构的,例如:结构排序,结构或功能关系,蛋白质折叠,结构域拓扑,用结构数据的药靶,涉及二维或三维结构的
G06F19-18 ..用于功能性基因组学或蛋白质组学的,例如:基因型–表型关联,不均衡连接,种群遗传学,结合位置鉴定,变异发生,基因型或染色体组的注释,蛋白质相互作用或蛋白质核酸的相互作用