[发明专利]基于复杂抽样和改进决策森林算法的化合物致癌毒性预测方法无效
申请号: | 200810037955.9 | 申请日: | 2008-05-23 |
公开(公告)号: | CN101587510A | 公开(公告)日: | 2009-11-25 |
发明(设计)人: | 蒋华良;罗小民;张振山;朱维良;郑明月;沈建华;陈凯先;薛春霞 | 申请(专利权)人: | 中国科学院上海药物研究所 |
主分类号: | G06F19/00 | 分类号: | G06F19/00 |
代理公司: | 北京金信立方知识产权代理有限公司 | 代理人: | 朱 梅;黄丽娟 |
地址: | 20003*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 复杂 抽样 改进 决策 森林 算法 化合物 致癌 毒性 预测 方法 | ||
技术领域
本发明涉及一种基于复杂抽样和改进决策森林算法的化合物致癌毒性预测计算方法,适用于根据有机化合物分子结构信息对该化合物进行虚拟致癌毒性评价和筛选。
背景技术
毒性问题是后期药物研发失败的一个重要的因素。化合物的致癌毒性指化合物诱发人体内滋生恶性肿瘤或良性肿瘤的一种远期性作用。啮齿类生物测试是目前采用的主要致癌毒性实验方法。然而,该方法存在以下问题:(1)测试费用高(平均测试费用超过两百万美元);(2)耗时(3至5年);(3)伦理考虑和公众压力——在研发和测试中减少或不再使用动物。由于计算毒性预测具有低损耗、高通量、虚拟现实等特点,该领域近年已经成为化学,毒理学,生物信息学,化学信息学,药物学,统计学等学科交叉中的一个研究热点(Van deWaterbeemd and Gifford,2003)。与此同时,长期以来生物测试累积的大量实验数据也为小分子致癌毒性预测打下了基础(Yu and Adedoyin,2003)。
致癌化合物根据其分子致癌机制主要分为两大类(Choy,2001):基因毒性致癌物(Genotoxic carcinogens)和非基因毒性致癌物(Non-genotoxic carcinogens)。前者是通过自身或其活性代谢物与DNA的直接相互作用引起正常细胞转变成癌细胞,经常是跨种属,跨性别,多靶标组织的广泛致癌物。后者则是在癌变初期通过各种不同的机制,如与特定的细胞内受体结合,引起下游细胞分裂异常,经常是在一个种属,一种性别,特定的组织中表现其致癌性。基因致癌物由于其机制相对简单,体外可以采用Salmonella typhimurium细菌实验(即Ames检验)间接帮助致癌性预测,因而对其进行计算毒性预测也相对容易;非基因毒性致癌物则由于牵涉到复杂的生物化学机制网络,如转运,代谢,DNA诱导等等,这是目前计算毒性预测方面的一个重点。
近年来已经有许多不同的计算毒性预测工具问世,依其原理主要可以分为基于统计和基于专家系统的模型(Butina,et al,2002)。前者通过计算各种理化描述符,应用多种统计和模式识别方法,对这些表征小分子化学结构的描述符与毒理属性进行拟合,即在一系列化合物的结构和毒性效应之间推导建立数学意义上的结构与毒性关系(Greene,2002),代表软件为TOPKAT,MCASE,ToxScope,ToxFilter等等。后者利用根据已知毒性机制建立的规则,把一个分子的某个特殊片段或结构与一个特殊的毒理事件联系在一起,当对新分子进行预测的时候,从存储规则的规则库中调出与该分子相关的规则并依此进行毒理属性的判断,代表软件为DEREK,Ocologic,HazardExpert等等。尽管通过计算进行毒性预测已经成为一个非常流行的方法,当前的商业软件由于其预测准确度尚显不足还不能在无监督情况下使用——近来美国NTP专门对上述的商业程序在致癌毒性的预测能力方面先后进行了两次专项测试(Toivonen,et al,2003),所选化合物都严格按照NTP啮齿类动物致癌实验协议在被预测后进行实验测定,结果发现,上述软件在致癌毒性预测能力方面均十分有限,以整体准确度作为性能指标衡量时,仅对49~59%的化合物给出正确的预测,说明这些模型在致癌预测性能方面亟待提高。
除商业软件包外,文献中也报道了一些致癌毒性预测的方法(Vendrame,et al,2001)。总体来说,这些模型基本上只采用小样本的同系列化合物,即毒性机制相同或相近的化合物,进行模型的建立,以获得较高的预测正确率,实际上对于药物发现早期对结构多样且机制未知的合成前化合物的致癌性预测,缺乏普遍意义,这表明传统构效关系方法对于当活性和分子描述符之间存在线性相关或化合物为单一作用机制时候时比较有效,但对于模拟多种机制的非线性相关属性效果不明显。目前致癌性预测面临的一个主要挑战就是如何发展更新更好的方法从结构多样的化合物数据集中发现对正确预测有价值的信息(Votano,et al,2004)。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院上海药物研究所,未经中国科学院上海药物研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200810037955.9/2.html,转载请声明来源钻瓜专利网。
- 同类专利
- 专利分类
G06F 电数字数据处理
G06F19-00 专门适用于特定应用的数字计算或数据处理的设备或方法
G06F19-10 .生物信息学,即计算分子生物学中的遗传或蛋白质相关的数据处理方法或系统
G06F19-12 ..用于系统生物学的建模或仿真,例如:概率模型或动态模型,遗传基因管理网络,蛋白质交互作用网络或新陈代谢作用网络
G06F19-14 ..用于发展或进化的,例如:进化的保存区域决定或进化树结构
G06F19-16 ..用于分子结构的,例如:结构排序,结构或功能关系,蛋白质折叠,结构域拓扑,用结构数据的药靶,涉及二维或三维结构的
G06F19-18 ..用于功能性基因组学或蛋白质组学的,例如:基因型–表型关联,不均衡连接,种群遗传学,结合位置鉴定,变异发生,基因型或染色体组的注释,蛋白质相互作用或蛋白质核酸的相互作用