[发明专利]采用逻辑回归方法预测有机化学品生物降解性有效
申请号: | 201310234499.8 | 申请日: | 2013-06-11 |
公开(公告)号: | CN103345544A | 公开(公告)日: | 2013-10-09 |
发明(设计)人: | 李雪花;陈广超;陈景文;乔显亮 | 申请(专利权)人: | 大连理工大学 |
主分类号: | G06F17/50 | 分类号: | G06F17/50 |
代理公司: | 大连理工大学专利中心 21200 | 代理人: | 梅洪玉 |
地址: | 116024*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 采用 逻辑 回归 方法 预测 有机 化学品 生物降解 | ||
技术领域
本发明涉及一种采用逻辑回归算法预测有机化学品生物降解性,属于生态风险评价测试策略领域。
背景技术
环境中微生物可以通过氧化、还原及水解等作用破坏某些有机物的分子结构或使其矿化,将有机物从环境中去除。此过程即为生物降解,其是污染物从环境中去除的重要途径,影响着污染物的环境持久性和环境归趋。我国于2003年9月就颁布了《新化学物质环境管理办法》,并于2010年10月进行了修订,要求对新化学品的环境持久性等性质进行鉴别,再根据所得结果进行批准和必要时的限制。生物降解性是评估化合物环境持久性的重要参数,因此获取生物降解性数据对化学品的风险评价和管理具有重要意义。
实验测定是目前获取化合物生物降解性数据的主要途径,我国于2008年就参考经济合作与发展组织(OECD)的化学品生物降解测试导则,制定了包括CO2产生试验等六种测定化合物快速生物降解性的试验导则。但是由于现有化学品数量已超过14万种,根据欧盟REACH法规估算检测每一种化学品的基本费用约为8.5万欧元,因此若仅通过实验测定来获取数据,不仅费用昂贵,而且测试实验周期长(需28天),不能满足有机化学品风险评价和管理工作的数据需要。因此通过定量构效关系(QSAR)方法发展一种能快速高效获取有机化学品生物降解性的模型具有重要的应用意义。
QSAR方法的理论基础是化合物分子结构差异决定着其理化性质或活性效应的不同,因此仅通过化合物分子结构就能预测其理化性质、环境行为或毒理学参数(统称为活性)。作为一种可信的技术工具QSAR方法已成功应用于污染物环境行为参数(如生物富集系数、亨利定律常数和水解速率常数)和毒理学指标(如雌激素干扰效应)的预测。欧盟《关于化学品注册、评估、许可和限制制度》也明确规定QSAR方法可以为化学品的注册提供信息支持。2004年OECD提出的QSAR模型构建和使用准则规定,具有如下5个标准的QSAR模型可以应用于化学品的风险评价与管理:(1)具有明确定义的环境指标;(2)具有明确的算法;(3)定义了模型的应用域;(4)模型具有适当的拟合度、稳定性和预测能力;(5)最好能够进行机理解释。
目前,已有许多研究者应用(Q)SAR方法建立了有机化合物生物降解性的预测模型。如文献“Environ.Sci.Technol.,1994,28,459-465”采用36种分子结构描述符建立了295种化合物的生物降解性预测模型,所得线性和逻辑回归模型预测准确率分别为89.5%和93.2%;文献“Environ.Toxicol.Chem.,2000,19,2478-2485”选取36种分子结构碎片及相对分子质量建立了589种化合物的线性和逻辑回归模型,其对验证集(295种)的预测准确率分别为81.4%和80.7%。以上模型虽然具有良好的预测性能,对训练集(和验证集)的准确率良好,但是模型涵盖化合物数较少,因此应用范围有限。文献“J.Chem.Inf.Model.,2012,52,655-669”采用拓扑、结构和量子化学描述符,基于支持向量机(SVM)、k最近邻(kNN)和朴素贝叶斯三种算法建立了1631种化合物的预测模型,三种模型对训练集预测准确率分别为83.8%,78.6%和78.6%,预测集准确率分别为96.3%,74.1%和85.2%;文献“J.Chem.Inf.Model.,53,867-878”分别采用14和12种分子结构描述符,基于SVM和kNN方法建立了1725种化合物的预测模型,所建模型在训练集、验证集和预测集上的准确率均大于82.0%,具有良好的预测性能。上述两研究通过SVM和kNN方法构建的模型都涵盖较多化合物,应用域广并且预测性能良好。但是SVM模型的预测规则只蕴藏在由少量支持向量样本“加权”得到的决策函数中,无从知道模型如何对化合物进行分类和预测。kNN更是一种惰性学习算法,需要直接使用训练集数据进行预测,直至给定一个测试数据时才开始构造泛化模型。因此两种模型都具有“黑箱”性质,无法提取预测规则、可理解性差,不利于模型应用和机理解释。因此,有必要建立一个涵盖多种类化合物,并且模型结构简单、预测规则透明、易于理解和实际应用的QSAR模型,同时按照OECD导则对模型进行应用域表征和机理解释。
发明内容
本发明目的是发展一种简洁、快捷、高效预测有机化学品生物降解性的方法。该方法可以直接根据化合物分子结构预测其生物降解性,进而对目标化合物的环境持久性进行预测和评价,为化学品风险评价和管理提供必要的基础数据。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于大连理工大学,未经大连理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310234499.8/2.html,转载请声明来源钻瓜专利网。