[发明专利]有机污染物定量结构活性相关模型抽多法交叉验证方法无效
| 申请号: | 201110112111.8 | 申请日: | 2011-04-29 |
| 公开(公告)号: | CN102184284A | 公开(公告)日: | 2011-09-14 |
| 发明(设计)人: | 张爱茜;易忠胜;李富华;蔺远;高常安;穆云松 | 申请(专利权)人: | 南京大学 |
| 主分类号: | G06F17/50 | 分类号: | G06F17/50 |
| 代理公司: | 南京知识律师事务所 32207 | 代理人: | 蒋海军 |
| 地址: | 210093 江*** | 国省代码: | 江苏;32 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 有机 污染物 定量 结构 活性 相关 模型 抽多法 交叉 验证 方法 | ||
1.一种有机污染物定量结构活性相关模型抽多法交互验证方法,包括以下步骤:
(1)将均匀设计方法与留多法交互验证相结合,采用均匀设计优化的抽多法交互验证对模型进行内部验证,并将均匀设计优化的抽多法交互验证的相关系数作为有机污染物定量结构活性相关模型变量筛选终止标准和预测能力判断指标,在改进变量筛选的同时,提供更大的样本波动性,完成留多法交互验证;若需建立n个有机污染物m种结构描述符x(n,m)与其环境行为或生物效应指标y(n)之间的构效关系,首先确定最优子集变量数不得大于n/5的整数值,同时变量vi和vj间相关系数r(vi,vj)不得高于阈值rint=0.76,而不得低于0.60;
(2)根据样本数n建立n+1水平均匀设计表并基于该表进行QSAR模型的m-折留多法交互验证;具体为:
A.使用好格子点法构造用于交叉验证的n+1水平的均匀设计表:根据样本数n,寻找比n+1小的整数h,且使n+1和h的最大公约数为1,符合这些条件的正整数组成一个生成向量Hn+1=[h:h<n+1];均匀设计表的第j列根据公式uij=ihj[mod n+1]生成,其中[mod n+1]表示同余运算;将生成向量中所有的元素进行上面同余运算得到的结果组成一个二维表格;删除最后一行,即得到所需的设计表,并记为Un*(ns);其中n为样本数,s为均匀设计表的列数;
B.均匀设计优化的留多法交叉验证(UDOLMOCV)方法:将均匀设计表的每一列分成m等份(如果不能整除,则多余的样本归入最后一份),这样均匀设计表的一列就构成一次m-折留多法交叉验证所需样本分组方式,均匀设计表的列数s即为留多法交叉验证的重复次数;然后按照下列公式分别计算交叉验证计算模型的交叉验证相关系数均方根误差(RMSEVUDOLMOCV)以及和RMSEVUDOLMOCV的标准差和STDRMSEVUDOLMOCV;其中yi为第i个观测值,为进行UDOLMOCV时第i个观测值的模型估计值,为观测值的平均值,n为模型的样本数,s为均匀设计表的列数,为第i个观测值的均方根误差,为第i个观测值的交叉验证相关系数;
(3)得到的UDOLMOCV的统计参数和RMSEVUDOLMOCV用于衡量QSAR模型的预测能力,而与STDRMSEVUDOLMOCV则分别表征参数和RMSEVUDOLMOCV的变异程度;同时,类似留一法交叉验证的相关系数q2,用作变量筛选方法的终止标准;因均匀设计表具有均衡分散的特点,通过均匀设计表安排的分组样本具有很强的代表性,也就是说这样得到的样本分组形式,每一种分组方案都代表了一种样本分布;因此通过均匀设计表分组方式,充分考虑了样本分布的代表性,得到的结论就有很强的代表性。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京大学,未经南京大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110112111.8/1.html,转载请声明来源钻瓜专利网。





