[发明专利]改进的偏最小二乘回归法在微生物培养基优化中的应用方法有效
申请号: | 201810407924.1 | 申请日: | 2018-04-26 |
公开(公告)号: | CN108664719B | 公开(公告)日: | 2022-01-04 |
发明(设计)人: | 赵文慧;赵长虹;朱新术;周晨妍;张文博;蔡刘滕 | 申请(专利权)人: | 新乡医学院 |
主分类号: | G16B5/20 | 分类号: | G16B5/20;G16B40/00;G06N3/12 |
代理公司: | 西安研创天下知识产权代理事务所(普通合伙) 61239 | 代理人: | 张红哲 |
地址: | 453003 *** | 国省代码: | 河南;41 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 改进 最小 回归 微生物 培养基 优化 中的 应用 方法 | ||
本发明公开了一种改进的偏最小二乘回归法在微生物培养基优化中的应用,整合交叉验证和变量筛选的技术以降低PLSR潜在的过拟合问题,即首先通过留一法交叉验证提取合适数目的潜变量,然后利用基于变量投影重要性技术的变量筛选方法并结合回归模型决定系数的稳健准则建立简约,稳健,特别是预测精度高的模型。本发明提出的VIP回归模型建立简约,稳健和预测精度高的模型的有效性。可以进一步推广。
技术领域
本发明涉及一种多元统计方法的应用,具体地说,涉及一种改进的偏最小二乘回归法在微生物培养基优化中的应用方法。
背景技术
偏最小二乘回归(PLSR)是一种新型的多元统计方法,原因是它集合了多元线性回归、主成分分析和典型相关分析的优点,研究表明PLSR善于处理常规线性回归无法解决的多重共线性、小样本等问题,且能利用有限的数据,同时进行多自变量对多因变量的回归操作。
然而,另一方面,PLSR经常表现出一种过拟合的倾向,原因由提取混杂噪音的潜变量个数较多而导致。过拟合是一种统计学现象,一般指可以非常完美的拟合建模数据,但无法可靠预测新添加的数据,也就是拟合精度高而预测精度差。当前解决PLSR过拟合的方法主要集中在如何提取最合适的潜变量个数上面,主要方法有马斯洛统计学方法,赤池信息量准则(AIC),贝叶斯信息准则(BIC)和交叉验证法(CV),其中CV是最常用的方法。此外,变量筛选可以通过剔除冗余变量与保留有用信息使过拟合的风险成分降低。
发明内容
本发明的目的在于提供一种改进的偏最小二乘回归法在微生物培养基优化中的应用方法,整合交叉验证和变量筛选的技术以降低PLSR潜在的过拟合问题,即首先通过“留一法”交叉验证提取合适数目的潜变量,然后利用基于变量投影重要性(VIP)技术的变量筛选方法并结合回归模型决定系数的稳健准则建立简约,稳健,特别是预测精度高的模型。
其具体技术方案为:
一种改进的偏最小二乘回归法在微生物培养基优化中的应用方法,包括以下步骤:
步骤1.培养基配方基于均匀设计进行设计与配置,并接种热纤梭菌进行培养,然后分别测定生物量(OD600)、二糖消耗量、乙醇浓度、乙酸浓度和酸度下降值,并均作为发酵响应。用二次多项式表征培养基均匀设计配比和发酵响应之间的数学关系,并用皮尔逊相关系数法分析培养基配比和发酵响应组合矩阵的相关系数。
步骤2.以步骤1中均匀设计实验数据为基础,通过计算交叉验证的R2数值筛选合适的潜变量个数,具体公式如下:
其中PRESS(h)是响应向量提取h个潜变量时的预测残差平方和;SS(h-1)是响应向量提取h-1个潜变量的均方误差和。PRESS(h)和SS(h)的计算公式分别为,
和
其中yi为因变量原始数值;yhi是利用所有样本点提取主成分数目分别为t1,t2…th时进行回归拟合的i个样本点的拟合值;yh(-i)表示剔除i个样本点的建模拟合情况。
步骤3.在步骤2确定提取潜变量的最佳数目之后,建立包含所有预测变量的全模型PLSR模型,并给出相应的二次多项式回归方程和对应的决定系数R2。
步骤4.利用VIP技术评估原始预测变量对因变量向量的重要程度。VIP数值的计算公式如下:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于新乡医学院,未经新乡医学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810407924.1/2.html,转载请声明来源钻瓜专利网。