[发明专利]一种近红外光谱定量分析的双集成建模方法在审
申请号: | 201710569312.8 | 申请日: | 2017-07-10 |
公开(公告)号: | CN107356556A | 公开(公告)日: | 2017-11-17 |
发明(设计)人: | 卞希慧;邱建明;刘鹏;谭小耀;李明 | 申请(专利权)人: | 天津工业大学 |
主分类号: | G01N21/359 | 分类号: | G01N21/359;G06N3/00 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 300387 *** | 国省代码: | 天津;12 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 红外 光谱 定量分析 集成 建模 方法 | ||
技术领域
本发明属于分析化学领域的化学计量学建模技术,具体涉及一种近红外光谱定量分析的双集成建模方法。
背景技术
近红外光谱技术具有分析速度快、操作简单、绿色无损等优势而广泛应用于农业、化工、制药、食品、环境保护等各个领域。但是复杂样品的近红外光谱吸收较弱,谱峰重叠严重,存在背景、噪音等干扰信息,并且易受测量条件、样品状态等的影响,因此需要借助化学计量学才能对复杂样品进行定量分析。采用化学计量学对未知样品进行定量分析时,预测结果的好坏主要依赖于模型的质量。因此建立高质量的模型是化学计量学的重要研究内容。
化学计量学常用的建模方法有多元线性回归、偏最小二乘回归法、人工神经网络等。这些传统建模方法仅采用一个最优的模型对未知样品预测,在样品数较少或干扰严重时预测精度和稳定性往往不能令人满意,因此发展了集成建模技术。集成建模技术就是从同一训练集中产生多个训练子集,然后利用这些训练子集建立多个子模型分别进行预测,并将多个预测结果通过一定的方式集成,得到一个最终预测结果。
大多数集成建模方法都从样品方向进行集成如bagging ELM(卞希慧,李淑娟,谭小耀,王江江,王治国,刘维国,陈宗蓬,王晨,极限学习机集成建模方法,2015,中国专利,ZL201510466504),boosting PLS(卞希慧,刘巍,王秋男,谭小耀,郭玉高,一种近红外光谱的多模型建模方法,中国发明专利,2017,ZL201310537968.3)等,或从变量方向进行集成(C.Tan,Qin,M.Li,Subspace regression ensemble method based on variable clustering for near-infrared spectroscopic calibration,Analytical Letters,1009,42:1693-1710)。如果从样品和变量双方向同时进行集成,可进一步产生多样性的子模型,提高模型预测精度。
发明内容
本发明的目的是针对传统建模方法预测精度和稳定性低的问题,提出一种近红外光谱定量分析的双集成建模方法(蒙特卡罗-萤火虫算法-偏最小二乘法,MC-FA-PLS),具体流程如图1所示,以提高对未知样品定量分析的预测精度及稳定性,为近红外光谱定量分析提供了一种新方法。
本发明利用蒙特卡罗采样法(MC)选取一定数量的样品作为训练子集,采用萤火虫算法(FA)从该训练子集中选取部分变量作为样品-变量子集,建立偏最小二乘模型(PLS)。多次迭代建立若干模型。对所有模型的结果进行简单平均得到最终预测结果。
为实现本发明所提供的技术方案包括以下步骤:
(1)收集一定数目的被测样品,采集样品的近红外光谱,用常规方法测定目标组分含量;采用一定的分组方式将数据分为训练集和预测集;
(2)利用蒙特卡罗采样法从训练集中选取一定数目的样品作为训练子集;
(3)进行萤火虫算法参数调优,采用萤火虫算法从训练子集中选取部分变量作为样品-变量子集;
(4)确定偏最小二乘因子数,建立偏最小二乘模型;
多次重复步骤(2)-(4),建立T个模型;
(5)对所有模型的结果进行简单平均得到最终预测结果。
偏最小二乘因子数的确定方法为:因子数分别从1取25,间隔为1,利用公式(1)计算不同因子数下的交叉验证均方根误差(RMSECV)。采用蒙特卡罗交叉验证及F检验得到最佳的因子数。
m为样品总数,为第i个样品的预测值,yi为第i个样品的真实值。
本发明中,最佳波段数的确定方法为:将训练集光谱划分为5~30个波段数,波段间隔为5,分别计算在不同段数下的一系列预测均方根误差(RMSEP)。RMSEP值最小时对应的段数为最佳波段数。
本发明中,萤火虫算法最佳种群数的确定方法为:种群数n的取值范围为10~60,间隔为10,分别计算在不同种群数下的一系列RMSEP值。RMSEP值最小时对应的种群数为最佳种群数。
本发明中,萤火虫算法最佳环境吸光度的确定方法为:环境吸光度γ的取值范围为0.1~1.2,间隔为0.1,分别计算在不同环境吸光度下的一系列RMSEP值。RMSEP值最小时对应的环境吸光度为最佳环境吸光度。
本发明中,萤火虫算法最佳常数的确定方法为:常数α的取值范围为0.1~1,间隔为0.1,分别计算在不同常数下的一系列RMSEP值。RMSEP值最小时对应的常数为最佳常数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于天津工业大学,未经天津工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710569312.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种具有扩散旋流作用的导流装置
- 下一篇:一种用于药品仓库的通风系统