[发明专利]在线近红外样本量确定方法有效
申请号: | 201510582139.6 | 申请日: | 2015-09-14 |
公开(公告)号: | CN105136736B | 公开(公告)日: | 2017-12-29 |
发明(设计)人: | 张军;薛庆逾;石超 | 申请(专利权)人: | 上海创和亿电子科技发展有限公司 |
主分类号: | G01N21/359 | 分类号: | G01N21/359 |
代理公司: | 上海精晟知识产权代理有限公司31253 | 代理人: | 冯子玲 |
地址: | 201808 上海市嘉*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 在线 红外 样本 确定 方法 | ||
技术领域
本发明涉及一种基于光谱投影的在线近红外样本量确定方法,属于烟草制品生产质量评价领域。
背景技术
烟草近红外谱图中包含大量的烟叶常规化学值信息,物理信息,以及外观信息,因此近红外在常规化学值检测中,烟叶稳定性评价,以及烟叶质量评价领域发挥着很大的作用,但是要建立好一个比较好的近红外模型,往往需要足够多的样本量,比较好的基础数据质量,来构建近红外模型检测,评价体系;模型里面的样本量的大小比较重要,而往往模型里面的样本量不能确定的化,要么导致模型的样本量过少,使得构建的烟叶近红外定性定量模型比较不稳定,要么会导致模型里面的样本量过多,使得建立的近红外模型包含丰富的待挖掘信息,但是也同时会导致构建的近红外模型体系非常复杂,维护起来非常繁琐,复杂,形成年度一维护,季度一维护,更有甚者一月,一周一维护,很大程度上制约了红外模型在烟叶领域的深度应用。
在实际烟叶领域近红外定性,定量模型构建的过程中,对于样本量的确定方法一般有如下几种方法(1)人为要求近红外模型里面的样本包含不同的品种,不同的产地,不同的部位,不同的等级,甚至不同工艺的加工方式;由于全国品种,等级,信息很多,这种要求一般在实际生产中很难满足;(2)人为取大量的基础光谱数据,利用PCA投影,剔除比 较接近的样本,逐渐的扩大模型的样本容量,这种方法由于PCA空间随着样本容量的变化而变化,而且只能定性指导红外检测人员以及研究人员,并不能给研究人员一种明确的指导;近红外分析技术,其作为一种大样本统计分析方法对样本量有一定要求,目前的研究结果表明,追求样本量的绝对数量意义并不大。因为最低样本量的要求与多种因素相关:近红外信息的含量,信号的稳定性,基础数据的准确性,近红外指标模型复杂程度,数据分布形态,近红外应用的背景强度以及研究设计特点,所以没有任何一个最少样本量的推荐值同时考虑了上述诸因素。近红外样本容量是一个很值得研究的问题,在构建近红外复杂定性定量体系的过程中,如果样本量过少,构建出来的红外模型往往不能包含复杂的背景体系,稳健性不好,导致模型的外推预测能力变差,如果在构建近红外模型体系中样本量过多,这无疑会对模型的定性定量构建带来运算与计算上的复杂度,同时近红外的快速分析检测的优势就体现不出来,由于在近红外领域,基础数据的检测,往往有一定的难度与成本,这无疑会给企业带来大幅的成本上升,增加了维护的近红外模型的难度;
如何快捷并且准确的在近红外模型构建钱确定近红外模型所需要的样本容量,如何合理的根据实验目标以及前期所取得的基础数据信息,渐进评估模型的所需样本量,构建一个具备初步稳健性质的近红外复杂体系模型为本专利研究的内容。
发明内容
本发明的目的在于提供一种基于光谱投影的在线近红外样本量确定方法,以解决上述问题。本发明采用了如下技术方案:
一种在线近红外样本量确定方法,其特征在于,包括如下步骤:
步骤一、仅采集全体样本的光谱信息,而不进行具体成分的分析;
步骤二、对收集到的光谱信息所形成的矩阵进行PCA投影;
步骤三、构造近红外光谱的统计量:
可以证明
其中Thi表示的是第i个样本的累积贡献率,thi表示的是第i个样本的贡献率,shi表示的第m个主成分的标偏,n是指样本量;F表示的是F分布;
步骤四、计算总体样本空间T值的标偏,计算每个样本近红外光谱的T值;对全体样本空间的T值以不同百分比进行抽样;把近红外模型的准确性转换成近红外光谱的稳定性计算,在每个百分比下随机抽取k次,计算每个比例下样本T值的稳定性;
步骤五:比较不同百分比抽样下的样本空间的T值标偏与总体样本变化的T值标偏;样本空间的T值标偏与总体的样本的T值标偏的差异小于预定值时所对应的抽样比例,即为所需在线近红外样本量的取样比例。
进一步,本发明的在线近红外样本量确定方法,还可以具有这样的特征:其中,步骤一中在采集全体样本的光谱信息后,还包括对异常光谱进行剔除的步骤,剔除量不超过样本量的5%。
进一步,本发明的在线近红外样本量确定方法,还可以具有这样的 特征:其中,在步骤四中,对全体样本空间的T值的抽样百分比是以5%为起点,直到最大值100%,中间间隔2%进行抽样。
进一步,本发明的在线近红外样本量确定方法,还可以具有这样的特征:其中,步骤四中所述稳定性用所抽取样本T值的标偏来衡量。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海创和亿电子科技发展有限公司,未经上海创和亿电子科技发展有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510582139.6/2.html,转载请声明来源钻瓜专利网。