[发明专利]基于主成分分析和梯度提升决策树的油菜蜜真伪鉴别方法在审
| 申请号: | 202111191163.9 | 申请日: | 2021-10-13 |
| 公开(公告)号: | CN113902951A | 公开(公告)日: | 2022-01-07 |
| 发明(设计)人: | 张紫娟;范春林;斗海峰;陈谊;张佳琳;武彩霞;陈辉;郭延迪;孙小然 | 申请(专利权)人: | 中国检验检疫科学研究院;北京工商大学 |
| 主分类号: | G06V10/77 | 分类号: | G06V10/77;G06F17/16;G06N20/00 |
| 代理公司: | 北京万象新悦知识产权代理有限公司 11360 | 代理人: | 黄凤茹 |
| 地址: | 100123 *** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 成分 分析 梯度 提升 决策树 油菜 真伪 鉴别方法 | ||
1.一种基于主成分分析和梯度提升决策树的油菜蜜真伪鉴别方法,包括:采集和制备真假蜂蜜样品并生成蜂蜜数据、对蜂蜜数据记录进行真假标注得到油菜蜜数据集、使用主成分分析法PCA对油菜蜜数据集降维、使用梯度提升决策树算法GBDT构建油菜蜜真伪鉴别模型并评估模型的有效性、利用油菜蜜真伪鉴别模型对待测蜂蜜进行真伪鉴别;包括下列具体步骤:
A:采集和制备真假蜂蜜样品,并生成油菜蜜数据;
通过核磁共振技术获取蜂蜜数据:对蜂蜜样品进行NOESY 1D检测,得到检测样品的核磁共振氢信号谱图;再对核磁共振氢信号谱图进行数字化转换,得到反映样品谱图特征的油菜蜜数据;
油菜蜜数据的一条记录包括反映油菜蜜样品核磁共振氢信号谱图的轮廓即蜂蜜各组分含量分布的176个属性值或特征值;
B:对油菜蜜数据记录进行真假蜂蜜标注,得到油菜蜜数据集;
对步骤A中得到的油菜蜜数据中的每一条记录添加真假标签,即真假标注维;再给每一条记录按照添加样本名称,即样本名称维;得到具有178维的油菜蜜数据集,记为D;
C:使用主成分分析法PCA对油菜蜜数据集D降维;
使用PCA对油菜蜜数据集D进行降维;降维不包括真假标注维和样本名称维;降维维度按照方差比例确定;首先对油菜蜜数据集D进行规范化,使得数据中每一特征的取值平均值为0,方差为1;其次将规范化后的数据通过正交变换,得到由多个线性无关的新特征表示的数据;再将新特征按照方差大小进行排序,并将排序后的特征依次称为第一主成分、第二主成分等;计算每个特征的贡献率,当前k个特征的贡献率之和大于等于设定阈值时,前k个特征即为最终的特征集合,得到k维的油菜蜜数据集D′;
具体地,采用主成分分析方法对油菜蜜数据集D进行计算的过程包括如下步骤::
假设油菜蜜蜜数据集D中有m条数据,n个特征,组成n×m蜂蜜数据矩阵X*,如式(4)所示:
其中,xj为第j条蜂蜜数据;j=1,2,…,m;
C1)对X*的每一行进行零均值化,其中每一行即各蜂蜜样本在特征下的取值;减去该行即该特征的均值,得到蜂蜜零均值化矩阵X,如式(5)所示:
其中μi为第i个特征对应的平均值;
C2)通过式(7)计算蜂蜜零均值化矩阵X的协方差矩阵,得到n×n的协方差矩阵C:
C3)根据式(8)得到协方差矩阵C的特征值和特征向量:
Cβi=λiβi,i=1,2,...,n (8)
其中,βi为第i个特征向量,λi为第i个特征值且满足:λ1≥λ2≥...≥λn;
C4)特征向量单位化,计算过程如式(9):
其中pi为第i个特征向量的单位向量,此时,满足:
C5)计算特征值λi的贡献率γi,计算方式如式(10):
设定阈值为γ,当前k个特征值的贡献率之和大于等于阈值γ时,取前k个特征值对应的单位特征向量,得到k×n的单位特征向量矩阵Q,表示为式(11):
其中k个主成分即为前k个特征值;
C6)将单位特征向量矩阵Q与蜂蜜零均值化矩阵X相乘,得到降维后k×m的矩阵Y,即k维的油菜蜜数据集D′,表示为式(12):
D:使用梯度提升决策树算法GBDT构建油菜蜜真伪鉴别模型;
对经PCA降维后得到的油菜蜜数据集D′按比例划分为训练集和测试集,进行GBDT模型的训练,然后对GBDT进行参数调整和优化,获得训练好的最优的蜂蜜真伪鉴别模型,记为PCA-GBDT;其中使用网格搜索法进行参数调整和优化;
训练PCA-GBDT模型具体是通过GBDT模型的基学习器的线性组合不断减小训练过程产生的残差,以达到将数据分类的目的;训练过程包括:
首先初始化一个弱学习器,计算此时训练集中每个样本损失函数的负梯度值;
其次利用负梯度值拟合决策树,并求出最佳的负梯度拟合值;
然后使用最佳的负梯度拟合值更新弱学习器,得到第一个强学习器;
再将前一轮得到的强学习器作为本轮初始弱学习器,不断迭代更新,当迭代次数达到设定值时,输出的强学习器为最终的分类器;
GBDT模型训练的计算过程包括:
设油菜蜜训练集样本S=(x1,y1),(x2,y2),…,(xk,yk),…,(xm,ym),其中xk是第k个样本,yk为第k个样本的真伪值;输出为强学习器f(x);
D1)初始化弱学习器f0(x),表示为式(13):
其中,损失函数使用对数似然损失函数L(y,f(x))=log(1+e-yf(x)),y∈{-1,1},y为真实值,即所有油菜蜜训练样本的标签值;f(x)为预测值,初始时f(x)的值c设置为y的均值;
D2)设定迭代次数t=1,2,3,…,T,对油菜蜜样本xi,i=1,2,3,…,m;最大迭代次数为T
D2a)计算得到负梯度误差rti:
D2b)将rti作为样本当前的真实值,拟合得到第t棵决策树ft(x),对应的叶子节点区域为Rtj,j=1,2,3,…,J;每个叶子节点区域对应一个或多个油菜蜜样本;其中J为决策树t的叶子节点数量;
D2c)对每个叶子节点j,计算最佳拟合值的近似值Ctj;
D2d)更新强学习器,表示为式(16):
D3)得到最终的强学习器f(x),表示为式(17):
将新的油菜蜜样本数据代入式(17),可得到分类结果;
即训练得到训练好的油菜蜜蜜真伪鉴别模型;
E:对待鉴别的油菜蜜样品进行NOESY 1D检测,得到待测样品的核磁共振氢信号谱图,并对谱图进行数字化转换,得到反映样品谱图特征的油菜蜜数据,再利用训练好的油菜蜜蜜真伪鉴别模型进行真伪鉴别,实现基于主成分分析和梯度提升决策树的油菜蜜真伪鉴别。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国检验检疫科学研究院;北京工商大学,未经中国检验检疫科学研究院;北京工商大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111191163.9/1.html,转载请声明来源钻瓜专利网。





