[发明专利]一种基于典型相关森林的土壤重金属特征选取方法及系统在审
申请号: | 202111207773.3 | 申请日: | 2021-10-18 |
公开(公告)号: | CN113868960A | 公开(公告)日: | 2021-12-31 |
发明(设计)人: | 王轩慧;油海东;王轩力 | 申请(专利权)人: | 青岛农业大学 |
主分类号: | G06F30/27 | 分类号: | G06F30/27;G06K9/62;G06F111/08 |
代理公司: | 北京高沃律师事务所 11569 | 代理人: | 董领逊 |
地址: | 266109 山*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 典型 相关 森林 土壤 重金属 特征 选取 方法 系统 | ||
本发明涉及一种基于典型相关森林的土壤重金属特征选取方法及系统,方法包括:获取N份原始土壤样本,采用模糊K平均聚类算法,并基于颜色参数对N份所述原始样本重新分组,得到n组样本数据;对所述样本数据进行特征预选,确定特征值矩阵;对所述特征值矩阵进行去冗余处理,选取相应的特征值,根据选取的特征值建立K个独立的典型相关森林回归子模型;利用K个所述典型相关森林回归子模型对特征空间进行筛选与缩减变化,获得最优特征子集,完成土壤重金属特征的选取。本发明提高了土壤重金属特征选取的准确性、精度以及效率。
技术领域
本发明涉及土壤重金属领域,特别是涉及一种基于典型相关森林的土壤重金属特征选取方法及系统。
背景技术
土壤光谱数据集固有的时空异质性是影响土壤重金属特征波段优选准确率的重要因素。由于重金属不具有直接光谱响应,导致重金属所对应的敏感波段非常少,原始光谱含有冗余的以及不相关的特征,直接使用原始光谱构建回归反演模型不仅准确率和稳定性偏低,而且运算效率较差。目前,主流的重金属高光谱特征选取方法一般选用线性建模方法以及固定权值的特征空间随机采样方式与收缩方式。线性建模方法无法准确描述样本响应变量与输入特征值之间的非线性关系,固定权值的特征空间随机采样方式与收缩方式无法快速准确地从高冗余的土壤高光谱特征空间中识别土壤重属性的敏感波段。因此,主流的重金属高光谱特征选取方法在处理高维、高冗余以及非线性的土壤高光谱数据时特征选取困难,使得选取准确率低,进而影响反演模型的精度。
发明内容
本发明的目的是提供一种基于典型相关森林的土壤重金属特征选取方法及系统,以解决目前主流的重金属高光谱特征选取方法选取高光谱特征准确率低的问题。
为实现上述目的,本发明提供了如下方案:
一种基于典型相关森林的土壤重金属特征选取方法,包括:
获取N份原始土壤样本,采用模糊K平均聚类算法,并基于颜色参数对N份所述原始土壤样本重新分组,得到n组样本数据;所述样本数据包括高光谱数据和与所述高光谱数据对应的响应变量;
利用n组所述样本数据对典型相关森林回归模型进行训练,得到训练好的典型相关森林模型;
利用所述训练好的典型相关森林回归模型,得到每个所述高光谱数据的特征值的变量重要性得分;
根据所述变量重要性得分,确定特征值矩阵;
根据所述特征值矩阵,建立K个独立的典型相关森林回归子模型;
利用K个所述典型相关森林回归子模型对特征空间进行筛选与缩减变化,获得最优特征子集,完成土壤重金属特征的选取;所述特征空间为样本数量和特征值数量组成的矩阵。
可选的,所述获取N份原始土壤样本,采用模糊K平均聚类算法,并基于颜色参数对N份所述原始土壤样本重新分组,得到n组样本数据,具体包括:
获取每份所述原始土壤样本的Munsell颜色值;
将所述Munsell颜色值转换为CIE XYZ三刺激值;
将所述CIE XYZ三刺激值转化成多个颜色参数,多个所述颜色参数作为高光谱数据的特征值;
基于所述特征值,对所述高光谱数据进行主成分变换,确定每份所述原始土壤样本的主成分得分;
基于所述主成分得分,采用模糊K平均聚类算法确定最佳聚类数目;
根据所述最佳聚类数目将N份所述原始土壤样本重新划分成n组样本数据。
可选的,所述利用n组所述样本数据对典型相关森林回归模型进行训练,得到训练好的典型相关森林模型,具体包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于青岛农业大学,未经青岛农业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111207773.3/2.html,转载请声明来源钻瓜专利网。