[发明专利]一种随机森林算法结合激光诱导击穿光谱定量分析钢铁中硫磷的方法在审
| 申请号: | 201510102028.0 | 申请日: | 2015-03-10 |
| 公开(公告)号: | CN104697964A | 公开(公告)日: | 2015-06-10 |
| 发明(设计)人: | 李华;张天龙;吴珊 | 申请(专利权)人: | 西北大学 |
| 主分类号: | G01N21/63 | 分类号: | G01N21/63 |
| 代理公司: | 西安西达专利代理有限责任公司 61202 | 代理人: | 谢钢 |
| 地址: | 710069 *** | 国省代码: | 陕西;61 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 随机 森林 算法 结合 激光 诱导 击穿 光谱 定量分析 钢铁 中硫磷 方法 | ||
技术领域
本发明涉及一种随机森林算法结合激光诱导击穿光谱定量分析钢铁中硫磷元素的方法,属于光谱分析技术领域。
背景技术
钢材中各种元素成分对钢种质量都有重要影响。在冶炼过程中,为了确保钢材质量和性能合格,需要对不同型号钢材进行实时、在线和有效检测,因此在实际生产中分析检测技术至关重要。硫、磷元素是钢铁中常见的杂质元素,对钢铁的性能等方面具有很大影响。硫可以改善钢的切削性、加工性和磁性等,但也会引起钢的热脆性,降低钢的机械性能, 特别是使疲劳极限、塑性和耐磨性显著下降, 影响钢件的使用寿命。磷有强烈的固溶强化作用,可以增加钢的强度和硬度,但也会降低钢的塑性和韧性。因此,建立硫、磷元素的测定方法对于控制钢铁质量具有重要的意义。常规的检测方法有原子荧光光谱法和原子发射光谱法等,都需要复杂的样品前处理,并且耗时。在实际生产中,由于信息反馈滞后而导致质量和原料控制不及时,限制了钢铁工业高速化、连续化和大型化的发展。激光诱导击穿光谱(laser-induced breakdown spectroscopy, LIBS)技术具有制样简单的优势,可以对钢铁进行快速分析,因此在冶金分析领域具有广泛的应用前景。
LIBS是一种新兴的原子发射光谱技术。该技术以激光作为激发源来诱导产生激光诱导等离子体。LIBS 利用高功率激光脉冲聚焦到目标上,并在分析材料表面形成高强度激光光斑(等离子体),在等离子体激发过程中产生元素的特征谱线,通过分光系统和检测系统进行特征谱线分析,就可以对样品中的元素进行定性和定量分析。根据谱线强度与对应元素含量之间关系,借助化学计量学方法则能够实现定量分析。LIBS 技术具有分析快捷、多元素同时分析以及无需样品预处理等优势,因而在钢铁行业的实时、在线、现场分析等方面具有很大的应用潜力。
随机森林(Random Forest,RF)是一种基于递归回归树的有监督学习方法。它是以决策树为基础的集成学习模型,它包含多个有Bagging 集成学习技术校正得到的决策树,当输入待回归的样本时,最终的回归结果由单个决策树的输出结果投票的平均值决定。它克服了决策树过拟合问题,对噪声和异常值有较好的容忍性,对高维数据回归问题具有良好的可扩展性和并行性。此外,随机森林是由数据驱动的一种非参数回归方法,只需通过对给定样本的学习校正分类规则,并不需要分类的先验知识。
发明内容
本发明的目的是提供一种随机森林算法结合激光诱导击穿光谱实现对钢材中硫磷元素的快速定量分析方法,以克服过拟合现象,具有快速、高预测精度的优点。
本发明实现过程如下:
一种随机森林算法结合激光诱导击穿光谱定量分析钢铁中硫磷的方法,包括以下步骤:
(1)利用激光诱导击穿光谱系统对钢材样品分别在不同的测量位点进行光谱数据采集;
(2)从每个样品的光谱数据中随机挑选占其数据总量2/3 的光谱数据作为校正集,其余光谱数据作为测试集;
(3)使用校正集数据通过bagging 抽样结合袋外估计OOB(Out-Of-Bag)的方法对决策树棵数ntree 和随机抽取特征数mtry 进行寻优;
(4)确定最优参数后利用校正集数据建立随机森林模型,在随机森林建模中,所构建的每一颗决策树都为二叉树;构建一棵树时在树的每个节点从每个样本总共M 个特征中挑选mtry 个特征,其中mtry<M,并根据不纯度最小原则从mtry 个特征中选择一个进行分支生长;这棵树充分生长,并且使每个节点的不纯度达到最小,且不剪枝;最后得到的所有决策树组合在一起构成随机森林;
(5)样本的最终预测值通过模型中所有决策树回归结果投票的平均值得出。
上述步骤(3) 中,在参数可能取值范围内利用bagging 抽样从校正集中获取子校正集并建立模型,然后用未被抽样的袋外数据来估计模型的预测准确度,当预测准确度最高时对应的参数为最优参数。
使用校正集数据对决策树棵数ntree 和随机抽取特征数mtry 进行寻优,通常ntree 取值范围为100-600,mtry 取值范围为M/8 -M,其中M 是样本特征总数,在ntree 和mtry 可能取值范围内利用bagging 抽样从校正集中获取子校正集并建立模型,然后用未被抽样的袋外数据来估计模型的预测准确度,当预测准确度最高时对应的参数为最优参数。
上述步骤(5)中,模型的每一个决策树给出一个回归含量,对所有决策树的预测含量进行统计,得票数平均值为最终预测含量。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西北大学;,未经西北大学;许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510102028.0/2.html,转载请声明来源钻瓜专利网。





