[发明专利]一种传感器数据校准模型的学习方法有效
申请号: | 201710014247.2 | 申请日: | 2017-01-09 |
公开(公告)号: | CN106909972B | 公开(公告)日: | 2020-04-10 |
发明(设计)人: | 董玮;卜佳俊;高艺;陈纯;陈远 | 申请(专利权)人: | 浙江大学 |
主分类号: | G06N20/00 | 分类号: | G06N20/00 |
代理公司: | 杭州天正专利事务所有限公司 33201 | 代理人: | 王兵;黄美娟 |
地址: | 310027 浙*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 传感器 数据 校准 模型 学习方法 | ||
技术领域
本发明涉及一种传感器数据校准模型的学习方法,特别是线性学习器和非线性学习器的重要性判定、学习程度的控制方法以及线性学习器和非线性学习器的结合方法。
背景技术
由于受到时间偏移,环境因素,移动场景等方面的影响,传感器的数据较真实值之间具有较大的偏差。Air-cloud使用实现了面向每个人的空气质量监测系统,其中实验表明PM2.5传感器的原始数据和真实值之间的关系是非线性的。融合了温湿度特征,Air-cloud使用基于线性人工神经网络的校准方法,并在云端实现了数据校准的模型。基于神经网络的多元线性回归模型相对于一元线性回归有了较大提升,但校准后数据相对于真实值偏差仍然较大。目前数据校准方法都是基于多元线性回归模型,在粒子传感器的数据校准上表现较差。
机器学习的回归方法可以分为线性回归方法和树回归方法。线性回归方法可以分为最小二乘回归,岭回归,基于人工神经网络的多元线性回归。性回归方法可以有效的拟合所有样本点(局部加权线性回归除外)。当数据拥有众多特征并且特征之间关系十分复杂时,构建全局模型的想法一个是困难一个是笨拙。此外,实际中很多问题为非线性的,例如常见到的分段函数,不可能用全局线性模型来进行拟合。树回归将数据集切分成多份易建模的数据,然后利用线性回归进行建模和拟合。最经典的树回归是CART(classification and regression trees,分类回归树)算法。利用集成学习将多个基回归器组合,可以起到增强的作用。目前随机森林回归和渐进梯度回归树(GBRT)。
针对多元线性回归模型在数据校准中缺点,本文提出了一种传感器数据校准模型的学习方法。
发明内容
本发明要克服现有技术的上述缺点,提供了一种传感器数据校准特征的提取和评估方法。
为实现以上目的,本发明所采取的技术方案是:一种传感器数据校准模型的学习方法,包括以下步骤:
步骤1,线性学习器和非线性学习器的重要性学习,包括:
(1.1)选择学习器,选择合适的线性学习器和非线性学习器。线性学习器选择多元线性回归模型,如线性人工神经网络(ANN)和多元最小二乘;非线性学习器选择树回归模型,如CART回归树,随机森林和渐进梯度回归树(GBRT)。
(1.2)学习器的多样性增强,通过引入数据样本扰动和输入属性扰动来增强学习器的多样性。
(1.3)学习器训练,分别对线性学习器和非线性学习器进行训练。
(1.4)权重的二次学习,利用二次学习法来学习线性学习器和非线性学习的权重。
(1.5)重要性判断,通过权重的值来判断线性学习器和非线性学习器结合策略
步骤2,通过相关理论控制第一轮学习的程度,包括:
(2.1)控制第一轮学习的程度,通过输入特征子集来控制第一轮学习的程度,通过相关理论来选择合适的特征子集。
(2.1.1)线性学习器的模型选择,线性学习器的特征子集选择,通过信息准则的思想来选择合适的特征子集,信息准则给出了模型的准确率和模型的复杂性权衡的方程,选择最流行的信息准则,赤池信息量准则(AIC)。
(2.1.2)非线性学习器的模型选择,非线性学习器的特征子集选择,可以使用随机森林的特征重要性评估方法。
步骤3,线性学习和非线性学习器结合
(3.1)第一轮学习,基于步骤(1.5)中的结论,选择重要性强的学习器进行第一轮训练,通过步骤2中的方法为步骤2中的学习器选择合适的特征子集,学习出合适的第一轮学习器模型。
(3.2)生成第二轮训练样本,用学习好的第一轮学习器的学习残差结合第一轮的训练样本生成第二轮的训练样本。
(3.3)第二轮残差的学习,用重要性较弱的传感器基于第二轮的训练样本进行残差的学习。
本发明的有益效果是:本方法提出了线性学习器和非线性学习器的重要性判定方法和线性学习器和非线性学习器的结合方法。提出了控制第一轮学习程度的方法。
附图说明
图1是本发明方法的工作流程图。
具体实施方式
下面结合附图对本发明作进一步描述。本发明的具体实施方式如下:
步骤1,线性学习器和非线性学习器的重要性学习,包括:
(1.3)选择学习器,选择合适的线性学习器和非线性学习器。线性学习器选择多元线性回归模型,如线性人工神经网络(ANN)和多元最小二乘;非线性学习器选择树回归模型,如CART回归树,随机森林和渐进梯度回归树(GBRT)。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大学,未经浙江大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710014247.2/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置