[发明专利]一种基于孤立森林的粮情数据离群点检测方法在审
申请号: | 202110497016.8 | 申请日: | 2021-05-07 |
公开(公告)号: | CN113327172A | 公开(公告)日: | 2021-08-31 |
发明(设计)人: | 李智慧;吴建军;刘廷凤;甄彤;张仲凯;徐辉 | 申请(专利权)人: | 河南工业大学 |
主分类号: | G06Q50/02 | 分类号: | G06Q50/02;G06F16/22;G06N20/00;G01D21/02 |
代理公司: | 河南大象律师事务所 41129 | 代理人: | 张辉 |
地址: | 450001 河南省郑*** | 国省代码: | 河南;41 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 孤立 森林 数据 离群 检测 方法 | ||
本发明公开了一种基于孤立森林的粮情数据离群点检测方法,包括如下步骤:粮情数据初始化,孤立树的构造,通过Q统计量法和交叉验证法构造孤立森林,再通过孤立森林对数据进行识别离群点,最终实现粮情检测。本发明基于孤立森林的粮情数据离群点检测方法,很好的解决了传统算法分析粮情数据仅仅是通过粮堆正常温湿等数据来研究粮情分布的特点,忽略有潜在价值的离群点,从而导致粮情预警不及时、不准确等问题,本发明与传统的KNN、LOF等离群检测方法相比检测精度更高,更具稳定性且执行效率上有明显优势。进一步的本发明通过二叉树的快速划分,把离群点分离出来,避免了大量计算距离或密度所消耗的时间。
技术领域
本发明涉及温湿等粮情数据处理技术领域,尤其涉及一种基于孤立森林的粮情数据离群点检测方法。
背景技术
目前,离群点也称异常点,它与其他观测值存在巨大的差异,以至于使人怀疑这些数据并非由于随机偏差导致的,而是产生自不同的机理。离群点检测的主要目的是为了找出明显区别于大多数数据的对象,近年来,国家粮食局和全国各地区各单位积极探索粮食行业信息化建设,我国粮库在各个省市普遍分布,粮库的温湿等粮情数据积累甚多。众多学者一直以来积极探索粮情的变化规律,研究粮堆的变化我们更加关心的是“异常”粮情是否出现,而非简单的分布变化。
而现在粮库信息化建设的规模与日俱增,导致粮情数据量大,传统方法只是单纯地展示出粮温、粮食水分分布,需要人员不断查看并更新粮情,这导致粮情异常发现率低、漏告警和误告警数量多等问题,而且如果不能及时、准确地分析粮情数据,对粮食储藏安全将产生严重的威胁。因此如何有针对性地研究粮情数据来发现离群点并探究出现离群点的原因,从而进行粮情预警,及时保障储粮安全,是实际中急需解决的技术问题。
发明内容
本发明的目的是提供一种基于孤立森林的粮情数据离群点检测方法,能够有效并准确地发现粮情异常数据并及时预警,保证粮食储藏安全。
本发明采用的技术方案为:
一种基于孤立森林的粮情数据离群点检测方法,包括如下步骤:
步骤1:对采集好的粮情数据进行数据预处理,使得粮情数据便于分析处理;
步骤2:将步骤1处理好的粮情数据作为输入值,并初始化孤立森林;
步骤3:对步骤2中的输入数据,随机选择若干个样本点作为子样本集,放入树的根节点;
步骤4:随机指定一个属性,在当前节点数据中随机产生一个切割点,这个切割点产生于当前节点数据中指定属性的最大值和最小值之间;
步骤5:以步骤四随机产生的切割点生成一个超平面,然后将当前节点数据的空间划分为2个子空间:把当前节点数据中指定属性中小于步骤4中产生的切割点的数据放在当前节点的左边,把大于等于步骤4中产生的切割点的数据放在当前节点的右边;
步骤6:在子节点中递归步骤4和步骤5,不断构造新的子节点,直至满足终止条件;所述的终止条件有两个,第一个是数据本身不可再分,即只包括一个样本,或者全部样本相同;第二个是树的深度达到最大深度;
步骤7:通过步骤3到步骤6,构造得到的若干棵孤立树,引入Q统计量法计算任意两棵孤立树之间的差异值,Q统计量的值在[-1,1]之间变化,值越小,表示两棵孤立树的差异度越大;
步骤8:用交叉验证法计算每棵孤立树的精度值:具体的,将输入数据集划分为互不相交的N个子集,每次用N-1个子集进行训练,剩余的一个子集进行测试,最终把N个度量值的平均值作为精度值;
步骤9:通过孤立树的差异值和精度值计算出适应度值,选出适应度结果好的孤立树组成孤立森林,其中适应度可以表示孤立树是否具有较大差异值且有较好精确度;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于河南工业大学,未经河南工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110497016.8/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置