[发明专利]一种基于孤立森林的粮情数据离群点检测方法在审
申请号: | 202110497016.8 | 申请日: | 2021-05-07 |
公开(公告)号: | CN113327172A | 公开(公告)日: | 2021-08-31 |
发明(设计)人: | 李智慧;吴建军;刘廷凤;甄彤;张仲凯;徐辉 | 申请(专利权)人: | 河南工业大学 |
主分类号: | G06Q50/02 | 分类号: | G06Q50/02;G06F16/22;G06N20/00;G01D21/02 |
代理公司: | 河南大象律师事务所 41129 | 代理人: | 张辉 |
地址: | 450001 河南省郑*** | 国省代码: | 河南;41 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 孤立 森林 数据 离群 检测 方法 | ||
1.一种基于孤立森林的粮情数据离群点检测方法,其特征在于:包括如下步骤:
步骤1:对采集好的粮情数据进行数据预处理,使得粮情数据便于分析处理;
步骤2:将步骤1处理好的粮情数据作为输入值,并初始化孤立森林;
步骤3:对步骤2中的输入数据,随机选择若干个样本点作为子样本集,放入树的根节点;
步骤4:随机指定一个维度,在当前节点数据中随机产生一个切割点,这个切割点产生于当前节点数据中指定维度的最大值和最小值之间;
步骤5:以步骤四随机产生的切割点生成一个超平面,然后将当前节点数据的空间划分为2个子空间:把当前节点数据中指定维度中小于步骤4中产生的切割点的数据放在当前节点的左边,把大于等于步骤4中产生的切割点的数据放在当前节点的右边;
步骤6:在子节点中递归步骤4和步骤5,不断构造新的子节点,直至满足终止条件;所述的终止条件有两个,第一个是数据本身不可再分,即只包括一个样本,或者全部样本相同;第二个是树的深度达到最大深度;
步骤7:通过步骤3到步骤6,构造得到的若干棵孤立树,引入Q统计量法计算任意两棵孤立树之间的差异值,Q统计量的值在[-1,1]之间变化,值越小,表示两棵孤立树的差异度越大;
步骤8:用交叉验证法计算每棵孤立树的精度值:具体的,将输入数据集划分为互不相交的N个子集,每次用N-1个子集进行训练,剩余的一个子集进行测试,最终把N个度量值的平均值作为精度值;
步骤9:通过孤立树的差异值和精度值计算出适应度值,选出适应度结果好的孤立树组成孤立森林,其中适应度可以表示孤立树是否具有较大差异值且有较好精确度;
步骤10:对于一个样本数据,让其遍历每一棵孤立树,然后计算这个样本最终落在每棵孤立树的第几层,最后得出样本在每棵孤立树的平均深度,计算每个样本的离群分数;由于样本在孤立树中的深度越小,离群分数越高,反之亦然,进而通过离群分数可以直观判断出粮情数据异常。
2.根据权利要求1所述的基于孤立森林的粮情数据离群点检测方法,其特征在于:所述的预处理包括属性规约的剔除、缺失值处理和数据归一化处理。
3.根据权利要求2所述的基于孤立森林的粮情数据离群点检测方法,其特征在于:所述的步骤9中适应度函数的构建过程为:
给定训练集Xtrain,如果树Ti能正确检测xk,则yk,i=1,否则yk,i=0,i=1,2,...,t;假设两个学习器为Ti和Tj,N00(N11)为两个学习器都判断错误或者正确的样本数量,N10为Ti判断正确而Tj判断错误的样本数量,N01则为Ti判断错误而Tj判断正确的样本数量,可以发现样本总数量N=N11+N10+N01+N00;Ti与Tj之间的差异值Qi,j:
其中,Nab表示Ti和Tj检测Xtrain中的n个样本,满足yk,i=a和yk,j=b的样本数目,k=1,2,...,n;Q表示t棵孤立树的差异矩阵;Q统计量等于0,两棵孤立树相互独立;Q统计量的取值范围是[-1,1],值越大两棵隔离树的差异度越小;
其次,用交叉验证法计算每棵孤立树的精度值;将训练数据平均分成N个相互独立的子集,每次训练时把N-1个子集作为训练样本,1个子集作为测试样本;N个子集逐一进行训练和测试,计算得到该棵孤立树的精度值P,也就是N个度量值的平均值;
由此,适应度函数为:
其中,F(Ti)表示Ti的适应度函数,Pi表示Ti的精度值,wP和wQ分别表示精确度和差异性对应的权重。
4.根据权利要求3所述的基于孤立森林的粮情数据离群点检测方法,其特征在于:为了提高优化效果,对适应度函数中两个权重采用动态变化的策略:在初始化时,权重wP和wQ均设置为0.5;在算法每次迭代后,分别计算P和Q的变化量,记为ΔP和ΔQ,而后按公式(4-6)和(4-7)更新权重:
wQ=1-wP (3)
式中,Δw是一个预定义的间隔,通常设置在10-3量级。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于河南工业大学,未经河南工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110497016.8/1.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置