[发明专利]一种基于孤立森林的粮情数据离群点检测方法在审

专利信息
申请号: 202110497016.8 申请日: 2021-05-07
公开(公告)号: CN113327172A 公开(公告)日: 2021-08-31
发明(设计)人: 李智慧;吴建军;刘廷凤;甄彤;张仲凯;徐辉 申请(专利权)人: 河南工业大学
主分类号: G06Q50/02 分类号: G06Q50/02;G06F16/22;G06N20/00;G01D21/02
代理公司: 河南大象律师事务所 41129 代理人: 张辉
地址: 450001 河南省郑*** 国省代码: 河南;41
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 孤立 森林 数据 离群 检测 方法
【权利要求书】:

1.一种基于孤立森林的粮情数据离群点检测方法,其特征在于:包括如下步骤:

步骤1:对采集好的粮情数据进行数据预处理,使得粮情数据便于分析处理;

步骤2:将步骤1处理好的粮情数据作为输入值,并初始化孤立森林;

步骤3:对步骤2中的输入数据,随机选择若干个样本点作为子样本集,放入树的根节点;

步骤4:随机指定一个维度,在当前节点数据中随机产生一个切割点,这个切割点产生于当前节点数据中指定维度的最大值和最小值之间;

步骤5:以步骤四随机产生的切割点生成一个超平面,然后将当前节点数据的空间划分为2个子空间:把当前节点数据中指定维度中小于步骤4中产生的切割点的数据放在当前节点的左边,把大于等于步骤4中产生的切割点的数据放在当前节点的右边;

步骤6:在子节点中递归步骤4和步骤5,不断构造新的子节点,直至满足终止条件;所述的终止条件有两个,第一个是数据本身不可再分,即只包括一个样本,或者全部样本相同;第二个是树的深度达到最大深度;

步骤7:通过步骤3到步骤6,构造得到的若干棵孤立树,引入Q统计量法计算任意两棵孤立树之间的差异值,Q统计量的值在[-1,1]之间变化,值越小,表示两棵孤立树的差异度越大;

步骤8:用交叉验证法计算每棵孤立树的精度值:具体的,将输入数据集划分为互不相交的N个子集,每次用N-1个子集进行训练,剩余的一个子集进行测试,最终把N个度量值的平均值作为精度值;

步骤9:通过孤立树的差异值和精度值计算出适应度值,选出适应度结果好的孤立树组成孤立森林,其中适应度可以表示孤立树是否具有较大差异值且有较好精确度;

步骤10:对于一个样本数据,让其遍历每一棵孤立树,然后计算这个样本最终落在每棵孤立树的第几层,最后得出样本在每棵孤立树的平均深度,计算每个样本的离群分数;由于样本在孤立树中的深度越小,离群分数越高,反之亦然,进而通过离群分数可以直观判断出粮情数据异常。

2.根据权利要求1所述的基于孤立森林的粮情数据离群点检测方法,其特征在于:所述的预处理包括属性规约的剔除、缺失值处理和数据归一化处理。

3.根据权利要求2所述的基于孤立森林的粮情数据离群点检测方法,其特征在于:所述的步骤9中适应度函数的构建过程为:

给定训练集Xtrain,如果树Ti能正确检测xk,则yk,i=1,否则yk,i=0,i=1,2,...,t;假设两个学习器为Ti和Tj,N00(N11)为两个学习器都判断错误或者正确的样本数量,N10为Ti判断正确而Tj判断错误的样本数量,N01则为Ti判断错误而Tj判断正确的样本数量,可以发现样本总数量N=N11+N10+N01+N00;Ti与Tj之间的差异值Qi,j

其中,Nab表示Ti和Tj检测Xtrain中的n个样本,满足yk,i=a和yk,j=b的样本数目,k=1,2,...,n;Q表示t棵孤立树的差异矩阵;Q统计量等于0,两棵孤立树相互独立;Q统计量的取值范围是[-1,1],值越大两棵隔离树的差异度越小;

其次,用交叉验证法计算每棵孤立树的精度值;将训练数据平均分成N个相互独立的子集,每次训练时把N-1个子集作为训练样本,1个子集作为测试样本;N个子集逐一进行训练和测试,计算得到该棵孤立树的精度值P,也就是N个度量值的平均值;

由此,适应度函数为:

其中,F(Ti)表示Ti的适应度函数,Pi表示Ti的精度值,wP和wQ分别表示精确度和差异性对应的权重。

4.根据权利要求3所述的基于孤立森林的粮情数据离群点检测方法,其特征在于:为了提高优化效果,对适应度函数中两个权重采用动态变化的策略:在初始化时,权重wP和wQ均设置为0.5;在算法每次迭代后,分别计算P和Q的变化量,记为ΔP和ΔQ,而后按公式(4-6)和(4-7)更新权重:

wQ=1-wP (3)

式中,Δw是一个预定义的间隔,通常设置在10-3量级。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于河南工业大学,未经河南工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110497016.8/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top