[发明专利]一种异常样本的识别方法、装置及存储介质在审

专利信息
申请号: 201811182208.4 申请日: 2018-10-11
公开(公告)号: CN109902704A 公开(公告)日: 2019-06-18
发明(设计)人: 于群;李刚;吴奇彬 申请(专利权)人: 华为技术有限公司
主分类号: G06K9/62 分类号: G06K9/62
代理公司: 北京同达信恒知识产权代理有限公司 11291 代理人: 冯艳莲
地址: 518129 广东*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 测试样本 输出结果 随机投影 样本 存储介质 分布信息 训练过程 样本识别 正样本 正整数 申请
【说明书】:

本申请提供一种异常样本识别方法、装置和存储介质。其中方法包括将测试样本分别输入至N个随机投影模型,得到N个第一输出结果,针对N个第一输出结果中的第i个第一输出结果,根据第i个第一输出结果和第i个随机投影模型对应的结果分布信息,确定测试样本在第i个随机投影模型的异常度,根据确定的测试样本的N个异常度,确定测试样本是否为异常样本,结果分布信息是根据将M个正样本输入至第i个随机投影模型得到的M个第二输出结果确定的,i从1取到N,M和N均为正整数。如此,不需要对随机投影模型进行训练即可实现确定测试样本是否为异常样本,有助于避免现有技术中在确定测试样本是否为异常样本时对模型的训练过程。

技术领域

本申请涉及数据处理领域,尤其涉及一种异常样本的识别方法、装置及存储介质。

背景技术

随着云时代的来临,大数据也吸引了越来越多的关注。大数据的应用领域也越来越广泛,例如人工智能领域等。在大数据应用时,通常会对大数据进行分析,在大数据分析中,经常需要对异常样本进行识别,以去除异常样本,通过去除异常样本可提升大数据分析的准确性。

目前,样本的识别方法主要是基于建立的模型来识别的,例如高斯混合模型,该识别方式需要建立模型,并通过正样本集对模型进行反复训练,确定出最终的模型,然后基于确定出的最终模型来确定待测样本集中的样本是否为异常样本,然而该方法需要对模型进行训练,且模型训练过程计算复杂度比较高。

综上,目前异常样本的识别方法中模型训练过程计算复杂度比较高,因此亟需相应解决方案。

发明内容

本申请提供一种异常样本的识别方法、装置及存储介质,以实现在不需要对模型进行训练来确定出测试样本是否为异常样本。

第一方面,本申请提供一种异常样本识别方法,该方法包括将测试样本分别输入至N个随机投影模型,得到N个第一输出结果,针对N个第一输出结果中的第i个第一输出结果,根据第i个第一输出结果和第i个随机投影模型对应的结果分布信息,确定测试样本在第i个随机投影模型的异常度,其中,第i个随机投影模型对应的结果分布信息是根据将M个正样本输入至第i个随机投影模型得到的M个第二输出结果确定的,i从1取到N,N和M均为正整数;根据确定的测试样本的N个异常度,确定测试样本是否为异常样本。

基于该方案,通过确定测试样本在N个随机投影模型中的N个异常度,然后根据该N个异常度来确定测试样本是否异常样本。如此,不需要对N个随机投影模型进行训练即可实现确定测试样本是否为异常样本,从而实现了在不需要对模型进行训练时也可以确定测试样本是否为异常样本,因而有助于提升异常样本的识别效率。

在一种可能的实现方式中,若确定的测试样本的N个异常度之和大于第一阈值,则确定测试样本为异常样本;或者,若确定的测试样本的N个异常度之和不大于第一阈值,则确定测试样本为正常样本。

在另一种可能的实现方式中,若确定测试样本的N个异常度中从大到小排序在前K个的异常度的和大于第二阈值,则确定测试样本为异常样本;或者,若确定测试样本的N个异常度中从大到小排序在前K个的异常度的和不大于第二阈值,则确定测试样本为正常样本。如此,可以提高识别异常度的准确性;其中,K为不大于N的正整数。

本申请基于两种分布结果信息提供了相应地确定所述测试样本在所述第i个随机投影模型的异常度的方式,具体可以为:

分布结果信息一,所述第i个随机投影模型对应的结果分布信息为所述M个第二输出结果中的最小值和最大值。则基于分布结果信息一,在一种可能的实现方式中,若第i个第一输出结果大于最大值或小于最小值,则确定测试样本在第i个随机投影模型的异常度为第一值;或者,若第i个第一输出结果不大于最大值且不小于最小值,则确定测试样本在第i个随机投影模型的异常度为第二值。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华为技术有限公司,未经华为技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201811182208.4/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top