[发明专利]一种基于大数据的异常行为检测的方法与系统有效
申请号: | 202111474046.3 | 申请日: | 2021-12-06 |
公开(公告)号: | CN113887674B | 公开(公告)日: | 2022-03-22 |
发明(设计)人: | 邵俊;张孜勉;万友平 | 申请(专利权)人: | 深圳索信达数据技术有限公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 北京市隆安律师事务所 11323 | 代理人: | 杨云 |
地址: | 518063 广东省深圳市南山区粤海街道*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 数据 异常 行为 检测 方法 系统 | ||
本发明公开了一种基于大数据的异常行为检测的方法与系统,其中所述方法包括:获取海量待训练数据,并将所述海量待训练数据导入第一存储器;对所述第一存储器中的海量待训练数据进行预处理得到第一数据集;基于所述第一数据集生成二叉森林,所述二叉森林为由若干二叉树构成的集合,所述二叉树基于所述第一数据集的子集获取;基于所述二叉森林进行异常行为检测。本发明可以提升有效超平面的生成效率,并通过对超平面进行评分,剔除精度较低的超平面,以降低内存占用,提升了运算速度、稳定性和可解释性。
技术领域
本发明属于异常检测方法领域,尤其涉及一种基于大数据的异常行为检测的方法与系统。
背景技术
在生产制造、医疗或金融等诸多领域,都会遇到需要对海量数据进行自动化异常检测的问题。从大量的数据样本和数据维度中找到异常点,有助于我们快速识别可能存在异常的样本。由于这些异常样本往往具有极少的标签,所以当前主流且效果较好的模型仍然是无监督模型,例如iForest模型,该模型由于高效且不依赖于具体数据分布,而被业内广泛使用。如现有专利号为ZL202010025249.3的中国发明专利,其公开一种基于iForest模型验证的SMT焊点缺陷检测方法。通过将图像样本进行局部二值模式值及边缘检测,得到二值模式纹理特征向量,根据构建并验证的孤立森林模型得到准确的训练样本,对异常样本进行筛选,以此构建准确的BP神经网络模型,进而获得焊点的缺陷检测结果。该现有专利虽然能够采用图像处理技术,及孤立森林模型的快速准确划分技术对样本数据进行筛选,提高对样本数据的准确性,并通过构建的BP神经网络模型完成焊点图片的质量评定,对焊点形成起到精准地控制。
但是仍存在以下问题:首先由于每次只能使用单一特征数据来对决策树进行划分,这样的划分通常导致难以在有限树深度的限制下隔离出异常点,导致结果出现较大偏差;其次该算法需要构建大量的随机树,占用大量的内存资源。
发明内容
针对上述现有技术中存在的缺陷,本发明提供一种基于大数据的异常行为检测的方法,包括以下步骤:
获取海量待训练数据,并将所述海量待训练数据导入第一存储器;
对所述第一存储器中的海量待训练数据进行预处理得到第一数据集;
基于所述第一数据集生成二叉森林,所述二叉森林为由若干二叉树构成的集合,所述二叉树基于所述第一数据集的子集获取;
基于所述二叉森林进行异常行为检测。
进一步的,所述第一数据集包括N个训练样本和m个特征数据。
进一步的,所述二叉树基于所述第一数据集的子集获取,具体包括:
在所述N个训练样本中随机选取n个样本,其中N大于或等于n;
为所述m个特征数据分配第一权重概率;
基于所述第一权重概率,随机生成基于所述n个样本的超平面;
基于所述超平面对所述n个样本进行划分,形成二叉树。
进一步的,为所述m个特征数据分配第一权重概率,具体包括:
对每一个特征数据,计算其维度熵,记特征
将随机选取的b个样本p,依据特征
则该特征数据对应的维度熵为:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳索信达数据技术有限公司,未经深圳索信达数据技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111474046.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种具有自展开折叠铰链的双模块可展开张拉整体结构
- 下一篇:一种控制旋钮
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置