[发明专利]检测数据集中异常的装置和方法以及它们相应的计算机程序产品有效
申请号: | 201880095812.5 | 申请日: | 2018-07-20 |
公开(公告)号: | CN112470131B | 公开(公告)日: | 2023-02-07 |
发明(设计)人: | 瓦列里·尼古拉耶维奇·格卢霍夫;张亮;潘继雨 | 申请(专利权)人: | 华为技术有限公司 |
主分类号: | G06F11/34 | 分类号: | G06F11/34 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 518129 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 检测 数据 集中 异常 装置 方法 以及 它们 相应 计算机 程序 产品 | ||
本发明涉及数据处理领域,且更具体而言,涉及用于通过使用两种或多种异常检测算法来检测数据集中异常的装置和方法以及它们相应的计算机程序产品。根据本发明,通过使用两种或多种异常检测算法所获得的结果根据特定组合规则进行组合,从而提供具有更高准确性的异常检测。
技术领域
本发明涉及数据处理领域,且更具体而言,涉及用于通过使用两种或多种异常检测算法来检测数据集中异常的装置和方法以及它们相应的计算机程序产品。
背景技术
异常检测是指识别出无法确认预期行为模式的数据项或与数据集中的其它(正常)数据项不对应的数据项。目前,异常检测算法的用途非常广泛,例如,股票市场中的欺诈检测、计算机或通信网络中的恶意活动检测、软件或硬件中的故障检测、医学中的疾病检测等。
异常可以简单地分为与感兴趣事件相关的异常以及与感兴趣事件无关的异常。后一种异常,也称为虚假异常,可能对用户体验有负面影响,导致误告警,因此在搜索数据集中的前异常时须将其排除出考虑范围。为此,可以应用特定的异常检测算法来计算一定数量的重要异常并按异常重要性降序显示这些重要异常,从而允许用户手动滤除虚假异常。然而,这种手动工作不仅耗时而且还需具有特定使用领域的扎实知识。
为了降低虚警率,可以使用两种或多种异常检测算法相互配合以对感兴趣数据集中的每个数据项给出平均异常分数。通过将异常检测算法与无监督学习和监督学习等传统机器学习技术相结合,至少可以避免部分手动工作。同时,所有已知的异常检测系统均无法提供足够的准确性,并且仍然依赖于用户定义的规则,这些规则可能会根据特定的使用领域而变化。
因此,仍然需要一种新的解决方案,来减轻或甚至消除现有技术所特有的上述缺点。
发明内容
本发明内容简单地介绍了一系列概念,这些概念将在下文进一步详细描述。本发明内容并非旨在识别所要求保护的主题的关键特征或必要特征,也非旨在用于限制所要求保护的主题的范围。
本发明的目的是提供一种技术解决方案以提高异常检测准确性并最小化用户参与。
上述目的通过所附权利要求书中的独立权利要求的特征来实现。根据所附权利要求书、详细描述和附图,进一步的实施例和示例将显而易见。
根据第一方面,提供了一种检测数据集中异常的装置。所述装置包括至少一个处理器以及耦合到所述至少一个处理器并存储可执行指令的存储器。所述指令在执行时使得所述至少一个处理器:接收包括多个数据项的数据集,其中至少一个数据项异常;并选择至少两种异常检测算法。然后,通过使用所述至少两种异常检测算法中的每一种,指示所述至少一个处理器:计算所述数据项中每一项的异常分数;基于所述异常分数获得所述数据项的部分排序,所述部分排序使得所述数据项被分成对应于不同中间等级区间的子集;基于所述部分排序选择描述每个子集中各数据项的中间等级的概率模型;并且基于所述概率模型为每个子集中的所述数据项的每一项的中间等级分配信度。接下来,指示所述至少一个处理器按照预定义的组合规则同时使用所述至少两种异常检测算法,通过组合所获得的所述数据项中每一项的中间等级的信度来获得所述中间等级的总信度。之后,指示所述至少一个处理器将所述数据项的中间等级的总信度转换为描述所述数据项的预期等级的概率分布函数。进一步指示所述至少一个处理器根据所述数据项的所述预期等级对所述数据项进行排序,并在排序后的所述数据项中找出至少一个异常数据项。这样可以以更准确、更稳健的方式检测异常,而无需使用特定知识领域特有的专家规则。
在所述第一方面的一种实施形式中,所述至少一个处理器用于基于所述数据项所属的使用领域来选择所述至少两种异常检测算法。根据所述第一方面所述的装置能够在不同的使用领域中进行同样操作,因而提供了使用的灵活性。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华为技术有限公司,未经华为技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201880095812.5/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置