[发明专利]基于海量数据全文检索的行为异常识别方法及装置有效
申请号: | 202011502950.6 | 申请日: | 2020-12-18 |
公开(公告)号: | CN112579728B | 公开(公告)日: | 2023-04-18 |
发明(设计)人: | 王虎;何卫;赵跃东 | 申请(专利权)人: | 成都民航西南凯亚有限责任公司 |
主分类号: | G06F16/31 | 分类号: | G06F16/31;G06F16/33;G06F16/35;G06F18/214;G06N20/00 |
代理公司: | 成都诚中致达专利代理有限公司 51280 | 代理人: | 曹宇杰 |
地址: | 611137 四*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 海量 数据 全文 检索 行为 异常 识别 方法 装置 | ||
一种基于海量数据全文检索的行为异常识别方法及装置,方法包括步骤;接收分布式应用服务集群发送的日志,并进行暂存;将暂存的日志通过消息通道发送给订阅端,订阅端实时消费发来的消息,将实时数据和离线数据存入数据存储模块;通过机器学习方式将实时数据输入异常检测模型进行异常检测学习训练,生成异常识别中间结果;结合异常维度规则信息,根据异常识别中间结果以及异常用户设备ID对应的离线数据,通过全文检索与统计算法计算输出异常识别结果数据。将无监控学习与有监控学习相结合,提高了分析的灵活度,加强了异常识别的合理性,适用于分布式高频度非结构化数据异常行为自动分析场景,能做到PB级海量数据异常识别并及时止损。
技术领域
本发明涉及异常行为自动分析技术,尤其与一种基于海量数据全文检索的行为异常识别方法及装置有关。
背景技术
随着企业业务的不断发展,分布在全国及全球的用户时刻产生大量的非结构化数据,对企业中这些非结构数据进行异常识别分析的相关技术在当前得到了较为广泛的应用。
目前,主流异常分析方法基本是基于某一种算法和较为有限的手段对数据进行异常分析,分析结果的准确性难以评估,根据模型自动分析的结果需要人工对相关数据进行核实才能确认异常属实,分析手段缺乏灵活性,当分析需求变更时存在可能重新开发的诸多问题。
发明内容
本发明主要针对上述相关现有技术的不足与缺陷,提供一种基于海量数据全文检索的行为异常识别方法及装置,通过部署采集日志、暂存日志、订阅日志、存储实时数据及离线数据,并利用机器学习进行异常中间结果识别,利用全文检索与统计算法计算输出异常识别结果数据,并提供可视化结果展示,准确性更好,与具体业务的结合具有更好的灵活性,形成一套适合多种复杂业务逻辑的非结构化数据场景下的异常识别分析平台,能做到PB级海量数据异常识别。
为了实现上述目的,本发明采用以下技术:
一种基于海量数据全文检索的行为异常识别方法,包括步骤;
接收从分布式应用服务集群发送的用户操作日志,并对接收的日志进行暂存;
将暂存的日志通过消息通道发送给消息订阅端,消息订阅端用于实时消费发来的消息,并通过配置索引策略将数据实时解析并存入数据存储模块作为实时数据,同时通过配置索引策略将数据按天切割为离线数据存入数据存储模块;
通过机器学习方式将数据存储模块存储的实时数据和/或离线数据输入异常检测模型进行异常检测学习训练,生成异常识别中间结果;异常识别中间结果包括预测出的异常用户设备ID及对应的操作特征异常数据;
结合预设的异常维度规则信息,根据异常识别中间结果以及数据存储模块中存储的与异常用户设备ID对应的离线数据,通过全文检索与统计算法计算输出异常识别结果数据。
进一步,数据存储模块包括由Elasticsearch集群构建的实时数据单元和离线数据单元,实时数据单元用于存储实时数据,离线数据单元用于存储离线数据;
数据存储模块采用Elasticsearch ILM索引生命周期管理功能通过以天为单位的策略将离线数据划分为热、暖、冷、删除四个阶段进行管理;
数据存储模块采用X-Pack插件的Kibana完成对实时数据和离线数据的管理。
进一步,通过机器学习方式将数据存储模块存储的数据输入异常检测模型进行异常检测学习训练,生成异常识别中间结果,包括步骤:
通过创建流水线及异常检测器,生成多指标异常检测任务;
多指标异常检测任务调用算法库及相应异常检测模块的接口,结合指数平滑模型及融合聚类、时序分解、贝叶斯分布建模和相关性分析算法,对实时数据建立异常检测模型,从时间、地点、人员、交互类型及交互的内容多个维度对输入的实时数据进行无监控学习,生成包含异常结果的索引数据,作为预测的异常识别中间结果;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于成都民航西南凯亚有限责任公司,未经成都民航西南凯亚有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011502950.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种页面的拼装方法及装置
- 下一篇:一种废料快速剪切液压控制系统
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置