[发明专利]一种基于海量数据的网络行为识别方法及装置在审
申请号: | 201611146289.3 | 申请日: | 2016-12-13 |
公开(公告)号: | CN108228591A | 公开(公告)日: | 2018-06-29 |
发明(设计)人: | 兰烨;刘立兰;王涛;刘卓;王海磊;王正伟;王会娟;田川;焦林 | 申请(专利权)人: | 北京锐安科技有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;H04W4/02 |
代理公司: | 北京君尚知识产权代理事务所(普通合伙) 11200 | 代理人: | 司立彬 |
地址: | 100192 北京市海*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 有效数据 原始数据 网络行为 海量数据 提取规则 字段 存储 规则数据库 全文数据库 存储目标 目标网络 提取位置 同一记录 应用信息 用户代理 查询 记录 统计 | ||
1.一种基于海量数据的网络行为识别方法,其步骤为:
1)从全文数据库系统中提取原始数据,并从提取的原始数据中提取公共字段和用户代理User-Agent内容;
2)根据所述User-Agent内容中的应用信息在预先设定的规则数据库中查询对应的提取规则,然后根据所述提取规则从所述原始数据中提取位置信息;
3)将每一原始数据的所述位置信息与所述公共字段作为一有效数据进行存储;
4)统计步骤3)存储的有效数据,如果同一记录i对应的有效数据不唯一,则判断该记录i对应的有效数据中的位置信息在tableL表中存在的个数C,其中,tableL表为存储目标网络行为位置信息的数据表;若C超过设定阈值,则判断具有目标网络行为。
2.如权利要求1所述的方法,其特征在于,根据所述User-Agent内容中的应用信息计算出提取规则编号;然后在预先设定的规则数据库中提取该提取规则编号对应的提取规则。
3.如权利要求2所述的方法,其特征在于,原始数据中的每一记录对应一提取规则,记录与提取规则之间通过编号对应。
4.如权利要求1或2或3所述的方法,其特征在于,当所述预先设定的规则数据库中不包含与所述应用信息对应的提取规则时,使用公知通用规则从所述原始数据中提取位置信息。
5.如权利要求1或2或3所述的方法,其特征在于,将所述位置信息与所述公共字段以数组的形式合并为一对多有效数据;所述公共字段包括:数据ID、设备ID、目的端口和时间戳。
6.一种基于海量数据的网络行为识别装置,其特征在于,包括原始数据提取模块,用于从全文数据库系统中提取原始数据;应用信息获取模块,用于从提取的原始数据中提取公共字段和用户代理User-Agent内容,并从所述User-Agent内容获取应用信息;位置信息提取模块,用于根据所述应用信息在预先设定的规则数据库中提取与所述应用信息对应的提取规则,并根据所述提取规则从所述原始数据中提取位置信息;有效数据合并模块,用于将所述位置信息与所述公共字段合并为有效数据;网络行为识别模块,用于统计存储的有效数据,如果同一记录i对应的有效数据不唯一,则判断该记录i对应的有效数据中的位置信息在tableL表中存在的个数C,其中,tableL表为存储目标网络行为位置信息的数据表;若C超过设定阈值,则判断具有目标网络行为。
7.如权利要求6所述的装置,其特征在于,所述应用信息获取模块根据所述User-Agent内容中的应用信息计算出提取规则编号;然后在预先设定的规则数据库中提取该提取规则编号对应的提取规则。
8.如权利要求6或7所述的装置,其特征在于,原始数据中的每一记录对应一提取规则,记录与提取规则之间通过编号对应。
9.如权利要求6或7所述的装置,其特征在于,当所述预先设定的规则数据库中不包含与所述应用信息对应的提取规则时,所述位置信息提取模块使用公知通用规则从所述原始数据中提取位置信息。
10.如权利要求6或7所述的装置,其特征在于,所述有效数据合并模块将所述位置信息与所述公共字段以数组的形式合并为一对多有效数据;所述公共字段包括:数据ID、设备ID、目的端口和时间戳。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京锐安科技有限公司,未经北京锐安科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201611146289.3/1.html,转载请声明来源钻瓜专利网。
- 上一篇:用于中医的数据处理系统
- 下一篇:基于二进制日志的数据归档方法及数据归档装置