[发明专利]一种基于海量数据的网络行为识别方法及装置在审
申请号: | 201611146289.3 | 申请日: | 2016-12-13 |
公开(公告)号: | CN108228591A | 公开(公告)日: | 2018-06-29 |
发明(设计)人: | 兰烨;刘立兰;王涛;刘卓;王海磊;王正伟;王会娟;田川;焦林 | 申请(专利权)人: | 北京锐安科技有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;H04W4/02 |
代理公司: | 北京君尚知识产权代理事务所(普通合伙) 11200 | 代理人: | 司立彬 |
地址: | 100192 北京市海*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 有效数据 原始数据 网络行为 海量数据 提取规则 字段 存储 规则数据库 全文数据库 存储目标 目标网络 提取位置 同一记录 应用信息 用户代理 查询 记录 统计 | ||
本发明公开了一种基于海量数据的网络行为识别方法及装置。本方法为:1)从全文数据库系统中提取原始数据,并从提取的原始数据中提取公共字段和用户代理User‑Agent内容;2)根据User‑Agent内容中的应用信息在预先设定的规则数据库中查询对应的提取规则,然后根据提取规则从原始数据中提取位置信息;3)将每一原始数据的所述位置信息与所述公共字段作为一有效数据进行存储;4)统计存储的有效数据,如果同一记录i对应的有效数据不唯一,则判断该记录i对应的有效数据中的位置信息在tableL表中存在的个数C,其中,tableL表为存储目标网络行为位置信息的数据表;若C超过设定阈值,则判断具有目标网络行为。
技术领域:
本发明涉及网络安全及大数据处理领域,尤其涉及一种基于海量数据的网络行为识别方法及装置。
背景技术:
随着互联网的高速发展,数据已经渗透到每一个行业和业务职能领域,逐渐成为重要的生产因素,伴随而来的是人类可以分析和处理的海量数据。海量数据科学将成为一门专门的学科,被越来越多的人所认知。数据在人们生活中所扮演的角色,也愈来愈重要。在中型以上的城市,如北京、上海、深圳等,网民的网络行为中产生的各类数据已经超过PB级,1PB足够存储整个美国人口的DNA,而且还能再克隆2倍。LBS(Location BasedServices):又称基于位置的服务,它是通过电信移动运营商的无线电通讯网络(如GSM网、CDMA网)或外部DXXW方式(如GPS)及其他DXXW手段获取移动终端用户的位置信息(地理坐标,或大地坐标),在GIS(Geographic Information System,地理信息系统)平台的支持下,为用户提供相应服务的一种增值业务。
基于LBS的服务业务在大数据处理得到了蓬勃地发展,各种开放式API得到了广泛的使用。如Google,就为用户提供了开放式的API服务。注册用户可以根据不同的需要来使用对应的服务,如通过IP查寻经纬度、通过WIFI MAC地址查寻、通过手机基站信息查寻地址、通过经纬度查寻地址、通过地址查寻经纬度等服务。同时,各个行业的基于LBS的业务也在蓬勃开展。在进行海量数据处理,尤其是在海量数据中提取位置信息,目前进行全文检索提取相关数据信息的算法一般是采用各种分词技术。
发明内容:
本发明提供一种基于海量数据的网络行为识别方法及装置,便于民警对网民、网站行为进行监督和规范。
第一方面,本发明实施例提供了一种基于海量数据的网络行为识别方法,包括:
从全文数据库系统TRS中提取原始数据。
从提取的原始数据中提取公共字段和用户代理User-Agent内容,并从所述User-Agent内容获取需要的应用信息。
根据所述应用信息中的URL信息,按照自定义正则表达式,计算出提取规则编号。在预先设定的规则数据库中提取与计算所得编号对应的提取规则,并根据所述提取规则从所述原始数据中提取位置信息。
将所述位置信息与所述公共字段以数组的形式合并为一对多有效数据,在此组成的有效数据将在区别行为编号中使用。
将所述有效数据输出到业务数据库和/或bcp文件。
如果在数据中查询到编号为“XXX”的记录不唯一,则读取出对应的所有提取规则字段内容,并根据其中的内容计算出对应的位置信息数组L[n],从L[0]到L[n-1],用位置信息做查询,select count(*)from tableL where L[n]in tableL。查询L[n]数组中在tableL表中存在的个数C,tableL为存储目标网络行为位置信息的数据表。当C超过了客户设定的值C0,则可判断具有目标网络行为。C0可以由客户设定,大于0的任意值。
第二方面,本发明实施例还提供了一种基于海量数据的目标网络行为识别装置,其特征在于,包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京锐安科技有限公司,未经北京锐安科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201611146289.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:用于中医的数据处理系统
- 下一篇:基于二进制日志的数据归档方法及数据归档装置