[发明专利]大数据环境下WEB异常检测方法、系统及服务器有效

申请号：	201811257486.1	申请日：	2018-10-26
公开（公告）号：	CN109508542B	公开（公告）日：	2019-11-22
发明（设计）人：	马旸;蔡冰;罗雅琼;姚力	申请（专利权）人：	国家计算机网络与信息安全管理中心江苏分中心
主分类号：	G06F21/55	分类号：	G06F21/55;G06F1/20;G06F11/30;G06F16/955
代理公司：	32224 南京纵横知识产权代理有限公司	代理人：	董建林<国际申请>=<国际公布>=<进入
地址：	210000 江苏省南京市建***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	逻辑回归模型异常检测大数据服务器过滤规则匹配入侵检测漏报率向量化构建误报响应
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种大数据环境下WEB异常检测方法，包括正常URL逻辑回归模型构建，具体过程为：采用N‑Gram模型，获取正常URL里的关键词列表；采用TfidfVectorizer函数把每个正常URL里的关键词做TF‑IDF，得到向量化的特征；训练正常URL逻辑回归模型；异常检测，具体过程为：通过训练好的正常URL逻辑回归模型，过滤HTTP请求，若HTTP请求中的URL为正常URL，则响应HTTP请求。同时也公开了相应的系统和服务器。本发明的方法通过正常URL逻辑回归模型过滤HTTP请求，解决了传统基于规则匹配的web入侵检测，误报和漏报率高的问题。

技术领域

本发明涉及一种大数据环境下WEB异常检测方法、系统及服务器，属于WEB异常检测领域。

背景技术

检测SQL注入，往小方面说是能够识别出SQL注入流量，往大方面说是检测WEB异常流量，能够检测SQL注入、XSS、恶意POC等异常流量，完成WAF的功能。

传统web入侵检测技术通过维护规则集对入侵访问进行拦截。一方面，硬规则在灵活的黑客面前，很容易被绕过，且基于以往知识的规则集难以应对0day攻击，规则写的太宽泛易误杀，写的太细易绕过。另一方面，攻防对抗水涨船高，防守方规则的构造和维护门槛高、成本大，规则库维护困难，人员交接工作，甚至时间一长，原作者都很难理解当初写的规则，一旦有误报发生，上线修改都很困难。因此现有基于规则匹配的web入侵检测，误报和漏报率高。

发明内容

本发明提供了一种大数据环境下WEB异常检测方法、系统及服务器，解决了传统方式误报和漏报率高的问题。

为了解决上述技术问题，本发明所采用的技术方案是：

大数据环境下WEB异常检测方法，包括以下步骤，

正常URL逻辑回归模型构建，具体过程为：

101）采用N-Gram模型，获取正常URL里的关键词列表；

102）采用TfidfVectorizer函数把每个正常URL里的关键词做TF-IDF，得到向量化的特征；

103）训练正常URL逻辑回归模型；

异常检测，具体过程为：

通过训练好的正常URL逻辑回归模型，过滤HTTP请求，若HTTP请求中的URL为正常URL，则响应HTTP请求。

还包括异常URL逻辑回归模型构建，具体过程为：

201）采用N-Gram模型，获取异常URL里的关键词列表；