[发明专利]网站聚类及漏洞扫描方法、装置、电子设备及存储介质有效
申请号: | 201811185365.0 | 申请日: | 2018-10-11 |
公开(公告)号: | CN109583211B | 公开(公告)日: | 2023-03-07 |
发明(设计)人: | 夏逢宇 | 申请(专利权)人: | 创新先进技术有限公司 |
主分类号: | G06F21/57 | 分类号: | G06F21/57;G06F18/23;G06F18/22;G06F16/958;G06F16/906 |
代理公司: | 北京汇思诚业知识产权代理有限公司 11444 | 代理人: | 汪源 |
地址: | 开曼群岛大开曼岛*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 网站 漏洞 扫描 方法 装置 电子设备 存储 介质 | ||
本公开实施例公开了一种网站聚类及漏洞扫描方法、装置、电子设备及存储介质。所述网站聚类方法包括:收集多个第一网站下的第一URL网址;确定所述第一网站下的所述第一URL网址对应的目录结构树;根据所述目录结构树的相似度将多个所述第一网站进行聚类,得到至少一个网站类别。本公开实施例能够很容易地确定该网站类别下其他网站的Web应用框架,解决了网站的Web应用框架难的问题。
技术领域
本公开涉及计算机技术领域,具体涉及一种网站聚类及漏洞扫描方法、装置、电子设备及存储介质。
背景技术
每个系统都有漏洞,不论在系统安全性上投入多少财力,攻击者仍然可以发现一些可利用的特征和配置缺陷。被攻击所造成的损失也是巨大的,如服务不可用、用户数据等敏感信息泄露等。提前对网站进行漏洞扫描发现漏洞是非常有必要的,但是对全网所有网站进行漏洞扫描所耗费的资源是非常难以令人接受的。发现漏洞所需的时间也很长,所以缩小扫描范围,有针对性扫描能节省资源的同时也能缩短发现漏洞的时间。
本公开发明人发现,网站所存在的漏洞和它所使用Web应用框架有很大的关系,特别是采用一些通用的Web应用框架。提前将网站按所使用的Web应用框架进行分类。当某个网站遭遇了漏洞攻击后,只对它当前所在的分类下的其他网站进行漏洞扫描可以大大的节省资源和时间,并且缩短发现漏洞的时间。那么最后的问题关键在于怎么判定两个网站是否采用了同一个Web应用框架。其中一个依据就是两个网站如果采用同一种Web应用框架,那么它们的目录结构或者说目录树会存在一定的相似度,对应地两个网站的目录树相似度越高这两个网站采用同一个技术框架的概率就越大。
发明内容
本公开实施例提供一种网站聚类及漏洞扫描方法、装置及计算机可读存储介质。
第一方面,本公开实施例中提供了一种网站聚类方法。
具体的,所述网站聚类方法,包括:
收集多个第一网站下的第一URL网址;
确定所述第一网站下的所述第一URL网址对应的目录结构树;
根据所述目录结构树的相似度将多个所述第一网站进行聚类,得到至少一个网站类别。
进一步地,确定所述第一网站下的所述第一URL网址对应的目录结构树之后,还包括:
对所述第一URL网址对应的目录结构树进行清洗,以剔除不属于所述第一网站采用的Web应用框架下的目录结构。
进一步地,对所述第一URL网址对应的目录结构树进行清洗,包括以下至少之一:
剔除不同的所述Web应用框架之间所通用的目录结构;
剔除与所述Web应用框架无关的目录结构;
剔除所述目录结构树中层级数大于第一预设阈值的部分;
保留所述目录结构树中出现次数最多的预定数量个目录结构。
进一步地,根据所述目录结构树的相似度将多个所述第一网站进行聚类,得到至少一个网站类别,包括:
通过遍历多个所述目录结构树,根据所述目录结构树之间的相似度确定至少一个网站类别的中心节点;
再次遍历所述目录结构树,将所述目录结构树对应的所述第一网站归类到相似度最大的中心节点所属的网站类别中。
进一步地,根据所述目录结构树之间的相似度确定至少一个网站类别的中心节点,包括:
确定当前的目录结构树与已有的所述中心节点之间的相似度是否小于第二预设阈值;其中,已有的所述中心节点的初始值为所述目录结构树中的任意一个;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于创新先进技术有限公司,未经创新先进技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811185365.0/2.html,转载请声明来源钻瓜专利网。