[发明专利]一种基于Hadoop平台的网络主机漏洞扫描新方法有效

专利信息
申请号: 202210864734.9 申请日: 2022-07-21
公开(公告)号: CN115118519B 公开(公告)日: 2023-07-28
发明(设计)人: 张广兴;姜海洋;朱连涛;田利荣;涂楚;夏可强;李博 申请(专利权)人: 江苏省未来网络创新研究院
主分类号: H04L9/40 分类号: H04L9/40
代理公司: 北京卓岚智财知识产权代理有限公司 11624 代理人: 时修丽
地址: 210000 江苏*** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 hadoop 平台 网络 主机 漏洞 扫描 新方法
【权利要求书】:

1.一种基于MapReduce引擎的任务调度器,其特征在于,包括能够动态地分配计算资源,将任务分发到空闲的计算资源中,能够增加任务的可靠性,错误的任务会通过任务调度器重新下发至空闲资源;

具体包括以下步骤:

S21、基于MapReduce计算引擎,读取配置库的任务列表,获取各节点计算资源,包括cpu数量、内存数量;

S22、部署基于Hadoop平台的数据清洗器,包括将大量扫描报文中重复、无效、误报的数据快速清洗掉,最后按照Hbase定义的格式分布式存储在集群中;

该数据清洗器具体包括以下步骤:

S11、根据用户下发的配置,构建MapReduce任务,Hadoop会根据任务量分布式下发多个MapReduce任务,这些任务会对相应的主机发起探测,并接受探测的结果,接受的结果有ip(IP地址)、port(端口)、protocol(端口协议)、application(应用/服务)、version(应用版本)、result_key(各协议访问返回结果key)、result_cache(访问结果缓存);

S12、提取历史数据的各相关的IP、端口、应用、版本、扫描结果,通过TF-IDF算法提取出各对应的关键字,并保存到存储集群中;

S13、缺失值数据的处理,这里使用热卡填充法对缺失值处理,当前某IP、端口、应用对应的扫描结果缺失时,使用Levenshtein 距离算法计算出缺失值与历史库中距离最近的关键词,然后将距离最近并排在缺失值前的值作为代替方案;

S14、异常值数据的处理,基于历史扫描数据,建立了各种端口、服务、版本对应key的探测结果关键字库基线集合,比如key1关键字集合包含value1、value2等关键字集合,属于异常值的直接删除,并且会持续不断更新历史基线集合;

S15、去重处理,删除掉相同IP、端口、应用、版本所对应的扫描结果,做去重处理;

S16、入库处理,将清洗完成的数据格式化入库存储集群中;

根据步骤S13中IP总数量(numIps)、各节点剩余cpu数量(c1、c2、c3)、各节点内存大小(m1、m2、m3),根据公式计算需要分割的IP细粒度,公式为:numIps/(a*(c1+c2+c3)+b*(m1+m2+m3)),其中a,b为cpu与内存的权重系数,本文中该计算方法称为IP细粒度均衡算法;

S23、计算IP细粒度后,再根据DRF资源分配算法,依次将拆分的子任务提交MapReduce;

S24、每个子任务会加载被分配的脚本插件,每个运行插件会根据需要去上述存储集群中取需要的扫描缓存结果,一个子任务完成会通知任务分配器并将漏洞检测结果入库;

S25、如上述的子任务扫描过程中因为网络或者程序异常报错,会通知任务管理器任务失败,任务管理器发现任务列表中数量够多或者等待时间到,会再次执行上述步骤S21,这样依次递推直到任务完成为止。

2.根据权利要求1所述的一种基于MapReduce引擎的任务调度器,其特征在于,所述步骤S12中,所述TF-IDF算法具体包括如下内容:

设某词数量为A,该段扫描结果单词数量为B,计算TF=A/B,设语料库文档总数C,包含改词的文档数D,计算IDF=log(C/(D+1)),计算每个词的(TF−IDF)值,并降序排序,取排在前面的几个词。

3. 根据权利要求1所述的一种基于MapReduce引擎的任务调度器,其特征在于,所述步骤S13中,所述Levenshtein 距离算法具体包括如下内容:

设A单词各字母为A1、A2、A3至AN,B单词各字母为B1、B2、B3至BN,构造矩阵[Ai,Bj],A[1…i]修改到B[1…j]所需操作数为op1 +1,删掉字符A[i]的操作数op2 +1,A[i]A[i]替换成A[i′]=B[j]的操作数op3 +1,字符串A[1…i]修改成字符串B[1…j]所需操作数为min {op1 +1, op2 +1, op3+1(ai ≠bi) },选择操作数最小的补充缺失值。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于江苏省未来网络创新研究院,未经江苏省未来网络创新研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202210864734.9/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top