[发明专利]一种基于Hadoop平台的网络主机漏洞扫描新方法有效
申请号: | 202210864734.9 | 申请日: | 2022-07-21 |
公开(公告)号: | CN115118519B | 公开(公告)日: | 2023-07-28 |
发明(设计)人: | 张广兴;姜海洋;朱连涛;田利荣;涂楚;夏可强;李博 | 申请(专利权)人: | 江苏省未来网络创新研究院 |
主分类号: | H04L9/40 | 分类号: | H04L9/40 |
代理公司: | 北京卓岚智财知识产权代理有限公司 11624 | 代理人: | 时修丽 |
地址: | 210000 江苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 hadoop 平台 网络 主机 漏洞 扫描 新方法 | ||
1.一种基于MapReduce引擎的任务调度器,其特征在于,包括能够动态地分配计算资源,将任务分发到空闲的计算资源中,能够增加任务的可靠性,错误的任务会通过任务调度器重新下发至空闲资源;
具体包括以下步骤:
S21、基于MapReduce计算引擎,读取配置库的任务列表,获取各节点计算资源,包括cpu数量、内存数量;
S22、部署基于Hadoop平台的数据清洗器,包括将大量扫描报文中重复、无效、误报的数据快速清洗掉,最后按照Hbase定义的格式分布式存储在集群中;
该数据清洗器具体包括以下步骤:
S11、根据用户下发的配置,构建MapReduce任务,Hadoop会根据任务量分布式下发多个MapReduce任务,这些任务会对相应的主机发起探测,并接受探测的结果,接受的结果有ip(IP地址)、port(端口)、protocol(端口协议)、application(应用/服务)、version(应用版本)、result_key(各协议访问返回结果key)、result_cache(访问结果缓存);
S12、提取历史数据的各相关的IP、端口、应用、版本、扫描结果,通过TF-IDF算法提取出各对应的关键字,并保存到存储集群中;
S13、缺失值数据的处理,这里使用热卡填充法对缺失值处理,当前某IP、端口、应用对应的扫描结果缺失时,使用Levenshtein 距离算法计算出缺失值与历史库中距离最近的关键词,然后将距离最近并排在缺失值前的值作为代替方案;
S14、异常值数据的处理,基于历史扫描数据,建立了各种端口、服务、版本对应key的探测结果关键字库基线集合,比如key1关键字集合包含value1、value2等关键字集合,属于异常值的直接删除,并且会持续不断更新历史基线集合;
S15、去重处理,删除掉相同IP、端口、应用、版本所对应的扫描结果,做去重处理;
S16、入库处理,将清洗完成的数据格式化入库存储集群中;
根据步骤S13中IP总数量(numIps)、各节点剩余cpu数量(c1、c2、c3)、各节点内存大小(m1、m2、m3),根据公式计算需要分割的IP细粒度,公式为:numIps/(a*(c1+c2+c3)+b*(m1+m2+m3)),其中a,b为cpu与内存的权重系数,本文中该计算方法称为IP细粒度均衡算法;
S23、计算IP细粒度后,再根据DRF资源分配算法,依次将拆分的子任务提交MapReduce;
S24、每个子任务会加载被分配的脚本插件,每个运行插件会根据需要去上述存储集群中取需要的扫描缓存结果,一个子任务完成会通知任务分配器并将漏洞检测结果入库;
S25、如上述的子任务扫描过程中因为网络或者程序异常报错,会通知任务管理器任务失败,任务管理器发现任务列表中数量够多或者等待时间到,会再次执行上述步骤S21,这样依次递推直到任务完成为止。
2.根据权利要求1所述的一种基于MapReduce引擎的任务调度器,其特征在于,所述步骤S12中,所述TF-IDF算法具体包括如下内容:
设某词数量为A,该段扫描结果单词数量为B,计算TF=A/B,设语料库文档总数C,包含改词的文档数D,计算IDF=log(C/(D+1)),计算每个词的(TF−IDF)值,并降序排序,取排在前面的几个词。
3. 根据权利要求1所述的一种基于MapReduce引擎的任务调度器,其特征在于,所述步骤S13中,所述Levenshtein 距离算法具体包括如下内容:
设A单词各字母为A1、A2、A3至AN,B单词各字母为B1、B2、B3至BN,构造矩阵[Ai,Bj],A[1…i]修改到B[1…j]所需操作数为op1 +1,删掉字符A[i]的操作数op2 +1,A[i]A[i]替换成A[i′]=B[j]的操作数op3 +1,字符串A[1…i]修改成字符串B[1…j]所需操作数为min {op1 +1, op2 +1, op3+1(ai ≠bi) },选择操作数最小的补充缺失值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于江苏省未来网络创新研究院,未经江苏省未来网络创新研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210864734.9/1.html,转载请声明来源钻瓜专利网。