[发明专利]一种网络资产数据处理方法在审
申请号: | 202111087368.2 | 申请日: | 2021-09-16 |
公开(公告)号: | CN113779936A | 公开(公告)日: | 2021-12-10 |
发明(设计)人: | 杨韬;何保林;陈江川;马晓宇;邓红莉 | 申请(专利权)人: | 西华师范大学 |
主分类号: | G06F40/151 | 分类号: | G06F40/151;G06F16/35;G06F40/289;G06F16/29;G06N20/00 |
代理公司: | 西安铭泽知识产权代理事务所(普通合伙) 61223 | 代理人: | 张举 |
地址: | 637009 *** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 网络 资产 数据处理 方法 | ||
本发明提供一种网络资产数据处理方法,包括以下步骤:通过word2vec中的skip‑gram二层神经网络载入语料库进行词向量训练获取词向量模型;对网络资产原始数据进行文本特征列遍历,将遍历的行文本进行分词,采用自适应算法依次通过所述词向量模型匹配单词的词向量;取匹配到的词向量的均值作为文本向量,获取向量化文本列,加入聚类向量数组;对聚类向量数组进行去重,通过Kmeans‑SSE算法将聚类向量数组中的向量化文本列进行聚类,其聚类类标作为文本的转换数值。该方法将探测获得的网络资产数据转换为可供机器学习算法训练的数值数据集。
技术领域
本发明涉及网络探测技术领域,具体涉及网络资产数据处理方法。
背景技术
网络资产相关数据主要来自于网络资产探测。网络资产探测是指追踪并掌握网络资产状态的过程,目前,网络资产探测技术主要包括基于人工统计或客户端的传统探测方法,与基于网络扫描主动探测、网络流量分析被动探测、搜索引擎非入侵式探测等新型探测方法。随着网络设备的愈发多样与探测技术的不断进步,所采集的资产信息数据日益丰富,因而探测获取的资产数据开始呈现为特征类型异构多样,文本数据繁杂的集合。
目前对网络资产数据的应用与研究,主要是为网络测绘融合分析提供设备信息;为网络安全监控与威胁态势感知提供系统认知基础;为入侵检测系统与安全威胁分析的针对性防御提升效率;为知识图谱提供基础数据等。进行数据处理时,通常使用Neo4j等高性能图引擎导入节点与关系,生成对应的网络图进行观察标注;或只取对相关任务有用的特征进行使用。然而网络资产数据的使用价值绝不仅如此,若能充分利用其获取的特征,将其有效地与机器学习算法相结合,从而进行更深层次的规律学习,网络安全将会在机器学习领域得到强大的技术支持。因此,使用机器学习算法对网络资产进行研究有着重大意义。
然而,由于探测数据的特殊性,将其以能被机器学习算法训练为目的,进行数值转换时,缺乏一种统一全面且有效的转换模式,由此数据无法便捷广泛地适用于机器学习。
为此,本发明提出了一种新的网络资产数据处理方法。
发明内容
为解决上述问题,本发明的目的在于提供一种网络资产数据处理方法。该方法将探测获得的网络资产数据转换为可供机器学习算法训练的数值数据集。
为实现上述目的,本发明提供了如下的技术方案。
一种网络资产数据处理方法,包括以下步骤:
通过word2vec中的skip-gram二层神经网络载入语料库进行词向量训练获取词向量模型;
对网络资产原始数据进行文本特征列遍历,将遍历后文本特征的行文本进行分词,采用自适应算法通过词向量模型匹配单词的词向量;将匹配到的词向量的均值作为文本向量,获取向量化文本列,加入聚类向量数组;
对聚类向量数组进行去重,通过Kmeans-SSE算法将聚类向量数组中的向量化文本列进行聚类,其聚类类标作为文本的转换数值。
优选地,还包括对网络资产数据时间类型数据的转换,包括以下步骤:
对网络资产原始数据中的时间类型数据中的日期与时分秒进行分列,将其中的日期转为时间戳形式,时分秒转为数值0-23;所述时间类型数据包括样本探测时间,资产工作时间,资产存在时间,其为日期加时分秒的结构型数据。
优选地,还包括对网络资产数据IP型特征数值的转换,包括以下步骤:
对网络资产原始数据中的IP型特征数值中的每段转为十六进制,按顺序连接为一段十六进制数值,将该段十六进制数值转为十进制的数值。
优选地,还包括对网络资产数据经纬度信息的转换,包括以下步骤:
对网络资产原始数据中的坐标型特征的数值中的经纬度信息,将经纬度信息进行分列,获取对应的地理位置数值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西华师范大学,未经西华师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111087368.2/2.html,转载请声明来源钻瓜专利网。