[发明专利]一种情报数据融合方法与装置有效

专利信息
申请号: 202110588184.8 申请日: 2021-05-27
公开(公告)号: CN113254641B 公开(公告)日: 2021-11-16
发明(设计)人: 任传伦;王淮;刘晓影;乌吉斯古愣;俞赛赛;张先国;王玥 申请(专利权)人: 中国电子科技集团公司第十五研究所;中国电子科技集团公司第三十研究所
主分类号: G06F16/35 分类号: G06F16/35;G06F40/295;G06K9/62
代理公司: 北京丰浩知识产权代理事务所(普通合伙) 11781 代理人: 李学康
地址: 100083 北*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 情报 数据 融合 方法 装置
【说明书】:

发明提供了一种情报数据融合方法与装置,采用决策树ID3算法训练生成Smart规则,通过对原始网络情报数据进行实体提取、实体分类、属性识别和属性提取,自动选择融合规则,实现网络情报数据的融合。本发明主要目的在于解决现有情报数据融合效率低、融合效果参差不齐的问题,实现对网络情报数据的高效、快速、标准化融合,降低网络情报数据融合对领域专家知识的依赖度。

技术领域

本发明涉及网络安全技术领域,特别是涉及一种情报数据融合方法与装置。

背景技术

情报数据融合主要是对新增情报数据进行处理,实现新增情报数据的实体和属性值的入库。情报数据融合是对情报数据进行实体融合、属性融合等操作,将实体和属性值以新增或更新的方式融合到既有情报库中。

目前,针对情报数据融合的方法主要是以程序脚本对实体和属性值进行校验,人工提取实体和属性值,结合领域专家知识采用后台或前台可视化操作等方式,手动将网络情报数据保存到情报库中。这种方法需要人工介入进行新增数据的写入,对数据属性的校验均需要专家参与,从而实现情报数据融合。由于该方法需要大量人工操作,对领域专家过度依赖,且面对海量情报数据时难以在有限时间内完成数据融合,导致情报数据的融合效率低、融合效果因人而异。

发明内容

有鉴于此,本发明提供的一种情报数据融合方法与装置,主要目的在于解决现有情报数据融合效率低、融合效果参差不齐的问题。本发明的方法避免了对领域专家的过度依赖、减轻了繁重的人工操作,依据网络情报数据来源广泛、属性缺失、可信度低等特点,设计Smart规则,实现网络情报数据快速、自动化融合。

根据本发明一个方面,提供了一种情报数据融合方法,该方法包括步骤:S1对原始网络情报数据进行预处理,获得符合情报库数据模型的结构化数据;S2采集大量所述结构化数据并对其中每一条数据进行融合方式的标注,形成训练数据;使用训练数据对决策树模型进行机器学习训练,获得Smart规则决策树模型;S3将所述结构化数据输入Smart规则决策树模型,获取所述结构化数据与所述情报库数据模型的融合规则;S4根据所述融合规则将所述结构化数据写入所述情报库。

作为本发明的进一步改进,所述使用训练数据对决策树模型进行机器学习训练具体为使用决策树ID3分类算法进行训练。

作为本发明的进一步改进,所述预处理包括:S101实体提取:对所述原始网络情报数据中的情报实体进行识别,及提取和保存实体字段;S102实体分类:对所述情报实体进行分类,根据所述情报库数据模型的约束将所述实体字段映射到所述情报库数据模型上;S103属性识别:识别所述情报实体的实体属性;S104属性提取:将所述实体属性与所述情报库数据模型进行匹配,对匹配吻合的所述实体属性进行属性值的提取和处理,形成格式化的实体属性数据。

作为本发明的进一步改进,所述训练数据具体为:定义m类所述情报实体,定义n类所述情报实体的实体属性;对每一条所述原始网络情报数据进行预处理,形成所述结构化数据为m+n维数据向量;所述融合方式的标注分为对所述情报实体融合方式的标注以及对所述实体属性融合方式的标注;所述情报实体融合方式为数据覆盖写入、数据新增写入和重复数据丢弃;所述实体属性融合方式为数据覆盖写入、数据新增写入、重复数据丢弃、数据追加写入和部分替换写入。

作为本发明的进一步改进,所述使用决策树ID3分类算法进行训练具体为:步骤一:对所述训练数据计算获取当前信息熵,计算各所述n个实体属性下的分支信息熵,根据所述分支信息熵计算条件熵,进而分别计算n个属性的信息增益,从中选择所述信息增益最大的属性作为决策点并加入决策树;步骤二:将所述信息增益最大的属性列数据从所述训练数据中移除,对当前训练数据重复步骤一,直至全部实体属性均加入决策树。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国电子科技集团公司第十五研究所;中国电子科技集团公司第三十研究所,未经中国电子科技集团公司第十五研究所;中国电子科技集团公司第三十研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110588184.8/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top