[发明专利]一种多源异构网络安全知识图谱构建方法及装置在审
| 申请号: | 202011059788.5 | 申请日: | 2020-09-30 |
| 公开(公告)号: | CN112131882A | 公开(公告)日: | 2020-12-25 |
| 发明(设计)人: | 章瑞康;袁军;周娟;李文瑾 | 申请(专利权)人: | 绿盟科技集团股份有限公司;北京神州绿盟科技有限公司 |
| 主分类号: | G06F40/295 | 分类号: | G06F40/295;G06F40/284;G06N3/04;G06N3/08 |
| 代理公司: | 北京同达信恒知识产权代理有限公司 11291 | 代理人: | 王媛媛 |
| 地址: | 100089 北京*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 多源异构 网络安全 知识 图谱 构建 方法 装置 | ||
本发明公开了一种多源异构网络安全知识图谱构建方法及装置,包括:响应于构建网络安全知识图谱的触发请求,根据预设网络安全知识本体定义的实体和实体间的关系,从半结构化数据集和结构化数据集中抽取相匹配的实体和实体间的关系生成三元组;根据实体的不同类别按照预设识别方式从非结构化数据集中识别与网络安全知识本体定义的实体相匹配的实体,非结构化数据集中的数据为文本数据;将文本数据输入词向量识别模型中,获得各实体的词向量;将根据预设规则选择的实体对及对应的词向量输入关系抽取模型,获得各实体对之间的关系,根据各实体对及对应的词向量、各实体对之间的关系生成融合实体的词向量的三元组;根据各三元组构建网络安全知识图谱。
技术领域
本发明涉及信息安全技术领域,尤其涉及一种多源异构网络安全知识图谱构建方法及装置。
背景技术
随着大数据时代的发展和网络安全环境的日趋复杂,网络攻击事件频发,为了确保网络空间安全,企业通过部署防火墙、入侵检测、入侵保护等多种业务系统监测网络中的安全威胁,从病毒、攻击、漏洞、脆弱性等多个层面进行实时监测,产生了大量的告警信息、监测日志等网络安全事件数据。同时,网络中存在大量与网络安全相关的信息和知识,例如网络安全漏洞数据集CVE(Common Vulnerabilities and Exposures,公共漏洞和暴露)、CNNVD(China National Vulnerability Database of Information Security,国家信息安全漏洞库),网络攻击类型数据集CAPEC(Common Attack Pattern Enumeration andClassification,通用攻击模式枚举和分类),网络攻击技术数据集ATTCK(AdversarialTactics,Techniques,and Common Knowledge,对抗性战术、技术和公共知识,用于反映各个攻击生命周期的行为),网络资产数据集CPE(Common Platform Enumeration,通用平台枚举),还有来自如网络安全厂商、安全分析员发布的安全事件报告、安全社区博客等威胁情报文本数据。这些海量碎片化异构形式的网络安全数据之间缺少一定的联系,网络威胁情报分析人员难以对其进行获取和整合,从而不能进行全面准确的安全分析。
知识图谱(Knowledge Graph)本质上是一种揭示实体之间关系的语义网络,其以图的形式存储知识,旨在从数据中识别、发现和推断事物、概念之间的复杂关系,是事物关系的可计算模型,以接近人类认知学习的方式进行逻辑关系组织推理,数据关系可视化显示。知识图谱主要基于半结构化数据和非结构化数据进行构建,利用知识图谱技术可以整合网络安全、威胁情报相关信息,解决多源异构数据共享重用困难的问题,协助网络安全分析人员全面直观地进行安全分析。
在多源异构网络安全知识图谱的构建过程中,数据集的选取不够全面,如基于半结构化数据构建网络安全知识图谱,仅从安全漏洞数据集、网络攻击类型数据集等半结构化数据中抽取信息来构建知识图谱,其中,抽取信息即知识抽取,包括:实体识别和关系抽取,但是现实中大多数威胁情报信息不会第一时间以结构化的数据形式存在,一些安全厂商或者安全研究人员会通过报告、博客文章等非结构化数据来发布最新的威胁情报信息,因此,仅基于安全漏洞数据集、网络攻击类型数据集等半结构化数据来抽取信息构建网络安全知识图谱往往不能及时纳入最新的威胁情报信息,不能更全面更具时效性地提供关联分析,需要同时在半结构化数据集以及非结构化数据集中抽取信息来构建网络知识图谱。然而,现有技术中,从非结构化数据集中抽取实体时主要使用基于规则匹配的方法,抽取关系时主要使用基于CRF(Conditional Random Field,条件随机场)的方法,对于网络安全领域中复杂的、以及新出现的、或者中英文混合的网络安全实体抽取的实体特征不足而导致识别准确率较低,进而,影响构建的网络安全知识图谱的可信度。
发明内容
为了解决现有技术中由于知识抽取准确率低以及抽取的知识不够全面而导致构建的多源异构网络安全知识图谱的可信度较低的问题,本发明实施例提供了一种多源异构网络安全知识图谱构建方法及装置。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于绿盟科技集团股份有限公司;北京神州绿盟科技有限公司,未经绿盟科技集团股份有限公司;北京神州绿盟科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011059788.5/2.html,转载请声明来源钻瓜专利网。





