[发明专利]一种基于多源词嵌入和知识图谱的漏洞利用风险评估方法有效
| 申请号: | 201811082594.X | 申请日: | 2018-09-17 |
| 公开(公告)号: | CN109347801B | 公开(公告)日: | 2021-03-16 |
| 发明(设计)人: | 韩波 | 申请(专利权)人: | 武汉大学 |
| 主分类号: | H04L29/06 | 分类号: | H04L29/06;G06F16/36 |
| 代理公司: | 武汉科皓知识产权代理事务所(特殊普通合伙) 42222 | 代理人: | 魏波 |
| 地址: | 430072 湖*** | 国省代码: | 湖北;42 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 多源词 嵌入 知识 图谱 漏洞 利用 风险 评估 方法 | ||
1.一种基于多源词嵌入和知识图谱的漏洞利用风险评估方法,其特征在于,包括以下步骤:
步骤1:根据信息安全知识图谱,构建网络安全相关的数据源本体,然后从不同在线数据源中实时获取最新的在线信息;
所述构建网络安全相关的数据源本体,由软硬件信息以及漏洞和攻击模式信息构成漏洞利用的技术基础和条件;由社交媒体和黑客论坛的跟踪发帖及分析,分析黑客及其相关组织的动态,从而获得了漏洞利用发起主体的信息以及目前他们关注的漏洞,从而获取可能采用的利用技术和途径;通过发帖中表达的交易信息估测攻击对象和攻击时间;通过收集的网络安全事件和实体获取事件的属性信息,通过这些信息获取黑客可能采用的跳板,从而获取攻击的途径;
所述不同在线数据源包括CVE、CWE、CAPEC、NVD、CVSS漏洞库与攻击模式库;软硬件公司及其产品漏洞、缺陷及相应补丁公告、网络安全公司公告、暗网、社交媒体与博客;
步骤2:对获取的数据进行预处理并进行词向量化;
具体实现包括以下子步骤:
步骤2.1:清理无关数据信息;通过格式化内容定位方法清除与网络安全主题内容无关的干扰信息;
步骤2.2:剔除无关词语;
对于文本数据,通过信息安全知识图谱,将常用的与网络安全无关的词语通过无关词词典的方法筛选剔除,然后保留那些特殊的并且上下文也和网络安全实体和事件相关的词语,进而通过实体识别方法确定其所代表的人、事、物;
步骤2.3:组合生成词向量;采用基于词嵌入的CBOW和Skip-gram算法生成词向量,存入数据库中用于进一步的处理;
步骤3:把预处理后进行词向量化的数据依据知识图谱映射为一个实体与实体之间的关系图;
步骤3的具体实现过程是,根据步骤1中从不同在线数据源中获取的信息,抽取出实体和事件,以及它们与信息安全知识图谱中其他相关实体和事件之间的关系,从而将片段信息按照一个漏洞利用的发展逻辑进行结构化组织,进而进行分析;
步骤4:结合历史数据集合和知识图谱构建漏洞利用风险评估模型,进行漏洞利用风险评估,输出风险评估结果,并给出漏洞利用风险的评估依据;
所述漏洞利用风险的评估依据包括:信息来源的可靠性;实体与实体、实体与事件、事件与事件之间的同现概率;信息安全领域词汇的出现频率;时间序列;
所述信息来源的可靠性,其计算过程为:设与实体Mi相连的实体或事件有M1i,M2i,……,Mji,……Mni,每个连接的模糊影响值为hji,那么Mi的可靠性值ai计算为:ai←M1ih1i+M2ih2i+......+Mnihni;
在风险评估中,通过已发生的漏洞利用事件构成的训练集合以及随机森林模型识别出存在具有被利用风险的漏洞,并通过分析其可能利用过程,综合风险推理模型、风险统计分析模型、安全专家推断模型给出漏洞利用风险的评估依据。
2.根据权利要求1所述的基于多源词嵌入和知识图谱的漏洞利用风险评估方法,其特征在于,步骤3的具体实现包括以下子步骤:
步骤3.1:特征提取;将预处理后的不同规格数据用文本挖掘方法进行特征提取;
步骤3.2:特征对齐,使得每一个同一类特征使用同一的标准去衡量和表示;
步骤3.3:识别出特征中存在的实体;
步骤3.4:根据网络安全领域词典,对实体按照漏洞、缺陷、攻击模型、软硬件产品等不同类别进行分类和归并;
步骤3.5:根据知识图谱对实体以及实体间的关系建模。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉大学,未经武汉大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811082594.X/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种浓缩型洗涤剂组合物
- 下一篇:一种移动照明系统





