[发明专利]基于图神经网络的漏洞识别与预测方法、系统、计算机设备和存储介质有效

申请号：	202010053062.4	申请日：	2020-01-17
公开（公告）号：	CN111274134B	公开（公告）日：	2023-07-11
发明（设计）人：	孙小兵;曹思聪;李斌	申请（专利权）人：	扬州大学
主分类号：	G06F21/57	分类号：	G06F21/57;G06F11/36;G06N3/0442;G06N3/048;G06N3/08
代理公司：	南京理工大学专利中心 32203	代理人：	马鲁晋
地址：	225009***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于神经网络漏洞识别预测方法系统计算机设备存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种基于图神经网络的漏洞识别与预测方法、系统、计算机设备和存储介质，方法包括：构建漏洞数据集；将漏洞数据集划分为训练集和测试集；漏洞文件代码图表示；漏洞特征提取；构建预测器，并利用该预测器预测代码文件中的漏洞。系统用于实现上述方法过程，计算机设备和存储介质通过执行计算机程序能够实现上述方法过程。本发明可以更好地利用漏洞代码的语法、语义信息，充分挖掘漏洞代码与上下文的关系，并有效的识别一类漏洞，普适性和通用性更强，可以取代实际代码审计中人工制定漏洞指标的环节，使实际使用成本更低、应用领域更广、精度更高。

技术领域

本发明属于软件工程领域，特别涉及一种基于图神经网络的漏洞识别与预测方法、系统、计算机设备和存储介质。

背景技术

漏洞识别与预测是软件维护过程中的重要组成部分。近年来，随着软件项目的规模扩张和复杂度提升，在软件开发过程中出现了大量的漏洞，如何准确高效地识别并预测漏洞已成为具有相当挑战性的工作。而在之前的工作中多采用由人类专家手工制定的特征或模式被机器学习算法作为输入来检测漏洞，然而由专家手工定义一些漏洞度量(如代码大小，圈复杂度等)，成本过高且主观性较强，会导致较高的误报率和漏报率。已有的漏洞识别与预测工作大多都是面向静态分析场景的研究，没有考虑自身的语义特征。同时机器学习与深度学习发展迅速，许多模型都能为漏洞识别提供参考，但是种类繁多，没有统一高效的识别与预测模型，为进一步漏洞的修复造成了一定困难。

此外，目前已有一些工作使用机器学习的方法来识别软件漏洞的语法特征并进行漏洞的预测。如文献《To fear or not to fear that is the question:codecharacteristics of a vulnerable function with an existing exploit》中通过八个代码度量指标描述来自Linux内核和Apache HTTP服务器中的漏洞，通过机器学习的方法预测漏洞的可利用性，但还是停留在手工定义漏洞特征的层面。也有一些工作通过将图引入代码表示来以更细的粒度(函数级)来分析漏洞代码，如文献《Vulnerabilityextrapolation:assisted discovery of vulnerabilities using machine learning》中通过融合抽象语法树、控制流图以及程序依赖图形成代码属性图来表示源代码，但没有提出完整的识别预测模型。

发明内容

本发明的目的在于提供一种具有成本低、准确性高、应用范围广等特点的漏洞识别与预测方法、系统、计算机设备和存储介质。

实现本发明目的的技术解决方案为：一种基于图神经网络的漏洞识别与预测方法，包括以下步骤：

步骤1，构建漏洞数据集；

步骤2，将漏洞数据集划分为训练集和测试集；

步骤3，漏洞文件代码图表示；

步骤4，漏洞特征提取；

步骤5，构建预测器，并利用该预测器预测代码文件中的漏洞。

进一步地，步骤1所述构建漏洞数据集，具体过程包括：

步骤1-1，采集漏洞数据库NVD中的数据，包括漏洞报告；

步骤1-2，提取漏洞报告中的CWE漏洞类型标签、描述信息以及漏洞文件；

步骤1-3，利用一组与软件安全性相关的漏洞发生特征关键词和所述描述信息进行匹配，筛选出安全性漏洞，由所有安全性漏洞构成漏洞数据集。