[发明专利]使用Attention编码表示自动识别与安全相关的代码提交的方法有效

专利信息
申请号: 202110641394.9 申请日: 2021-06-09
公开(公告)号: CN113553052B 公开(公告)日: 2022-07-08
发明(设计)人: 罗飞 申请(专利权)人: 麒麟软件有限公司
主分类号: G06F8/41 分类号: G06F8/41;G06F8/65;G06F8/71;G06F21/57;G06N3/02;G06N3/08
代理公司: 北京汇智英财专利代理事务所(普通合伙) 11301 代理人: 吴怀权
地址: 300450 天津市滨海新区*** 国省代码: 天津;12
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 使用 attention 编码 表示 自动识别 安全 相关 代码 提交 方法
【说明书】:

一种使用Attention编码表示自动识别与安全相关的代码提交的方法,包括如下步骤:步骤S1:准备数据集;步骤S2:预处理数据集;步骤S3:获得Attention编码表示,得到编码向量;步骤S4:训练神经网络分类模型;步骤S5:将编码向量输入训练好的神经网络,输出识别结果。

技术领域

发明涉及神经网络数据集预处理技术领域,具体涉及一种Attention编码表示自动识别与安全相关的代码提交的方法。

背景技术

软件漏洞是指在系统的设计、实现、配置或者操作过程中造成的,可被非授权人员非法利用,对系统和数据的保密性、完整性、可用性等造成威胁的软硬件缺陷。近年来,在各种软件产品中发现和报告的漏洞数量急剧增加。目前有国际安全组织维护的公共漏洞数据库,对已发现的漏洞进行披露。然而一些软件厂商出于安全等原因并不会向官方的漏洞网站公开其发现的漏洞,而是选择在内部代码库中静默更改代码以修复漏洞,之后发行更新版本。对于非安全专业领域的用户,并不能判断发行版本是与安全相关的更新还是增强软件功能的更新。对于一些用户(例如企业级用户),由于经济等原因不宜跟进软件的每个更新版本进行升级安装。这种情况导致其系统存在安全隐患。

一种已经研发出的用于解决上述问题的方法是:将源代码存储库中的代码提交信息和日志信息视为用自然语言编写的文档,并使用自然语言处理任务中标准的文档分类方法分别对它们进行分类,最后使用投票机制将两个分类器的结果综合得到最终分类结果,从而得出该文件是否为与安全相关的提交。这种方法将源代码视为自然语言,使用NLP中独热编码方法Bag of Words将源码文件转化为向量形式,再输入线性支持向量机分类器中得到分类结果。

该技术存在如下缺点:

1)代码表征方式缺失信息:编程语言本来就是具有严格的语法结构信息,上述方案使用了Bag of Words方法标记给定单词在句子中出现的次数完全忽略句子中单词顺序的表示,损失了原本就具有规律的代码结构信息。

2)Bag of Words方法得到的表示向量通常都是高维的稀疏向量,这种输入数据通常严重影响分类器的准确率。

3)该方法将日志信息和代码信息独立地进行分类之后使用投票机制得出分类结果,这种对原始信息分类后再次计算分类结果的方法由于增加了整个流程中出现误差的概率,且没有通过训练结果反馈进行矫正的机制,因此更容易导致较低的分类准确率。

发明内容

针对现有方法表征方式缺失信息,分类准确率低等问题,本发明提供了一种使用Attention编码表示自动识别与安全相关的代码提交的方法,包括如下步骤:

步骤S1:准备数据集;

步骤S2:预处理数据集;

步骤S3:获得Attention编码表示,得到编码向量;

步骤S4:训练神经网络分类模型;

步骤S5:将编码向量输入训练好的神经网络,输出识别结果。

其中,所述步骤S1包括:

步骤S11:列出常出现漏洞的软件条目,查找其中具有开源代码库的网址;

步骤S12:根据开源代码库的网址下载软件代码库历次提交的代码信息和日志信息。

其中,所述步骤S2包括:

步骤S21,提取有意义字符,得到代码信息对应的补丁文件patch_semantic,并将日志信息标记为msg_semanic;

步骤S22,分词:使用基于Keras的英文分词工具,对日志文件msg_semantic及补丁文件patch_semantic分别进行分词提取得到msg_list及patch_list,并分别存储为msg_dict及patch_dict变量;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于麒麟软件有限公司,未经麒麟软件有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110641394.9/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top