[发明专利]一种基于学习模型可触发性的代码语义冗余度量验证方法在审
| 申请号: | 202211088884.1 | 申请日: | 2022-09-07 |
| 公开(公告)号: | CN116301875A | 公开(公告)日: | 2023-06-23 |
| 发明(设计)人: | 伍军;邵长捷;裴蓓;李高磊;林夕 | 申请(专利权)人: | 上海交通大学;公安部第三研究所 |
| 主分类号: | G06F8/41 | 分类号: | G06F8/41;G06F16/35;G06F21/56;G06N3/044;G06N3/08 |
| 代理公司: | 上海科盛知识产权代理有限公司 31225 | 代理人: | 夏健君 |
| 地址: | 200240 *** | 国省代码: | 上海;31 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 学习 模型 触发 代码 语义 冗余 度量 验证 方法 | ||
本发明涉及一种基于学习模型可触发性的代码语义冗余度量验证方法,包括以下步骤:合成混合代码数据集,包含恶意代码和非恶意代码,将该混合代码数据集分为训练集和测试集;在训练集中插入触发器并作为第一训练集,对第一训练集进行代码语义表征,利用对抗扰动投毒,获取中毒的代码语义表征结果,并将中毒的代码语义表征结果处理为特征向量,将该特征向量输入良性神经网络模型进行训练,获取后门神经网络模型;在测试集中插入触发器,获取第一测试集,对第一测试集进行处理后,输入到后门神经网络模型中,根据后门神经网络模型的输出结果验证输入样本中是否包含语义冗余空间。与现有技术相比,该发明能够准确验证并度量代码数据的语义冗余空间。
技术领域
本发明涉及软件分析技术领域,尤其是涉及一种基于学习模型可触发性的代码语义冗余度量验证方法。
背景技术
近年来,软件规模及其复杂度不断上升,使得基于人工手段进行代码审计、逆向分析以及漏洞挖掘的成本增大。深度学习技术凭借从海量数据中快速挖掘特征的能力而被应用于软件代码动静态分析和漏洞自动化检测等领域。基于深度神经网络(Deep NeuralNetwork,DNN)的代码分析能够理解代码逻辑的复杂语义,突破了传统代码分析技术在高假阳性率/假阴性率上的瓶颈问题,因而比传统的代码分析方法具有更高的准确率。对于多语言、跨平台、逻辑嵌套的代码样本,基于深度学习的代码分析从大量代码样本中自动挖掘信息流特征,从而代替人工数据流与控制流的表示和解析。比如,利用循环神经网络处理具有上下文关系的序列化代码文本,理解代码文本的语义从而提升漏洞检测的精度和效率。
然而,在将源代码编译为可执行文件的过程中,源代码以及其复杂的中间表示会产生大量与代码逻辑无关的语义冗余。并且,代码逻辑和软件形态之间的一对多映射会误导深度学习模型捕捉软件样本的非共同特征,即在对代码语义进行表征和转化过程中产生的冗余空间很容易遭受因文本后门攻击而导致的安全威胁。
后门攻击是利用在输入样本上添加触发器而实现的,所添加的触发器如果处在语义冗余空间,其攻击成功率将具有更强的隐蔽性和更高的成功率。如果能够验证并度量代码数据的语义冗余空间,并相应对语义冗余空间进行压缩,就能降低代码数据因文本后门攻击导致的安全威胁。但现有技术,缺少一种能够验证并度量语义冗余空间的技术方法,使得现有技术的代码数据仍处于因文本后门攻击导致的安全威胁中。
发明内容
本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种基于学习模型可触发性的代码语义冗余度量验证方法,该发明能够准确验证并度量代码数据的语义冗余空间。
本发明的目的可以通过以下技术方案来实现:
本发明提供一种基于学习模型可触发性的代码语义冗余度量验证方法,用于对从目标代码数据转化到特征向量的过程中所产生的语义冗余空间进行验证和度量,包括以下步骤:
S1:生成混合代码数据集,该混合代码数据集包括非恶意代码数据集和恶意代码数据集,将该混合代码数据集分为训练集和测试集;
S2:在训练集中插入触发器并作为第一训练集,对第一训练集进行代码语义表征,在代码语义表征过程中进行投毒,获取中毒的代码语义表征结果,并将中毒的代码语义表征结果处理为特征向量,将该特征向量输入良性神经网络模型进行训练,获取后门神经网络模型;
S3:在测试集中插入触发器,获取第一测试集,对第一测试集依次进行代码语义表征和处理操作后,输入后门神经网络模型,根据后门神经网络模型的输出结果判断从目标代码数据转化到特征向量的过程中是否产生语义冗余空间。
优选地,所述S2包括以下步骤:
S2.1:遍历训练集中所有的代码数据,确定插入触发器的代码数据,并将触发器插入该代码数据的语义冗余空间,获取第一训练集;
S2.2:对第一训练集进行代码语义表征,在代码语义表征过程中进行投毒,获取中毒的代码语义表征结果;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海交通大学;公安部第三研究所,未经上海交通大学;公安部第三研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211088884.1/2.html,转载请声明来源钻瓜专利网。





