[发明专利]一种基于多模态特征融合的恶意代码检测方法及系统有效
申请号: | 202210849728.6 | 申请日: | 2022-07-20 |
公开(公告)号: | CN115080973B | 公开(公告)日: | 2022-12-06 |
发明(设计)人: | 路冰;张海文;王琦博 | 申请(专利权)人: | 中孚安全技术有限公司 |
主分类号: | G06F21/56 | 分类号: | G06F21/56;G06F8/41;G06K9/62 |
代理公司: | 济南圣达知识产权代理有限公司 37221 | 代理人: | 闫伟姣 |
地址: | 250101 山东省济南市高新*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 多模态 特征 融合 恶意代码 检测 方法 系统 | ||
1.一种基于多模态特征融合的恶意代码检测方法,其特征在于,包括以下步骤:
获取训练代码样本集,所述训练代码样本集包括良性代码和恶性代码;
对其中的每个代码样本进行关键词推荐和词嵌入,得到关键词嵌入矩阵;
根据所述关键词嵌入矩阵,进行语义特征提取,得到语义表示向量;
基于关键词提取算法对每个关键词进行权重提取,连接得到代码权重向量;基于卡方检验对每个关键词进行统计量计算,连接得到代码统计向量;基于文档主题分类算法得到代码-主题矩阵和主题-词嵌入矩阵,二者相乘得到主题表示向量;
将所述代码权重向量、代码统计向量和代码主题表示向量进行加权融合,得到所述代码样本的多模态特征向量;
将所述语义表示向量和多模态特征向量进行拼接,得到所述代码样本的多模态融合特征;
基于所述训练代码样本集的多模态融合特征,进行恶意代码检测模型的训练,用于恶意代码检测。
2.如权利要求1所述基于多模态特征融合的恶意代码检测方法,其特征在于,获取训练代码样本集后,还进行剔除无效字符、去停用词以及变量名拆分预处理。
3.如权利要求1所述基于多模态特征融合的恶意代码检测方法,其特征在于,所述进行语义特征提取包括:
针对关键词嵌入矩阵,分别执行上下文语义特征提取以及最大池化操作,得到语义表示向量和关键词向量;
基于注意力机制,将所述语义表示向量和所述关键词向量进行拼接,得到语义特征矩阵。
4.如权利要求3所述基于多模态特征融合的恶意代码检测方法,其特征在于,针对关键词嵌入矩阵,执行上下文语义特征提取包括:
基于推荐的关键词进行词性标注,生成词性矩阵;
根据关键词嵌入矩阵和词性矩阵,得到特征加强词嵌入矩阵;
针对所述特征加强词嵌入矩阵,执行上下文语义特征提取,得到语义表示向量。
5.如权利要求3所述基于多模态特征融合的恶意代码检测方法,其特征在于,所述上下文语义特征提取采用基于双向门控循环单元。
6.如权利要求1所述基于多模态特征融合的恶意代码检测方法,其特征在于,所述关键词提取算法采用TF-IDF算法。
7.如权利要求1所述基于多模态特征融合的恶意代码检测方法,其特征在于,所述文档主题分类算法采用Gaussian LDA主题模型。
8.一种基于多模态特征融合的恶意代码检测系统,其特征在于,包括:
训练数据获取模块,用于获取训练代码样本集,所述训练代码样本集包括良性代码和恶性代码;
数据预处理模块,用于对其中的每个代码样本进行关键词推荐和词嵌入,得到关键词嵌入矩阵;
语义特征提取模块,用于根据所述关键词嵌入矩阵,进行语义特征提取,得到语义表示向量;
多模态特征提取模块,用于基于关键词提取算法对每个关键词进行权重提取,连接得到代码权重向量;基于卡方检验对每个关键词进行统计量计算,连接得到代码统计向量;基于文档主题分类算法得到代码-主题矩阵和主题-词嵌入矩阵,二者相乘得到主题表示向量;以及
将所述代码权重向量、代码统计向量和代码主题表示向量进行加权融合,得到所述代码样本的多模态特征向量;
多模态特征融合模块,用于将所述语义表示向量和多模态特征向量进行拼接,得到所述代码样本的多模态融合特征;
检测模型训练模块,用于基于所述训练代码样本集的多模态融合特征,进行恶意代码检测模型的训练,用于恶意代码检测。
9.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-7任一项所述的基于多模态特征融合的恶意代码检测方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-7任一项所述的基于多模态特征融合的恶意代码检测方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中孚安全技术有限公司,未经中孚安全技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210849728.6/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种仰拱钢筋骨架生产线
- 下一篇:基于数字图像检测纸币新旧的方法和装置