[发明专利]一种基于信息增益和共现矩阵的恶意代码可视化方法在审
| 申请号: | 202310012222.4 | 申请日: | 2023-01-05 |
| 公开(公告)号: | CN115935360A | 公开(公告)日: | 2023-04-07 |
| 发明(设计)人: | 彭海朋;尹成睿 | 申请(专利权)人: | 北京邮电大学 |
| 主分类号: | G06F21/56 | 分类号: | G06F21/56;G06F8/53;G06V10/764;G06N3/08 |
| 代理公司: | 北京挺立专利事务所(普通合伙) 11265 | 代理人: | 高福勇 |
| 地址: | 100876 *** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 信息 增益 矩阵 恶意代码 可视化 方法 | ||
本发明公开了一种基于信息增益和共现矩阵的恶意代码可视化方法,首先基于信息增益筛选低维的操作码特征,然后基于共现矩阵生成可视化图像用于分类,将操作码序列转换成图像,通过共现矩阵使相似内容具有可比性,即相似的内容将具有相似的操作码词频共现频率,根据信息增益提取出能够有效区分不同家族的操作码,这样才会更好地表现出恶意代码的家族特征,会更有区分性。同时挖掘了操作码词频信息,在共现潜在语义信息基础上,剔除了文本冗余的词频信息,对词频特征项进行筛选和充分运用,进一步分析恶意代码家族的相关性,进而提升了分类效果和检测效率。
技术领域
本发明涉及恶意代码分析技术领域,尤其涉及一种基于信息增益和共现矩阵的恶意代码可视化方法。
背景技术
恶意软件是指任何对计算机和网络存在着潜在危害的计算机软件。目前,恶意代码的数量和变体逐年增加,并且制作技术发展迅速,对全球网络环境安全带来巨大威胁。
尽管恶意代码衍生了大量变体,但同类恶意家族代码中的核心具有相似性与传承性。这种变体会导致基于签名的检测方法失效,但将恶意代码可视化为图像不会从本质上改变图像纹理及结构特征,该方式能有效对抗恶意代码混淆。与人工提取特征向量相比,恶意代码图像包含丰富、几乎全部的恶意代码信息。无论是通过图像结构、纹理与颜色分析(局部特征和全局特征提取),还是通过深度学习算法自动学习图像特征,恶意代码可视化都能最大程度上减少混淆技术带来的影响。
恶意代码可视化方法包括可视化为灰度图像和可视化为彩色图像。目前,将恶意代码可视化为灰度图像是检测恶意代码的主流方法,以下对常见的灰度可视化方法进行具体介绍。
Nataraj矢量化是利用恶意的二进制文件进行编码,然后将原来的二进制序列分割为8比特的子序列。因为每一个恶意代码家族都含有不同的攻击类型,造成可视化图像有大小的差异,因此通过固定图像宽度,将恶意代码可视化为长条状的灰度图像,Nataraj矢量化的思路和B2M的思路是一致的,它已经在恶意代码的检测中得到了广泛的使用。Han等在Nataraj向量化的基础上加入熵图,并通过熵图来进一步判定其相似性,并对其进行了改进和完善。
在2015年黑帽大会上,Davis等人将十六进制的反编译文件转化成4-bit的二进制并填充到64bit,其中每位二进制乘以255,对应像素灰度值0或255。通过该方法,可以把一个恶意代码变成一个仅包含0到255像素的灰度图,图像每一行矢量都对应一条机器码。蒋永康等还对编码长度、编码量等因素的选取作了深入探讨,并给出具体的深度学习模型。
Ni等提出一种MCSC方法,将操作码序列和LSH相结合,获取汇编指令中的操作码序列,并使用SimHash与双线性插值法将操作码序列转换为恶意代码图像;因为恶意代码变体通过该方式可视化的图像在某些区域存在相似的指纹,所以通过图像处理技术识别同类恶意代码变体具有可行性。
乔延臣等人利用编译程序指令词向量对恶意程序进行可视化,该算法首先获取到编译程序,把指令当作词,函数看作句子,从而把恶意代码文件转换为文档,然后对文档使用Word2Vec算法获取汇编指令词向量,统计训练集中Top100的汇编指令,据此将每个文档转换为矩阵,最后归一化矩阵得到可视化的灰度图像。
相比恶意代码灰度图像,将恶意代码可视化为彩色图像既保留了灰度主要特征,又强调了二进制文件中重复出现的数据片段,使得同类恶意家族的彩色图像具有相似的纹理、颜色与结构特征。如王博等将恶意代码二进制序列分割成RGB三通道值,从而将恶意代码可视化为彩色图像,由于并不是每个恶意代码的比特位都是24比特的整数倍,所以不足24比特的用1补足,但是,该方法的不足之处在于模型过于复杂,且参数量大、训练效率不高。
综上所述,虽然现有的静态恶意代码检测和分类方法已经取得了一定的成就,然而目前的恶意代码可视化方案还存在特征冗余以及时间成本高的弊端,且基于二进制文件灰度图受到样本大小的影响,不同的样本可视化图像尺寸不同,这也给后续的分类带来了不便。
发明内容
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京邮电大学,未经北京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310012222.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:磁棒组件及核酸提取仪
- 下一篇:电荷泵及芯片
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置





