[发明专利]一种恶意PDF文档检测方法在审
申请号: | 202011536712.7 | 申请日: | 2020-12-23 |
公开(公告)号: | CN112464239A | 公开(公告)日: | 2021-03-09 |
发明(设计)人: | 肖树根;胡建勋 | 申请(专利权)人: | 中科信息安全共性技术国家工程研究中心有限公司 |
主分类号: | G06F21/56 | 分类号: | G06F21/56 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 100080 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 恶意 pdf 文档 检测 方法 | ||
一种恶意PDF文档检测方法包括查询已知文件数据库并确认待检测PDF文档是否有检测记录,如有,直接输出检测结果并结束检测;如在已知文件数据库中未检测到待检测PDF文档的检测记录,提取待检测PDF文档中的恶意攻击载荷代码并作为静态检测和动态检测的输入。有益效果在于:本发明提出的检测方法和装置不仅在静态检测部分针对代码混淆做了处理,提高了静态检测的准确率和可靠性;还结合了动态检测部分,可以检测出未知的恶意PDF文档;动态检测使用基于Libemu的仿真模拟法,相比使用虚拟机的方案速度更快,开销更小;动态检测的结果通过反馈可以进一步加强静态检测的效果。本发明实现简单,模块分离,易于系统集成。
技术领域
本发明涉及检测技术领域,尤其是一种恶意PDF文档检测方法。
背景技术
恶意PDF文档是指包含了恶意代码的PDF文档。当恶意PDF文档被打开时,包含于其中的恶意代码就会执行攻击行为——例如修改、窃取用户的敏感数据,控制用户的操作系统等。与传统的恶意代码相比,嵌入到PDF文档中的恶意代码攻击手法更加隐蔽,因此传统的反病毒软件难以对其进行有效的检测[1-3]。
早期使用的检测方法是一种通用的文档检测方法。通过将文档看作一个连续的字节序列,提取其连续的n个字节(n-gram)作为分析特征,对比正常恶意文档与正常文档在特征上的差别来检测恶意PDF文档。由于恶意PDF文档的攻击载荷是内嵌的JavaScript代码,直接从文档提取特征进行检测的准确率和效率都很低。而且,恶意PDF文档中内嵌的恶意JavaScript代码很多都进行了混淆处理,使得直接从全文档提取特征的检测方法几乎不再适用。
公开号为 CN105095756A的专利公开了一种可移植文档格式文档的检测方法和装置,该技术的特点是从训练PDF文档的文件结构中提取特征值,所述训练PDF文档包括包含攻击代码的恶意PDF文档;然后将所述特征值通过机器学习算法进行学习生成模型;通过所述检测模型预测待检测PDF文档是否为恶意PDF文档。该检测方法存在一定的缺陷,主要表现在:检测方法和装置只包含静态检测方法,如果恶意PDF文档内嵌的JavaScript代码经过混淆,那么直接从中提取特征不具备代表性,生成的检测模型检测效果也就不理想;而且利用机器学习的算法进行学习生成检测模型的过程需要一定量的恶意样本,如果样本量太小,学习生成的模型便不具备普适性;而大量样本的搜集本身存在一定的困难,大量样本的学习过程的收敛速度也很慢。
公开号为CN103294954A 的专利公开了一种基于频谱分析的复合文档恶意代码检测技术与系统,该检测技术将静态的复合文档二进制数据转换成相位谱;然后对相位谱的均匀度、相位值、频谱宽度等特征进行自动提取;接着设计对照试验,构造大量对照组,统计出一般性差异制定判定准则的方法;通过分析相位谱特征检测复合文档是否包含恶意代码。该方案存在的缺陷表现为:该专利技术方案是通过对整个文档的二进制数据进行频谱分析,没有单纯针对PDF文档,也没有针对文档中的恶意代码。这种方法虽然对几乎任何文档都适用,但是由于恶意PDF文档的恶意内容几乎都只存在于其内嵌的JavaScript代码,而与具体的文档内容无关,分析整个文档的频谱意义不大。而且,由于JavaScript代码混淆的存在,将对频谱分析的结果产生较为严重的干扰。
公开号为CN105117648A的专利公开了一种基于虚拟机的0day/恶意文档检测系统及方法,该检测系统包含文档执行模块、Ring3虚拟机模块、Shellcode检测模块、Exception检测模块、ROP检测模块、日志模块,能动态检测加载在Ring3虚拟机上的文档进程;首先,加载所需检测文档的进程徐行在Ring3虚拟机上;然后各模块进行实时检测,日志检测模块将检测结果保存到日志文件并判断该文档是否为恶意文档。该技术方案存在缺陷表现为:该检测系统实质上是对恶意PDF文档的一种动态检测,对于每个文档的检测都需要在虚拟机中完成下面一系列步骤:打开PDF文档;分析各个检测模块的结果;恢复虚拟机初始环境。这种检测方法的时间开销很大,几乎比静态检测所需的时间多一个数量级;而且需要搭建专门的虚拟机环境,成本较高,检测系统不易于集成。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中科信息安全共性技术国家工程研究中心有限公司,未经中科信息安全共性技术国家工程研究中心有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011536712.7/2.html,转载请声明来源钻瓜专利网。