[发明专利]病毒文件的聚类划分处理方法和装置有效
| 申请号: | 201110226879.8 | 申请日: | 2011-08-09 |
| 公开(公告)号: | CN102930206A | 公开(公告)日: | 2013-02-13 |
| 发明(设计)人: | 于涛 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
| 主分类号: | G06F21/56 | 分类号: | G06F21/56 |
| 代理公司: | 北京德琦知识产权代理有限公司 11018 | 代理人: | 谢安昆;宋志强 |
| 地址: | 518044 广东省深圳*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 病毒 文件 划分 处理 方法 装置 | ||
1.一种病毒文件的聚类划分处理方法,其特征在于,该方法包括:
A、静态分析待划分病毒文件的二进制数据,从中分析出病毒文件的可移植可执行PE结构数据;
B、比较所述待划分病毒文件的PE结构数据,将PE结构数据符合指定相似度的病毒文件划分到同一类别中。
2.根据权利要求1所述的处理方法,其特征在于,步骤B具体包括:
B1、将第一个病毒文件作为一个新类的中心文件;
B2、将下一病毒文件的PE结构数据依次与各类的中心文件的PE结构数据进行比较,如果该病毒文件与某类中心文件的PE结构数据符合指定相似度,则将该病毒文件划分到该类中,并执行步骤B3;如果该病毒文件与各类中心文件的PE结构数据相比都不符合指定相似度,则将该病毒文件作为一个新类的中心文件,并执行步骤B3;
B3、判断是否还有下一个病毒文件,如果有则返回执行步骤B2;否则结束本流程。
3.根据权利要求2所述的处理方法,其特征在于,所述步骤B中进一步包括:
判断各类中的病毒文件数是否处于一指定的数值范围,如果是,则重新确定该类的中心文件。
4.根据权利要求3所述的处理方法,其特征在于,所述重新确定类的中心文件的方法具体为:
比较该类中各个病毒文件之间的PE结构数据的相似度,将每个病毒文件与其它病毒文件的PE结构数据的相似度相加得到相似度之和,将所述相似度之和最大的病毒文件作为该类的中心文件。
5.根据权利要求1至4任一项所述的处理方法,其特征在于,所述PE结构数据为下述三种数据中的任一项或任意项的组合:
DOS头、PE头、节表信息。
6.根据权利要求1所述的处理方法,其特征在于,该方法进一步对步骤B划分出的每个类中的病毒文件进行二次聚类划分;针对步骤B所划分的同一类别中的病毒文件,所述二次聚类划分具体包括:
C1、静态分析每个病毒文件的二进制数据,分析出病毒文件的节数据;
C2、采用相同的分块方式对每个病毒文件的节数据进行分块处理,计算每个节数据块的哈希值;
C3、比较病毒文件之间节数据块的哈希值,将节数据块哈希值符合指定的哈希相似度的病毒文件划分到一个二级类中。
7.根据权利要求6所述的处理方法,其特征在于,步骤C3具体包括:
C31、将第一个病毒文件作为一个新二级类的中心文件;
C32、将下一病毒文件的节数据块的哈希值依次与各二级类的中心文件的节数据块的哈希值进行比较,如果该病毒文件的节数据块哈希值与某二级类中心文件的节数据块哈希值符合所述指定的哈希相似度,则将该病毒文件划分到该二级类中,并执行步骤C33;如果该病毒文件的节数据块哈希值与各二级类中心文件的节数据块哈希值相比都不符合指定的哈希相似度,则将该病毒文件作为一个新二级类的中心文件,并执行步骤C33;
C33、判断是否还有下一个病毒文件,如果有则返回执行步骤C32;否则结束本步骤C3的流程。
8.根据权利要求7所述的处理方法,其特征在于,所述步骤C3中进一步包括:
判断各二级类中的病毒文件数是否处于一指定的数值范围,如果是,则重新确定该二级类的中心文件。
9.根据权利要求8所述的处理方法,其特征在于,所述重新确定二级类的中心文件的方法具体为:
比较该二级类中各个病毒文件之间的节数据块哈希值的相似度,将每个病毒文件与其它病毒文件的节数据块哈希值的相似度相加得到哈希相似度之和,将所述哈希相似度之和最大的病毒文件作为该二级类的中心文件。
10.根据权利要求6至9任一项所述的处理方法,其特征在于,所述确定病毒文件之间节数据块哈希值是否符合指定的哈希相似度的具体方法为:
比较两个病毒文件的各个对应节数据块的哈希值,如果哈希值相同的节数据块的个数超过指定的阈值,则判定该两个病毒文件之间的节数据块哈希值符合指定的哈希相似度。
11.一种病毒文件聚类划分的处理装置,其特征在于,该装置包括:
第一数据分析模块,用于静态分析待划分病毒文件的二进制数据,从中提取出病毒文件的PE结构数据;
第一聚类划分模块,用于比较所述待划分病毒文件的PE结构数据,将PE结构数据符合指定相似度的病毒文件划分到同一类别中。
12.根据权利要求11所述的处理装置,其特征在于,该装置进一步包括:
第二数据分析模块,用于静态分析每个病毒文件的二进制数据,分析出病毒文件的节数据;
分块处理模块,用于采用相同的分块方式对每个病毒文件的节数据进行分块处理,计算每块节数据的哈希值;
第二聚类划分模块,用于比较病毒文件之间节数据块的哈希值,将节数据块哈希值符合指定的哈希相似度的病毒文件划分到一个二级类中。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110226879.8/1.html,转载请声明来源钻瓜专利网。
- 上一篇:医疗系统
- 下一篇:一种数据校正方法、装置及系统





