[发明专利]恶意样本的筛选方法及系统有效
申请号: | 201611256407.6 | 申请日: | 2016-12-30 |
公开(公告)号: | CN108268772B | 公开(公告)日: | 2021-10-22 |
发明(设计)人: | 孙岩;罗成;潘宣辰 | 申请(专利权)人: | 武汉安天信息技术有限责任公司 |
主分类号: | G06F21/56 | 分类号: | G06F21/56 |
代理公司: | 湖北武汉永嘉专利代理有限公司 42102 | 代理人: | 王丹 |
地址: | 430000 湖北省武汉市东湖高新技术*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 恶意 样本 筛选 方法 系统 | ||
本发明提供一种恶意样本的筛选方法,包括:相似度计算:对一已知恶意样本集中的恶意样本进行特征提取,计算两两恶意样本之间的相似度;结构洞计算:根据相似度,对恶意样本进行结构洞的计算;筛选:根据结构洞的大小以及实际的需要,选取符合要求的恶意样本。本发明将结构洞的思想引入恶意代码分析技术领域,能够有效对众多的恶意样本进行样本筛选,提高对恶意样本分析的效率。
技术领域
本发明涉及移动终端恶意代码分析技术领域,具体涉及一种恶意样本的筛选方法及系统。
背景技术
牛津大学人类学家罗宾顿巴教授提出,人类大脑能容纳一个约150人的稳定社交网络,一旦人的交往圈超过这个数值,就很难再维持巩固的社会关系了,这个上限被称作顿巴数魔咒。
经过分析,移动终端恶意代码部分有高度的聚合性,也就是说对这些高度聚合样本进行“去重”后,单个组织或者是单个个体生成移动端恶意代码的数量是有上限的。
可以看到,无论从人类大脑结构的角度,还是从恶意代码制造者的角度,移动终端恶意代码的功能和构造均是资源稀缺型的,重复的或者冗余的恶意代码不仅消耗安全分析检测的强度,同时也让大家了解整体恶意代码的趋势规模大打折扣。在一个攻击者的制造样本均为重复网络的时候,我们对该攻击者获取的信息均为同质的,每个人知道的,该网络中其他人也都知道,结果导致大家在同一时间发现同一机会,整个网络是低效率的。
另外,由于恶意代码的数量巨大,而在威胁情领域倾向于重点研究具有代表性的恶意样本,因此如何筛选出重点恶意样本是值得关注的焦点。
发明内容
本发明要解决的技术问题是:提供一种恶意样本的筛选方法及系统,能够提高对恶意样本筛选的效率。
本发明为解决上述技术问题所采取的技术方案为:一种恶意样本的筛选方法,包括:
相似度计算:对一已知恶意样本集中的恶意样本进行特征提取,计算两两恶意样本之间的相似度;
结构洞计算:根据相似度,对恶意样本进行结构洞的计算;
筛选:根据结构洞的大小以及实际的需要,选取符合要求的恶意样本。
按上述方法,所述的筛选包括溯源筛选:当需要对某个恶意样本溯源时,而该恶意样本本身的路径无法得知,则查询与该恶意样本的结构洞最小的恶意样本作为同源恶意样本,对该同源恶意样本溯源。
按上述方法,所述的筛选包括分析筛选:设置结构洞阈值,仅对结构洞大于预设的最大阈值的恶意样本进行分析研判。
按上述方法,所述的分析筛选还包括:当有新的恶意样本出现时,分别对每个新恶意样本进行结构洞计算;若有结构洞大于预设的结构洞阈值的新恶意样本,则仅对结构洞大于预设的最大阈值的新恶意样本进行分析研判。
按上述方法,所述结构洞计算的具体方法如下:设i、j、q均为所述的样本集中的恶意样本,
定义Piq为i到q的相似度占i所有相似度之和的比例,即:
式中,diq为i与q的相似度;dij为i与j的相似度;
定义j到q的边际强度mjq为:
式中,djq为j与q的相似度,djm为j与m的相似度,表示j所有相似度中的最大值;
那么,恶意样本i的结构洞Scalei为:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉安天信息技术有限责任公司,未经武汉安天信息技术有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201611256407.6/2.html,转载请声明来源钻瓜专利网。