[发明专利]一种基于Jaccard系数的恶意样本相似性判定方法有效
| 申请号: | 202110711130.6 | 申请日: | 2021-06-25 |
| 公开(公告)号: | CN113378165B | 公开(公告)日: | 2021-11-05 |
| 发明(设计)人: | 任传伦;刘文瀚;吕帅;夏建民;张先国;刘晓影;王淮;俞赛赛;乌吉斯古愣;孟祥頔 | 申请(专利权)人: | 中国电子科技集团公司第十五研究所;中国电子科技集团公司第三十研究所;中电科网络空间安全研究院有限公司 |
| 主分类号: | G06F21/56 | 分类号: | G06F21/56;G06K9/62 |
| 代理公司: | 北京丰浩知识产权代理事务所(普通合伙) 11781 | 代理人: | 李学康 |
| 地址: | 100083 北*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 jaccard 系数 恶意 样本 相似性 判定 方法 | ||
本发明公开了一种基于Jaccard系数的恶意样本相似性判定方法,其具体包括:利用String命令对恶意样本Ⅰ和恶意样本Ⅱ分别进行解析并提取恶意样本字符串,将提取到的恶意样本字符串分别转化为样本字符串集合A和B;计算出样本字符串集合A和B之间的Jaccard系数;设定一个阈值,若计算得到的Jaccard系数值大于阈值,则判定恶意样本Ⅰ和恶意样本Ⅱ之间具有较强的相似性;对于具有较强的相似性的恶意样本Ⅰ和恶意样本Ⅱ,利用空间谱函数,找到恶意样本所在的字符串。本发明提供了一种新型的恶意样本相似性判定方法,无需进行恶意样本特征提取等复杂操作,可以提高恶意样本相似性判定的效率。
技术领域
本发明属于网络安全技术领域,具体涉及一种基于Jaccard系数的恶意样本相似性判定方法。
背景技术
通常情况下,不同的计算机网络恶意样本之间一般具有不同的功能特点,其各自内部结构由所具有的功能特点决定,因此可以通过提取恶意样本自身所具有的特征完成对恶意样本之间相似性的判断。目前,针对判断恶意样本之间是否具有相似性的技术方案,主要以构建机器学习算法模型为主,通过提取恶意样本特征完成相关的检测判断。在利用机器学习算法检测模型的技术方案中,需要对每种恶意样本进行特征提取,经过预处理并转化为相应的特征向量值之后,将其输入到机器学习算法模型中,根据输出的准确率、精确率等指标,综合得出恶意样本之间是否具有相似性等结论。对于利用机器学习算法进行检测的技术方案,不仅需要对数据进行预处理,还需要不断地进行调参处理并尽可能地优化检测模型,实施过程较为复杂,无法迅速获得稳定、可靠的结果。
另外,不法分子为了防止自己制作得恶意代码被检测,会对恶意代码样本中一些常用的字符串打乱顺序,从而防止其被检测出,如将Symbol修改为lbsymo。在恶意样本分析过程中,经常会遇到一些毫无意义的连续的可显乱码字符串,进一步分析会发现该乱码也是恶意代码样本的一种变形。如何对乱序字符串的恶意样本进行检测和定位,也是目前迫切需要解决的问题。
发明内容
针对现有的基于机器学习算法的计算机网络恶意样本检测方法所存在的实施过程较为复杂,无法迅速获得稳定、可靠的结果的问题,同时为了实现乱序字符串的恶意样本定位,本发明公开了一种基于Jaccard系数的恶意样本相似性判定方法,该方法操作过程简单、易于实现,主要利用Jaccard系数原理对提取到的样本字符串集合进行同源分析比较,根据分析得到的样本字符串集合之间交集与并集的结果,计算出样本字符串集合之间的Jaccard系数。如果Jaccard系数越大,则代表两个恶意样本之间具有较强的相似性。在此基础上,对于乱序字符串的恶意样本的检测和定义,本发明从样本代码的统计特性出发,利用两个恶意样本字符串序列构建其空间谱,通过空间谱估计方法对乱序字符串的恶意样本进行定位。
Jaccard系数用于比较有限样本集之间的相似性与差异性。其中,Jaccard系数值越大,其相应的样本相似度越高。在给定两个集合A和B中,Jaccard系数即为A与B交集的大小与A与B并集的大小的比值,Jaccard系数的计算公式为:
其中,J(A,B)∈[0,1],当集合A,B都为空时,J(A,B)定义为1。
本发明公开了一种基于Jaccard系数的恶意样本相似性判定方法,该方法无需直接提取恶意样本相关特征及其它属性特点,只需将恶意样本内容通过String命令解析成样本字符串集合后,利用Jaccard系数原理分别完成对样本字符串集合之间Jaccard系数的计算,将计算结果取平均值后,完成最终的相似性判定并逆向推导出恶意样本之间的相似性。
本发明公开了一种基于Jaccard系数的恶意样本相似性判定方法,其具体包括:
S1,利用String命令对恶意样本Ⅰ和恶意样本Ⅱ分别进行解析并提取恶意样本字符串,将提取到的恶意样本字符串分别转化为样本字符串集合A和B;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国电子科技集团公司第十五研究所;中国电子科技集团公司第三十研究所;中电科网络空间安全研究院有限公司,未经中国电子科技集团公司第十五研究所;中国电子科技集团公司第三十研究所;中电科网络空间安全研究院有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110711130.6/2.html,转载请声明来源钻瓜专利网。





