[发明专利]基于域名字符串统计特征的DGA生成域名的检测方法在审
申请号: | 201710123327.1 | 申请日: | 2017-03-03 |
公开(公告)号: | CN106992969A | 公开(公告)日: | 2017-07-28 |
发明(设计)人: | 方玮;任梦晨;刘光杰;翟江涛;刘伟伟;戴跃伟 | 申请(专利权)人: | 南京理工大学 |
主分类号: | H04L29/06 | 分类号: | H04L29/06;H04L29/12 |
代理公司: | 南京理工大学专利中心32203 | 代理人: | 薛云燕 |
地址: | 210094 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 域名 字符串 统计 特征 dga 生成 检测 方法 | ||
1.一种基于域名字符串统计特征的DGA生成域名的检测方法,其特征在于,包括以下步骤:
步骤1,收集整理并构建正常的标准域名集合,将其中超过三个字符的二级或者三级域名取出,构成由字母、数字和连字符组成的域名字符串SNi,i=1,2,…,N;所述域名字符串SNi的集合SDN作为后续特征矢量构造的数据基础;
步骤2,收集整理并构建正常的域名集合,将其中超过三个字符的二级或者三级域名取出,构成由字母、数字和连字符组成的域名字符串LNj,j=1,2,…,nL的集合LDN;收集整理恶意软件DGA算法生成的域名集合,将其中超过三个字符的二级或者三级域名取出,构成由字母、数字和连字符组成的域名字符串DNk,k=1,2,…,nD的集合DDN;
步骤3,提取LDN中所有LNj和DDN中所有DNk的统计特征,得到LDN中所有LNj的特征矢量集合LV、DDN中所有DNk的特征矢量集合DV,LV中具有nL个六维的特征矢量,DV中具有nD个六维的特征矢量;
步骤4,对LV中的特征矢量添加标记1,对DV中的特征矢量添加标记-1,分别作为正样本和负样本构成测试集合训练分类器,通过分类器实现对恶意软件DGA生成域名的检测。
2.如权利要求1所述的基于域名字符串统计特征的DGA生成域名的检测方法,其特征在于,步骤3所述特征矢量具体如下:
V(X)=[SDR(X),SCR(X),DSIM(X),TSIM(X),V2DC(X),C2DC(X)]
其中,X为LDN中所有LNj或DDN中所有DNk;
SDR(X)、SCR(X)、DSIM(X)、TSIM(X)、V2DC(X)、C2DC(X)分别为连续数字占比、连续二辅字占比、随机相邻双字平均相似指数、随机相邻三字平均相似指数、单元音字母到二字符平均转移概率、单辅音字母到二字符平均转移概率。
3.如权利要求2所述的基于域名字符串统计特征的DGA生成域名的检测方法,其特征在于,步骤3所述连续数字占比SDR(X)=NUM_2DP(X)/LEN(X),其中,NUM_2DP(X)为域名中所有两个或两个以上连续数字的总长度,LEN(X)为域名长度;
所述连续二辅字占比SCR(X)=NUM_2CP(X)/LEN(X),其中,NUM_2DP(X)为域名中所有两个或两个以上连续辅音字母的总长度,LEN(X)为域名长度。
4.如权利要求2所述的基于域名字符串统计特征的DGA生成域名的检测方法,其特征在于,步骤3所述随机相邻双字平均相似指数DSIM(X)为:
DSIM(X)=1/M×∑Y∈pSDN(|SD(X)∩SD(Y)|/|SD(X)∪SD(Y)|)
其中,pSDN是从SDN集合中随机选择的包含M个域名的子集,函数SD(X/Y)表示将X/Y分成的相邻的双字母组成的集合,|SD(X)∩SD(Y)|是集合SD(X)和集合SD(Y)的交集中元素的个数;|SD(X)∪SD(Y)|是集合SD(X)和集合SD(Y)的并集中元素的个数;
所述随机相邻三字平均相似指数TSIM(X)为:
TSIM(X)=1/M×∑Y∈pSDN(|TD(X)∩TD(Y)|/|TD(x)∪TD(Y)|)
其中,函数TD(X/Y)表示将X/Y分成的相邻的三字母组成的集合,|TD(X)∩TD(Y)|是集合TD(X)和集合TD(Y)的交集中元素的个数;|TD(X)∪TD(Y)|是集合TD(X)和集合TD(Y)的并集中元素的个数。
5.如权利要求2所述的基于域名字符串统计特征的DGA生成域名的检测方法,其特征在于,步骤3所述单元音字母到二字符平均转移概率V2DC(X)具体如下:
根据SDN中合法标准域名SN,统计得到单元音字母到任意二字符转移概率P(y,z|x),对域名字符串X,设X具有后续二个字符元音x的集合为VX,VX的元素个数为Mv,且元音x的后续字符分别为y(x)、z(x),则单元音字母到二字符平均转移概率V2DC(X)为:
V2DC(X)=1/Mv×∑Y∈VX P(y(x),z(x)|x)
所述单辅音字母到二字符平均转移概率C2DC(X)具体如下:
根据SDN中合法域名SN,统计得到单辅音字母到任意二字符转移概率P(y,z|x’),对域名字符串X,设X具有后续二个字符辅音x’的集合为CX,CX的元素个数为Mc,且辅音x’的后续字符分别为y(x’),z(x’),则单辅音字母到二字符平均转移概率C2DC(X)为:
C2DC(X)=1/Mc×∑Y∈CX P(y(x’),z(x’)|x’)。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京理工大学,未经南京理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710123327.1/1.html,转载请声明来源钻瓜专利网。
- 上一篇:可折叠医用X射线防护器具
- 下一篇:一种聚烯烃护套防火电缆