[发明专利]一种基于生成对抗网络模型的恶意域名训练数据生成方法在审
| 申请号: | 202110144414.1 | 申请日: | 2021-02-02 |
| 公开(公告)号: | CN113190846A | 公开(公告)日: | 2021-07-30 |
| 发明(设计)人: | 欧毓毅;刘立婷 | 申请(专利权)人: | 广东工业大学 |
| 主分类号: | G06F21/56 | 分类号: | G06F21/56;G06K9/62;G06N3/04 |
| 代理公司: | 广州粤高专利商标代理有限公司 44102 | 代理人: | 张金福 |
| 地址: | 510090 广东*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 生成 对抗 网络 模型 恶意 域名 训练 数据 方法 | ||
一种基于生成对抗网络模型的恶意域名训练数据生成方法,首先预处理输入域名数据,选择真实恶意域名数据作为输入数据;然后将经过预处理的真实恶意域名数据输入生成对抗网络模型进行训练,生成对抗网络模型由一对神经网络模型组成,包括生成器和判别器,两者通过对抗学习的训练算法来提升网络的权重,以实现生成器能够生成混淆判别器的数据;最后利用训练好的生成对抗网络模型来生成训练数据。本发明能够直接对输入数据的字符特征进行学习,无须预先对域名进行特征提取,并且生成的数据具有能够更好的模拟输入数据的内在特征和更加充分关联字符序列信息的优点。
技术领域
本发明涉及网络安全领域,更具体地,涉及一种基于生成对抗网络的恶意域名训练数据生成方法。
背景技术
域名生成算法(Domain Generation Algorithms,DGA)是可以自动生成域名的一类算法的总称,网络攻击者利用DGA生成大量的域名用于自身的组织和控制,以逃避安全人员的域名黑名单检测。目前,为了应对DGA生成的大量恶意域名,基于深度学习的检测方法日渐成为主流,但是用于检测模型训练的数据收集困难、不同家族生成的域名数据量不一,数据采集周期较长、模型更新演化迟滞等问题,从而影响检测模型的训练。
现有的恶意域名训练数据生成方法大多是基于机器学习的生成方法,通过对真实恶意域名字符特征进行学习,预先对域名进行聚类、特征提取等一系列复杂的预处理后才能训练机器学习模型,以达到生成恶意域名训练数据,同时以特征提取的方式训练的生成模型难以充分学习域名字符的内在特征和字符序列信息。
专利文献(CN110290116A,公开日2019-09-27)提供了一种基于知识图谱的恶意域名检测方法,其中根据域名信息特征,提取可用于构建域名信誉知识图谱的关键特征是关键步骤,并且对域名信息进行聚合,上述操作使得整个训练数据的生成过程较复杂。
为了推动网络安全的技术发展,迫切需要一种全新的数据生成方法,以提高恶意域名训练数据生成的效率。
发明内容
本发明提供一种基于生成对抗网络模型的恶意域名训练数据生成方法,能够直接对输入数据的字符特征进行学习,无须预先对域名进行特征提取,使得整个训练数据的过程得到简化。
为解决上述技术问题,本发明的技术方案如下:一种基于生成对抗网络模型(GAN)的恶意域名训练数据生成方法,具体包括以下步骤:
S1、预处理输入域名数据,选择真实恶意域名数据作为输入数据;
S2、将经过预处理的真实恶意域名数据输入生成对抗网络模型进行训练,生成对抗网络模型由一对神经网络模型组成,包括生成器和判别器,两者通过对抗学习的训练算法来提升网络的权重,以实现生成器能够生成混淆判别器的数据;
S3、利用训练好的生成对抗网络模型来生成训练数据。
优选地,步骤S1中对输入数据进行预处理包括去除顶级域名和二级域名后,利用ASCⅡ编码和数据归一化对所述输入数据进行处理。
优选地,所述真实恶意域名包括360网络安全实验室公开收集的若干DGA家族的100万条恶意域名;
优选地,所述的ASCⅡ编码是根据ASCⅡ码将字符域名编码成对应的ASCⅡ码,ASCⅡ编码后的数据定义域取ASCⅡ码表的区间[33,127]。
优选地,所述数据归一化处理是将编码后的数据映射到区间[0,1],映射公式如(1)所示,
其中A*(di)为第i个字符标准化后的值,A(di)为第i个字符的编码后的数据,minA(di)为定义域下限,maxA(di)为定义域上限。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广东工业大学,未经广东工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110144414.1/2.html,转载请声明来源钻瓜专利网。





