[发明专利]一种基于机器学习实现恶意域名识别的方法在审
申请号: | 201811365404.5 | 申请日: | 2018-11-16 |
公开(公告)号: | CN111200576A | 公开(公告)日: | 2020-05-26 |
发明(设计)人: | 贾盛;王晓波 | 申请(专利权)人: | 慧盾信息安全科技(苏州)股份有限公司 |
主分类号: | H04L29/06 | 分类号: | H04L29/06;H04L29/12;G06K9/62 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 215000 江苏省苏州*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 机器 学习 实现 恶意 域名 识别 方法 | ||
1.本发明提供一种基于机器学习实现恶意域名识别的方法,其特征在于,采用机器学习技术,训练出识别恶意域名的机器学习模型组,该模型组可以准确的对恶意域名进行识别;包括机器学习模型训练单元和恶意域名识别单元,其中:
A.机器学习模型训练单元,通过构建数据集、特征提取、模型训练,训练出可识别恶意域名的机器学习模型组;
B.恶意域名识别单元,通过待识别的域名获取、静态过滤、待识别域名特征提取、模型组预测、选举投票,可实现恶意域名识别。
2.如权利要求1所述的一种基于机器学习实现恶意域名识别的方法,其特征在于,机器学习模型训练单元中的构建数据集,正样本数据集使用Alexa全球排名前100万的网站域名数据,负样本数据集使用360netlab开放DGA家族数据。
3.如权利要求1所述的一种基于机器学习实现恶意域名识别的方法,其特征在于,机器学习模型训练单元中的提取特征并进行特征向量化,提取特征包括:N-Gram特征和文本特征。
4.如权利要求3所述的特征向量化,其特征在于,对所提取的特征进行特征向量化,标识每个特征向量的正负属性,正属性为非恶意域名,标识为“0”;负属性为恶意域名,标识为“1”。
5.如权利要求1所述的一种基于机器学习实现恶意域名识别的方法,其特征在于,机器学习模型训练单元中的模型训练,对DGA家族数据和正样本数据分别生成两个域名集合,划分为两部分:一部分作为训练样本,另一部分作为测试样本;通过XGBoost、MLP、NB三种机器学习算法进行模型训练,模型训练包括:2-gramNB机器学习模型、234-gramNB机器学习模型、文本特征NB机器学习模型、2-gramXGBoost机器学习模型、234-gramXGBoost机器学习模型、文本特征XGBoost机器学习模型、2-gramMLP机器学习模型、234-gramMLP机器学习模型、文本特征MLP机器学习模型。
6.如权利要求1所述的一种基于机器学习实现恶意域名识别的方法,其特征在于,恶意域名识别单元中的待识别域名获取,从DNS服务器的域名解析日志文件中提取域名信息,作为待识别域名。
7.如权利要求1所述的一种基于机器学习实现恶意域名识别的方法,其特征在于,恶意域名识别单元中的静态过滤,如果在正样本数据集里能够找到,则认为是非恶意域名,输出最终识别结果;如果在负样本数据集里能够找到,则认为是恶意域名,输出最终识别结果。
8.如权利要求1所述的一种基于机器学习实现恶意域名识别的方法,其特征在于,恶意域名识别单元中的模型组预测,将获取的待识别域名特征输入机器学习模型组中进行预测,输出初步识别结果。
9.如权利要求1所述的一种基于机器学习实现恶意域名识别的方法,其特征在于,恶意域名识别单元中选举投票,对所述机器学习模型组的初步识别结果按照选举投票规则进行选举投票,得到最终识别结果。
10.一种基于机器学习实现恶意域名识别的方法,其特征在于采用权利要求1-9任一所述之基于机器学习实现恶意域名识别单元模块,机器学习模型训练单元对正负样本数据集中域名特征进行了机器学习训练,训练出多个可实现恶意域名识别的机器学习模型;恶意域名识别单元对获取的待识别域名进行静态过滤,当静态过滤识别出结果,直接输出为最终识别结果;当静态过滤未能识别出结果则对待识别域名进行特征提取,并将提取的待识别域名特征输入到机器学习模型训练单元中的机器学习模型组中进行预测,得到初步识别结果,再基于选举投票规则和所述初步识别结果,得到最终识别结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于慧盾信息安全科技(苏州)股份有限公司,未经慧盾信息安全科技(苏州)股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811365404.5/1.html,转载请声明来源钻瓜专利网。