[发明专利]互联网域名滥用识别方法和装置,电子设备,存储介质有效
| 申请号: | 202011180087.7 | 申请日: | 2020-10-29 |
| 公开(公告)号: | CN112468444B | 公开(公告)日: | 2023-05-16 |
| 发明(设计)人: | 尉迟学彪;曾宇;李洪涛;董科军;延志伟;陈勇 | 申请(专利权)人: | 中国互联网络信息中心 |
| 主分类号: | H04L9/40 | 分类号: | H04L9/40;H04L61/4511;H04L61/30 |
| 代理公司: | 北京路浩知识产权代理有限公司 11002 | 代理人: | 陈新生 |
| 地址: | 100080 北京市海淀*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 互联网 域名 滥用 识别 方法 装置 电子设备 存储 介质 | ||
1.一种不依赖于内容分析的互联网域名滥用识别方法,其特征在于,包括:
确定待识别域名,提取其注册信息特征;
对所述注册信息特征采用预设规则处理得到待识别域名向量;
将所述待识别域名向量输入识别模型,输出待识别域名是滥用域名的概率值,其中,所述识别模型是基于样本域名向量和对应的滥用标签进行训练后得到的,所述样本域名向量是对样本域名进行注册信息特征提取后再进行所述预设规则处理得到的;
若所述概率值超过预设阈值,则判定所述待识别域名为滥用域名;
所述注册信息包括注册时间、过期时间、注册历史、域名属性和域名文本参数;
所述样本域名是爬取域名服务器在预设时间段内新注册的域名得到的,所述对应的滥用标签是通过在公开黑名单库和第三方安全监测认证平台中查询所述样本域名后确定的。
2.根据权利要求1中所述的不依赖于内容分析的互联网域名滥用识别方法,其特征在于,所述对所述注册信息特征采用预设规则处理得到待识别域名向量,具体包括:
对所述注册信息特征中的连续数值型特征进行归一化处理得到归一化数值;
对所述注册信息特征中的分类型特征采用one-hot编码得到二值化向量;
将所述归一化数值和所述二值化向量组成待识别域名向量。
3.根据权利要求1中所述的不依赖于内容分析的互联网域名滥用识别方法,其特征在于,
所述识别模型训练时将训练样本集采用交叉验证法划分为训练集和测试集,并构建多个训练网络分别用于使用所述训练集和测试集进行所述识别模型的训练,选择训练结束后分类效果最优的训练网络作为所述识别模型。
4.一种不依赖于内容分析的互联网域名滥用识别装置,其特征在于,包括:
提取单元,用于确定待识别域名,提取其注册信息特征;
预处理单元,用于对所述注册信息特征采用预设规则处理得到待识别域名向量;
识别单元,用于将所述待识别域名向量输入识别模型,输出待识别域名是滥用域名的概率值,其中,所述识别模型是基于样本域名向量和对应的滥用标签进行训练后得到的,所述样本域名向量是对样本域名进行注册信息特征提取后再进行所述预设规则处理得到的;
判定单元,用于若所述概率值超过预设阈值,则判定所述待识别域名为滥用域名;
所述注册信息包括注册时间、过期时间、注册历史、域名属性和域名文本参数;
所述样本域名向量是对样本域名进行注册信息特征提取后再进行所述预设规则处理得到的;
其中,所述样本域名是爬取域名服务器在预设时间段内新注册的域名得到的,所述对应的滥用标签是通过在公开黑名单库和第三方安全监测认证平台中查询所述样本域名后确定的。
5.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至3中任一项所述的不依赖于内容分析的互联网域名滥用识别方法的步骤。
6.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现如权利要求1至3中任一项所述的不依赖于内容分析的互联网域名滥用识别方法的步骤。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国互联网络信息中心,未经中国互联网络信息中心许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011180087.7/1.html,转载请声明来源钻瓜专利网。





