[发明专利]恶意网址的分类方法、装置、计算机设备和可读存储介质在审
| 申请号: | 202011027013.X | 申请日: | 2020-09-25 |
| 公开(公告)号: | CN112115266A | 公开(公告)日: | 2020-12-22 |
| 发明(设计)人: | 陈劲 | 申请(专利权)人: | 奇安信科技集团股份有限公司;网神信息技术(北京)股份有限公司 |
| 主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F16/906 |
| 代理公司: | 北京英特普罗知识产权代理有限公司 11015 | 代理人: | 程超 |
| 地址: | 100088 北京市西城区*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 恶意 网址 分类 方法 装置 计算机 设备 可读 存储 介质 | ||
1.一种恶意网址的分类方法,其特征在于,包括:
获取目标网址对应的网络资源;
提取所述网络资源中的静态资源和动态资源;
通过预设的第一分类模型分类所述静态资源,以得到所述目标网址对应的第一分类信息;
通过预设的第二分类模型分类所述动态资源,以得到所述目标网址对应的第二分类信息;以及
根据所述第一分类信息和所述第二分类信息确定所述目标网址所属的恶意网址类别。
2.根据权利要求1所述的恶意网址的分类方法,其特征在于,
所述静态资源包括页面head标签内的meta字段、页面标题和/或页面body标签内的文字,所述第一分类模型为文本分类模型,
通过预设的第一分类模型分类所述静态资源,以得到所述目标网址对应的第一分类信息的步骤包括:
根据所述静态资源构建词序列;
将所述词序列输入所述文本分类模型,其中,所述文本分类模型用于根据所述词序列确定所述第一分类信息。
3.根据权利要求2所述的恶意网址的分类方法,其特征在于,
根据所述静态资源构建词序列的步骤包括:
将所述静态资源划分为至少两个文本类;
对所述文本类进行分词得到词序列;
所述文本分类模型包括第一卷积层、第一池化层和第一全连接层,所述第一卷积层包括至少两个串联的文本卷积核,将所述词序列输入所述文本分类模型的步骤包括:
将每个所述文本类对应的所述词序列作为一维向量输入至第一个文本卷积核;
将最后一个所述文本卷积核的输出输入至所述第一池化层;
将所述第一池化层的输出输入至所述第一全连接层,其中,所述第一全连接层输出所述第一分类信息。
4.根据权利要求3所述的恶意网址的分类方法,其特征在于,将所述静态资源划分为至少两个文本类的步骤包括:
将所述页面标题划分为标题文本类,将所述meta字段划分为头文本类,将所述页面body标签内的文字划分为内容文本类。
5.根据权利要求1所述的恶意网址的分类方法,其特征在于,
所述动态资源包括页面加载的脚本程序和/或css资源文件,所述第二分类模型为二进制分类模型,
通过预设的第二分类模型分类所述动态资源,以得到所述目标网址对应的第二分类信息的步骤包括:
根据所述动态资源构建二进制片段序列;
将所述二进制片段序列输入所述二进制分类模型,其中,所述二进制分类模型用于根据所述二进制片段序列确定所述第二分类信息。
6.根据权利要求5所述的恶意网址的分类方法,其特征在于,
根据所述动态资源构建二进制片段序列的步骤包括:
将所述动态资源转化为二进制流;
以相邻的不同字节长度作为二进制片段单位,对所述二进制流按照单字节长度作为滑动步长进行切分,得到至少两个二进制片段序列,其中,不同的所述二进制片段序列中的二进制片段的字节长度不同,同一个所述二进制片段序列中的二进制片段的字节长度相同且在相邻两个二进制片段中同一位置的字节为相邻字节;
所述二进制分类模型包括第二卷积层、第二池化层和第二全连接层,所述第二卷积层包括至少两个并联的二进制卷积核,将所述二进制片段序列输入所述二进制分类模型的步骤包括:
将每个所述二进制片段序列输入至一个二进制卷积核;
将各个所述二进制卷积核的输出分别输入至所述第二池化层;
将所述第二池化层的输出输入至所述第二全连接层,其中,所述第二全连接层输出所述第二分类信息。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于奇安信科技集团股份有限公司;网神信息技术(北京)股份有限公司,未经奇安信科技集团股份有限公司;网神信息技术(北京)股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011027013.X/1.html,转载请声明来源钻瓜专利网。





