[发明专利]恶意网址的分类方法、装置、计算机设备和可读存储介质在审
| 申请号: | 202011027013.X | 申请日: | 2020-09-25 |
| 公开(公告)号: | CN112115266A | 公开(公告)日: | 2020-12-22 |
| 发明(设计)人: | 陈劲 | 申请(专利权)人: | 奇安信科技集团股份有限公司;网神信息技术(北京)股份有限公司 |
| 主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F16/906 |
| 代理公司: | 北京英特普罗知识产权代理有限公司 11015 | 代理人: | 程超 |
| 地址: | 100088 北京市西城区*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 恶意 网址 分类 方法 装置 计算机 设备 可读 存储 介质 | ||
本发明提供了一种恶意网址的分类方法、装置、计算机设备和可读存储介质。该恶意网址的分类方法包括:获取目标网址对应的网络资源;提取网络资源中的静态资源和动态资源;通过预设的第一分类模型分类静态资源,以得到目标网址对应的第一分类信息;通过预设的第二分类模型分类动态资源,以得到目标网址对应的第二分类信息;以及根据第一分类信息和第二分类信息确定目标网址所属的恶意网址类别。通过本发明,能够提升分类准确性。
技术领域
本发明涉及人工智能和网络安全技术领域,尤其涉及一种恶意网址的分类方法、装置、计算机设备和可读存储介质。
背景技术
域名、ip、URL等均对应互联网中不同的网络资源,为了鉴定其中的不安全资源,传统做法是对该网络资源进行爬虫抓取后,根据其网络资源中的ip地域、域名后缀以及爬取到的文本或源码片段等,依赖人工经验制定人工规则,通过规则来识别和分类恶意网址。
而基于人工规则的分类引擎,对人工经验的依赖大,分类准确性低。
发明内容
本发明的目的是提供一种恶意网址的分类方法、装置、计算机设备和可读存储介质,用于解决现有技术中的上述技术问题。
一方面,为实现上述目的,本发明提供了一种恶意网址的分类方法。
该恶意网址的分类方法包括:获取目标网址对应的网络资源;提取所述网络资源中的静态资源和动态资源;通过预设的第一分类模型分类所述静态资源,以得到所述目标网址对应的第一分类信息;通过预设的第二分类模型分类所述动态资源,以得到所述目标网址对应的第二分类信息;以及根据所述第一分类信息和所述第二分类信息确定所述目标网址所属的恶意网址类别。
进一步地,所述静态资源包括页面head标签内的meta字段、页面标题和/或页面body标签内的文字,所述第一分类模型为文本分类模型,通过预设的第一分类模型分类所述静态资源,以得到所述目标网址对应的第一分类信息的步骤包括:根据所述静态资源构建词序列;将所述词序列输入所述文本分类模型,其中,所述文本分类模型用于根据所述词序列确定所述第一分类信息。
进一步地,根据所述静态资源构建词序列的步骤包括:将所述静态资源划分为至少两个文本类;对所述文本类进行分词得到词序列;所述文本分类模型包括第一卷积层、第一池化层和第一全连接层,所述第一卷积层包括至少两个串联的文本卷积核,将所述词序列输入所述文本分类模型的步骤包括:将每个所述文本类对应的所述词序列作为一维向量输入至第一个文本卷积核;将最后一个所述文本卷积核的输出输入至所述第一池化层;将所述第一池化层的输出输入至所述第一全连接层,其中,所述第一全连接层输出所述第一分类信息。
进一步地,将所述静态资源划分为至少两个文本类的步骤包括:将所述页面标题划分为标题文本类,将所述meta字段划分为头文本类,将所述页面body标签内的文字划分为内容文本类。
进一步地,所述动态资源包括页面加载的脚本程序和/或css资源文件,所述第二分类模型为二进制分类模型,通过预设的第二分类模型分类所述动态资源,以得到所述目标网址对应的第二分类信息的步骤包括:根据所述动态资源构建二进制片段序列;将所述二进制片段序列输入所述二进制分类模型,其中,所述二进制分类模型用于根据所述二进制片段序列确定所述第二分类信息。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于奇安信科技集团股份有限公司;网神信息技术(北京)股份有限公司,未经奇安信科技集团股份有限公司;网神信息技术(北京)股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011027013.X/2.html,转载请声明来源钻瓜专利网。





