[发明专利]一种基于胶囊神经网络的恶意URL检测与分类方法在审

申请号：	202310458876.X	申请日：	2023-04-26
公开（公告）号：	CN116471096A	公开（公告）日：	2023-07-21
发明（设计）人：	金彦亮;于晓琪;高塬	申请（专利权）人：	上海大学
主分类号：	H04L9/40	分类号：	H04L9/40;H04L67/02;H04L41/16;G06N3/0464;G06N3/08
代理公司：	上海科盛知识产权代理有限公司 31225	代理人：	陈金星
地址：	200444***	国省代码：	上海;31
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于胶囊神经网络恶意 url 检测分类方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明涉及一种基于胶囊神经网络的恶意URL检测与分类方法，属于网络安全、深度学习、自然语言处理等交叉技术领域。首先使用高速网络整合URL字符串不同粒度的嵌入表示，然后利用卷积神经网络提取URL不同范围内的局部语义和结构特征，最后将局部特征输入到胶囊神经网络中，将标量特征转换为向量胶囊，丰富了URL的特征表示，通过胶囊层间动态路由机制有效聚合了低级特征，并输出分类结果。与现有技术相比，本发明充分利用URL字符串不同粒度的信息，引入胶囊神经网络从URL字符串中提取更准确、更丰富的具有区分性的特征，提高了恶意URL分类的性能，能够准确识别恶意URL攻击类型，有效应对混淆技术的多样性。

技术领域

本发明涉及网络安全技术领域，尤其是涉及一种基于胶囊神经网络的恶意URL检测与分类方法。

背景技术

近年来，互联网的快速发展极大地丰富了人们的物质文化生活，推动了信息社会的不断进步，促进了网上银行、电子商务、社交网络以及网上政务等网络业务的迅速成长和发展。当前，政府、企业和个人都需要依赖于万维网上提供的互联网服务。然而，技术的进步和网络业务的发展同时吸引了大量非法攻击者利用恶意网站对政府、企业和个人用户发动网络攻击，进行非法牟利，威胁网络安全，每年造成巨大的经济损失。

统一资源定位符，又叫做URL，是互联网上信息资源的统一资源定位标志，用于定位和访问互联网上的信息资源。URL作为网站的唯一入口，最容易被非法攻击者利用，用于传播虚假网站和网络恶意程序。网络安全专家在相关领域拥有丰富的知识和经验，因此识别恶意URL相对容易。然而，对于一般用户来说，没有足够的专业知识和经验，准确识别恶意URL攻击是非常困难的。因此，及时高效地自动检测出恶意URL，保护脆弱用户免受网络攻击，极具现实意义。另外，恶意URL攻击的形式多种多样。在正确区分恶意URL和良性URL的基础上，进一步对恶意URL攻击类型进行分类也是必不可少的，它可以帮助用户确定防御动作的优先级和方向，以便为风险更高的攻击分配更高的优先级，优先处理可能带来更大损失的恶意攻击。

为了检测恶意URL，传统的方法是在Web浏览器中部署网站黑名单，通过检测目标URL是否在黑名单中来识别恶意URL。然而，基于黑名单的检测方法需要依赖人工反馈来维护一个巨大的由已知恶意URL组成的黑名单，这使得它们不可靠、耗时耗力且难以及时更新。由于机器学习学科的兴起，基于统计模型的机器学习方法开始被广泛应用于恶意URL的检测与分类中。虽然基于机器学习的方法在恶意URL检测与分类领域取得了一定成效，但此类方法严重依赖于专家知识进行人工特征设计和选择，存在耗时耗力、不能从URL字符串中充分提取有价值的信息、难以应对不断变化的攻击策略等明显短板。

近年来，深度学习方法越来越受欢迎，并在不同领域的众多分类任务中取得了最先进的性能。深度学习旨在从原始的非结构化数据中自动提取适当的特征，并使用这些特征训练分类模型。深度学习有助于减少复杂的特征工程，并在没有任何领域内专业知识的情况下构建有效的分类模型，已成为恶意URL检测与分类领域的主流研究方法。目前，已有不少研究将深度学习方法应用于恶意URL检测与分类中，但现有方法仍存在一定的改进空间：

(1)忽略了对恶意URL攻击类型的分类。现有的多数工作集中在用二分类的方法区分恶意URL与良性URL，而很少尝试使用基于深度学习的方法进一步对恶意URL的攻击类型进行判别。

(2)对URL字符串提供的信息利用不完充分。不同粒度的嵌入表示可以产生具有差异性的信息。单词级嵌入可以更好地从URL字符串中有效地获取整体结构信息，而字符级嵌入对单词中的细微变化更敏感，并且可以有效处理URL中的罕见词。现有的方法大多采用将不同粒度的嵌入表示简单拼接的方式，导致字符级信息易被单词级信息淹没，不能充分利用URL字符串提供的有用信息。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于上海大学，未经上海大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202310458876.X/2.html，转载请声明来源钻瓜专利网。

上一篇：一种基于元强化学习的端到端自动驾驶方法及系统
下一篇：一种桁架支撑加固方法

同类专利

专利分类

H 电学

H04 电通信技术
H04L 数字信息的传输，例如电报通信
H04L9-00 保密或安全通信装置
H04L9-06 .使用移位寄存器或存储器用于块式码的密码装置，例如dES系统
H04L9-10 .带有特殊机体，物理特征或人工控制
H04L9-12 .同步的或最初建立特殊方式的发送和接收密码设备
H04L9-14 .使用多个密钥或算法
H04L9-18 .用串行和连续修改数据流单元加密，例如数据流加密系统

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于胶囊神经网络的恶意URL检测与分类方法在审

专利文献下载