[发明专利]一种恶意网页识别方法有效

专利信息
申请号: 202010012212.7 申请日: 2020-01-07
公开(公告)号: CN111198995B 公开(公告)日: 2023-03-24
发明(设计)人: 廖永建;王勇;王栋;吴宇;梁艺宽 申请(专利权)人: 电子科技大学
主分类号: G06F16/955 分类号: G06F16/955;G06N3/0442;G06N3/0464;G06N3/08
代理公司: 成都九鼎天元知识产权代理有限公司 51214 代理人: 夏琴
地址: 611731 四川*** 国省代码: 四川;51
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 恶意 网页 识别 方法
【说明书】:

发明公开了一种恶意网页识别方法,包括如下步骤:步骤1,获取恶意网页数据集,并通过数据预处理得到恶意网页的训练集和测试集;步骤2,利用Char‑CNN模型获取训练集和测试集的字符级嵌入;步骤3,构建BiLSTM‑Attention神经网络模型;步骤4,利用训练集及其字符级嵌入,以及静态词嵌入训练步骤3构建的BiLSTM‑Attention神经网络模型;步骤5,利用测试集及其字符级嵌入,以及静态词嵌入验证步骤4训练好的BiLSTM‑Attention神经网络模型;步骤6,经过步骤5验证后,将训练好的BiLSTM‑Attention神经网络模型用于对用户访问的网页数据进行恶意网页识别。本发明采用基于attention机制的双向长短时记忆循环神经网络,同时还使用字符级嵌入与静态词嵌入相结合的方法,实现了恶意网页识别的目的。

技术领域

本发明涉及互联网安全技术领域,尤其是一种恶意网页识别方法。

背景技术

近年来随着互联网行业不断发展,网络已经成为了人们生活中不可缺少的一部分。但与此同时,利用互联网的恶意犯罪活动也在不断的增长。利用恶意网页来进行钓鱼攻击,推广垃圾广告,引导下载恶意软件等操作是互联网犯罪的主要活动。根据全球中文钓鱼网站现状统计分析报告(2016年和中国反钓鱼联盟近年来的报告可知中国是受到恶意网页困扰比例最大的国家,并且恶意网页数量在逐年快速增长。如何快速有效的识别恶意网页,已经成为有待解决的网络空间安全问题之一。

传统的识别恶意网页方法通常为基于黑名单技术的识别方法。也是现在在工业界应用最多的方法。黑名单技术是维护一个恶意域名列表,如果访问的域名不在恶意域名列表内,那么浏览器将认为这是一个正常的域名,如果在列表内,那么则认为是一个恶意域名。这种方法的优点在于技术实现简单,而且可以准确识别已经确认的恶意网页。但缺点在于不能识别以前未出现过的恶意域名,而且需要技术人员一直维护恶意域名列表。

近年来随着机器学习技术的发展,有越来越多的人将机器学习技术应用于恶意网页检测。利用人工从url链接提取url长度,是否为https链接,域名长度等等特征,又或者利用蜜罐技术检测网页的内容,检测是否有恶意脚本,检测网站上的图片是否为违规图片等等,然后再基于机器学习算法如svm,随机森林等算法进行分类。但这种方法非常依赖于网络安全方面的专家,需要对恶意网页方面非常熟悉的人来对恶意网页数据集进行人工特征提取。人工提取的特征对于最后分类结果的好坏影响非常大。

发明内容

本发明所要解决的技术问题是:针对上述存在的问题,提供一种恶意网页识别方法,该方法利用字符级嵌入和双向长短时记忆循环神经网络(Bi LSTM)直接对URL链接进行分类,从而达到识别恶意网页的目的。

本发明采用的技术方案如下:

一种恶意网页识别方法,包括如下步骤:

步骤1,获取恶意网页数据集,并通过数据预处理得到恶意网页的训练集和测试集;

步骤2,利用Char-CNN模型获取训练集和测试集的字符级嵌入;

步骤3,构建BiLSTM-Attention神经网络模型;

步骤4,利用训练集及其字符级嵌入,以及静态词嵌入训练步骤3构建的BiLSTM-Attention神经网络模型;

步骤5,利用测试集及其字符级嵌入,以及静态词嵌入验证步骤4训练好的BiLSTM-Attention神经网络模型;

步骤6,经过步骤5验证后,将训练好的BiLSTM-Attention神经网络模型用于对用户访问的网页数据进行恶意网页识别。

综上所述,由于采用了上述技术方案,本发明的有益效果是:

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于电子科技大学,未经电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202010012212.7/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top