[发明专利]一种恶意网页识别方法有效

专利信息
申请号: 202010012212.7 申请日: 2020-01-07
公开(公告)号: CN111198995B 公开(公告)日: 2023-03-24
发明(设计)人: 廖永建;王勇;王栋;吴宇;梁艺宽 申请(专利权)人: 电子科技大学
主分类号: G06F16/955 分类号: G06F16/955;G06N3/0442;G06N3/0464;G06N3/08
代理公司: 成都九鼎天元知识产权代理有限公司 51214 代理人: 夏琴
地址: 611731 四川*** 国省代码: 四川;51
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 恶意 网页 识别 方法
【权利要求书】:

1.一种恶意网页识别方法,其特征在于,包括如下步骤:

步骤1,获取恶意网页数据集,并通过数据预处理得到恶意网页的训练集和测试集;

步骤2,利用Char-CNN模型获取训练集和测试集的字符级嵌入;

步骤3,构建BiLSTM-Attention神经网络模型;

步骤4,利用训练集及其字符级嵌入,以及静态词嵌入训练步骤3构建的BiLSTM-Attention神经网络模型;

步骤5,利用测试集及其字符级嵌入,以及静态词嵌入验证步骤4训练好的BiLSTM-Attention神经网络模型;

步骤6,经过步骤5验证后,将训练好的BiLSTM-Attention神经网络模型用于对用户访问的网页数据进行恶意网页识别;

步骤3的方法为:

步骤3.1,构建输入层,所述输入层用于输入经过步骤1数据预处理后的恶意网页数据集;

步骤3.2,构建嵌入层,所述嵌入层利用恶意网页数据集的字符级嵌入,以及静态词嵌入替换恶意网页数据集中的单词,得到恶意网页数据集中每条url链接的嵌入表示;

步骤3.3,构建LSTM层,所述LSTM层包括两层,其中一层为前向传播层,另一层为后向传播层;每层LSTM层包括遗忘门,输入门,输出门和细胞状态,其中,

(1)更新遗忘门输出:ft=σ(wfht-1+Ufxt+bf);ht-1表示历史信息,xt表示流入细胞中新的信息,bf为偏置项;

(2)更新输入门两部分输出:

it=σ(wiht-1+Uixt+bi);

at=tanh(waht-1+Uaxt+ba);

(3)更新细胞状态:

Ct=Ct-1ft+itat

(4)更新输出门两部分输出:

ot=σ(w0ht-1+U0xt+b0);

ht=ottanh(Ct);

(5)当前序列索引预测输出:

yt=σ(Vht+c);

其中,wf,Uf,bf,wi,Ui,wa,Ua,w0,U0为所述BiLSTM-Attention神经网络模型需要训练得到的参数;σ为sigmoid函数;

步骤3.4,构建attention层,所述attention层用于计算所有时序的权重,然后将所有时序的加权作为特征向量输出;

步骤3.5,构建输出层,所述输出层为一层全连接层,将attention层的输出作为输出层的输入,使用softmax分类器处理attention层的输出得到分类结果。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于电子科技大学,未经电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202010012212.7/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top