[发明专利]一种恶意网页识别方法有效
| 申请号: | 202010012212.7 | 申请日: | 2020-01-07 |
| 公开(公告)号: | CN111198995B | 公开(公告)日: | 2023-03-24 |
| 发明(设计)人: | 廖永建;王勇;王栋;吴宇;梁艺宽 | 申请(专利权)人: | 电子科技大学 |
| 主分类号: | G06F16/955 | 分类号: | G06F16/955;G06N3/0442;G06N3/0464;G06N3/08 |
| 代理公司: | 成都九鼎天元知识产权代理有限公司 51214 | 代理人: | 夏琴 |
| 地址: | 611731 四川*** | 国省代码: | 四川;51 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 恶意 网页 识别 方法 | ||
1.一种恶意网页识别方法,其特征在于,包括如下步骤:
步骤1,获取恶意网页数据集,并通过数据预处理得到恶意网页的训练集和测试集;
步骤2,利用Char-CNN模型获取训练集和测试集的字符级嵌入;
步骤3,构建BiLSTM-Attention神经网络模型;
步骤4,利用训练集及其字符级嵌入,以及静态词嵌入训练步骤3构建的BiLSTM-Attention神经网络模型;
步骤5,利用测试集及其字符级嵌入,以及静态词嵌入验证步骤4训练好的BiLSTM-Attention神经网络模型;
步骤6,经过步骤5验证后,将训练好的BiLSTM-Attention神经网络模型用于对用户访问的网页数据进行恶意网页识别;
步骤3的方法为:
步骤3.1,构建输入层,所述输入层用于输入经过步骤1数据预处理后的恶意网页数据集;
步骤3.2,构建嵌入层,所述嵌入层利用恶意网页数据集的字符级嵌入,以及静态词嵌入替换恶意网页数据集中的单词,得到恶意网页数据集中每条url链接的嵌入表示;
步骤3.3,构建LSTM层,所述LSTM层包括两层,其中一层为前向传播层,另一层为后向传播层;每层LSTM层包括遗忘门,输入门,输出门和细胞状态,其中,
(1)更新遗忘门输出:ft=σ(wfht-1+Ufxt+bf);ht-1表示历史信息,xt表示流入细胞中新的信息,bf为偏置项;
(2)更新输入门两部分输出:
it=σ(wiht-1+Uixt+bi);
at=tanh(waht-1+Uaxt+ba);
(3)更新细胞状态:
Ct=Ct-1ft+itat;
(4)更新输出门两部分输出:
ot=σ(w0ht-1+U0xt+b0);
ht=ottanh(Ct);
(5)当前序列索引预测输出:
yt=σ(Vht+c);
其中,wf,Uf,bf,wi,Ui,wa,Ua,w0,U0为所述BiLSTM-Attention神经网络模型需要训练得到的参数;σ为sigmoid函数;
步骤3.4,构建attention层,所述attention层用于计算所有时序的权重,然后将所有时序的加权作为特征向量输出;
步骤3.5,构建输出层,所述输出层为一层全连接层,将attention层的输出作为输出层的输入,使用softmax分类器处理attention层的输出得到分类结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于电子科技大学,未经电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010012212.7/1.html,转载请声明来源钻瓜专利网。





