[发明专利]一种基于多模态层次注意力机制的欺诈网站检测方法有效

专利信息
申请号: 202110265794.4 申请日: 2021-03-11
公开(公告)号: CN112860976B 公开(公告)日: 2022-08-19
发明(设计)人: 柴一栋;周永行;姜元春;刘业政;钱洋;孙见山;孙春华;刘鹏鹏;崔福来;井二康 申请(专利权)人: 合肥工业大学
主分类号: G06F16/953 分类号: G06F16/953;G06F16/958;G06N3/04;G06N3/08
代理公司: 安徽省合肥新安专利代理有限责任公司 34101 代理人: 陆丽莉;何梅生
地址: 230009 安*** 国省代码: 安徽;34
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 多模态 层次 注意力 机制 欺诈 网站 检测 方法
【权利要求书】:

1.一种基于多模态层次注意力机制的欺诈网站检测方法,其特征是按照以下步骤进行:

步骤1:定义待检测的网站网页的网址、网页文本、以及页面上的图片集分别为U、C、I;其中,U={u1,u2,...,us,...,uS},us为网址U中第s个字符,s=1,2,…,S,S表示网址中字符的数量;C={c1,c2,...,cp,...,cP},cp为网页文本C中的第p个字符,p=1,2,…,P,P为网页文本C中字符的数量;I={i1,i2,...,ik,...,iK},ik为图片集I中的第k张图片,k=1,2,…,K,K为所述图片集I中包含图片的数量;

构建包含两个长短期记忆网络、三个注意力机制网络、ResNet50网络、一个全连接网络所组成的模态表示网络;

构建包含一个注意力机制网络和一个全连接网络所组成的模态对齐表示网络;

步骤2:使用包含第一长短期记忆网络和第一注意力机制网络的第一融合网络计算网址U的特征;

步骤2.1:使用独热编码对网址U进行表示,得到编码后的网址U′={u′1,u′2,...,u′s,...,u′S},其中,u′s为第s个字符us的独热编码;定义网址U中所有字符的嵌入式参数表为EmbU;将嵌入式参数表EmbU与编码后的网址U′做矩阵内积运算,得到网址U中每个字符的嵌入式表示其中,表示第s个字符us的嵌入式表示;

步骤2.2:将所述嵌入式表示输入第一长短期记忆网络中,从而计算网址U中第s个字符us的隐特征表示进而得到隐特征表示矩阵

步骤2.3:将所述隐特征表示矩阵输入所述第一注意力机制网络中,从而计算网址U的隐特征表示vU以及第s个字符us所占的权重值

步骤3:使用第二长短期记忆网络和第二注意力机制网络的第二融合网络计算网页文本内容的特征;

步骤3.1:使用独热编码对网页文本C进行表示,得到编码后的网页文本C′={c′1,c′2,...,c′p,...,c′P},其中,c′p表示到编码后的网页文本C′中第p个字符的独热编码,定义文本字符的嵌入式参数表EmbC;将嵌入式参数表EmbC与编码后的网页文本C′做矩阵内积运算,得到网页文本C中每个字符的嵌入式表示其中,表示网页文本中第p个字符的嵌入式表示;

步骤3.2:将所述网页文本字符嵌入式表示输入所述第二长短期记忆网络中,从而计算网页文本C中第p个字符的隐特征表示进而得到隐特征表示矩阵

步骤3.3:将所述隐特征表示矩阵输入第二注意力机制网络中,从而计算网页文本C的隐特征表示vC以及第p个字符cp所占的权重值

步骤4:计算图片的隐特征向量;

步骤4.1:将所述图片集I中的每张图片转换成RGB三通道格式并进行放缩,得到处理后的图片集I′后输入训练好的ResNet50网络中,并将ResNet50网络中倒数第二层的输出作为图片集I的隐特征表示其中,hik表示第k张图片ik的隐特征表示;

步骤4.2:将所述隐特征表示输入第三注意力机制网络中,从而计算图片集I的隐特征表示vI以及第k张图片所占的权重

步骤5:训练模态表示网络;

步骤5.1:将三个隐特征表示vU,vC,vI进行拼接后得到待检测的网站网页的隐特征表示q,将所述隐特征表示q输入第一全连接网络中,得到网站网页为虚假网站的预测值

步骤5.2:使用二分类交叉熵作为损失函数,计算所述模态表示网络的损失Lpre

步骤5.3:使用Adam梯度下降方法最小化损失函数Lpre,从而对所述模态表示网络的参数进行优化,得到训练后的模态表示网络;

步骤6:训练模态对齐表示网络;

步骤6.1:定义共享字典矩阵D以及网页网址U,网页文本C,网页图片I的模态对齐映射矩阵MU、MC、MI并使用正态分布进行随机初始化;

利用式(1)构建基于共享字典学习的对齐模态训练损失函数LA

式(1)中,分别为网页网址U、网页文本C以及网页中图片I模态对齐后的隐特征表示;λ为正则项的权重;di表示所述共享字典矩阵D中第i行元素;ui表示所述共享字典矩阵D中第i行元素di的权重;

步骤6.2:将三个隐特征表示输入第四注意力机制网络中,从而计算网站网页的隐特征表示以及三个隐特征表示的权重值

步骤6.3:利用式(2)计算网站网页是欺诈网站的概率

式(2)中,Wq、bq表示第二全连接网络的两个参数;

步骤6.4:使用式(3)构建总体损失函数Ltotal

式(3)中,为对齐模态训练损失函数LA的权重;表示所述待检测网站为欺诈网站的概率,表示所述待检测网站为非欺诈网站的概率;y为网站网页是否为欺诈网站的真实标签;

步骤6.5:通过Adam随机梯度下降法最小化Ltotal,从而对模态对齐表示网络中的参数进行优化,得到训练后的模态对齐表示网络;从而以所述训练后的模态表示网络以及训练后的模态对齐表示网络计算来实现欺诈网站的检测。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于合肥工业大学,未经合肥工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110265794.4/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top