[发明专利]一种暗链检测方法、装置、设备及存储介质在审
申请号: | 202211527778.9 | 申请日: | 2022-12-01 |
公开(公告)号: | CN116306567A | 公开(公告)日: | 2023-06-23 |
发明(设计)人: | 朱陈思聪;陈建勇 | 申请(专利权)人: | 杭州安恒信息技术股份有限公司 |
主分类号: | G06F40/205 | 分类号: | G06F40/205;G06F40/151;G06F40/289;G06F40/30;G06F16/35;G06F21/56 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 魏亚茹 |
地址: | 310000 浙江省*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 检测 方法 装置 设备 存储 介质 | ||
1.一种暗链检测方法,其特征在于,包括:
获取待检测网页源代码并对所述待检测网页源代码进行解析,以得到中文文本;
利用动态词向量预训练模型的分词器并基于字符粒度对所述中文文本进行转化,以得到中文文本索引;
将所述中文文本索引输入所述动态词向量预训练模型,并利用自注意力机制结合上下文语境对与所述中文文本索引对应的每个汉字进行预设维度的动态词向量分配处理,以得到向量化文本特征;
将所述向量化文本特征输入神经网络分类模型,以得到分类概率,并基于所述分类概率确定待检测网页类别是否属于暗链类别。
2.根据权利要求1所述的暗链检测方法,其特征在于,所述获取待检测网页源代码并对所述待检测网页源代码进行解析之前,还包括:
收集敏感词、混淆后敏感词、正常文本和包含所述敏感词的正常文本,以构建训练集;
利用所述训练集对初始动态词向量预训练模型进行微调训练,以得到所述动态词向量预训练模型。
3.根据权利要求1所述的暗链检测方法,其特征在于,所述基于所述分类概率确定待检测网页类别是否属于暗链类别,包括:
从所述分类概率中筛选出满足预设概率条件的目标分类概率,并判断所述目标分类概率是否大于或等于预设概率阈值;
如果所述目标分类概率大于或等于所述预设概率阈值,则判定所述待检测网页类别属于与所述目标分类概率对应的暗链类别;
如果所述目标分类概率小于所述预设概率阈值,则判断所述目标分类概率是否等于零;
如果所述目标分类概率等于零,则判定所述待检测网页类别属于正常网页类别;
如果所述目标分类概率不等于零,则记录所述待检测网页的统一资源定位符、所述待检测网页源代码和所述中文文本,以得到对所述动态词向量预训练模型进行下一次模型迭代训练的训练样本。
4.根据权利要求1至3任一项所述的暗链检测方法,其特征在于,所述利用动态词向量预训练模型的分词器并基于字符粒度对所述中文文本进行转化,以得到中文文本索引,包括:
基于预设汉字确定规则从每句所述中文文本对应的汉字中分别确定出预设数量个汉字;
基于预设文本确定规则从所述中文文本中确定出预设文本数量个所述中文文本;
根据每句所述中文文本的所述预设数量个汉字和预设文本数量个所述中文文本确定出所述中文文本索引。
5.根据权利要求4所述的暗链检测方法,其特征在于,所述基于预设汉字确定规则从每句所述中文文本对应的汉字中分别确定出预设数量个汉字,包括:
分别判断每句所述中文文本中的汉字数量是否大于或等于预设数量;
如果是,则基于所述预设数量对每句所述中文文本对应的汉字进行截取操作,以得到所述预设数量个汉字;
如果否,则利用预设字符对每句所述中文文本对应的汉字进行补齐操作,以得到所述预设数量个汉字。
6.根据权利要求4所述的暗链检测方法,其特征在于,所述基于预设文本确定规则从所述中文文本中确定出预设文本数量个所述中文文本,包括:
判断所述中文文本对应的文本数量是否大于或等于预设文本数量;
如果是,则基于所述预设文本数量对所述中文文本进行截取操作,以得到预设文本数量个所述中文文本;
如果否,则利用预设数量维度的零向量对所述中文文本进行补齐操作,以得到预设文本数量个所述中文文本。
7.根据权利要求4所述的暗链检测方法,其特征在于,所述将所述向量化文本特征输入神经网络分类模型,以得到分类概率,包括:
利用全连接层分别对与每句所述中文文本的所述预设数量个汉字对应的所述向量化文本特征进行处理,以得到每句所述中文文本的句向量文本特征;
将所述句向量文本特征输入所述全连接层,以得到与暗链类别分别对应的所述分类概率。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州安恒信息技术股份有限公司,未经杭州安恒信息技术股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211527778.9/1.html,转载请声明来源钻瓜专利网。