[发明专利]一种暗链检测方法、装置、设备及存储介质在审
| 申请号: | 202211527778.9 | 申请日: | 2022-12-01 |
| 公开(公告)号: | CN116306567A | 公开(公告)日: | 2023-06-23 |
| 发明(设计)人: | 朱陈思聪;陈建勇 | 申请(专利权)人: | 杭州安恒信息技术股份有限公司 |
| 主分类号: | G06F40/205 | 分类号: | G06F40/205;G06F40/151;G06F40/289;G06F40/30;G06F16/35;G06F21/56 |
| 代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 魏亚茹 |
| 地址: | 310000 浙江省*** | 国省代码: | 浙江;33 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 检测 方法 装置 设备 存储 介质 | ||
本申请公开了一种暗链检测方法、装置、设备及存储介质,涉及网络技术领域,包括:解析待检测网页源代码得到中文文本;利用动态词向量预训练模型的分词器并基于字符粒度对中文文本进行转化,得到中文文本索引;将中文文本索引输入动态词向量预训练模型,并利用自注意力机制结合上下文语境对与中文文本索引对应的每个汉字分配预设维度的动态词向量,得到向量化文本特征;将向量化文本特征输入神经网络分类模型得到分类概率,基于分类概率确定待检测网页是否属于暗链。本申请利用动态词向量结合神经网络推断字词在当前语境是否合理,避免中文语义的误报,并按照字符粒度对中文文本进行切分,避免使用中文分词技术所带来的漏报混淆后敏感词的问题。
技术领域
本发明涉及网络技术领域,特别涉及一种暗链检测方法、装置、设备及存储介质。
背景技术
暗链,又称“黑链”、“隐链”,是指看不见但可以被搜索引擎识别并计算权重的外链,入侵者通过非法技术在网页中植入暗链,能够达到提高暗链所指网站的搜索引擎排名并从中盈利的目的,暗链的植入不仅影响了网站的正常运行,而且向公众传播了大量非法信息,危害巨大。
现有技术中,结合自然语言处理技术,利用中文分词技术和基于邻近算法模型可以理解网页中的上下文语境,一定程度上缓解误报的问题,但其依赖于中文分词技术,因此存在OOV(Out-Of-Vocabulary,即未登录词)问题,很容易被黑词混淆技术(利用“六台彩”替代“六合彩”)绕过,因此依旧存在漏报的问题。另一方面,该技术提取文本特征时使用的是静态词向量,无法解决一词多义问题,继而无法准确理解中文语义。具体来说,对于同一个字“大”来说,在“这个房间很大”和“这个算法的误差很大”两个语境中明显含义不同,但静态词向量却用同一个向量来表示,会造成很大的误差。
发明内容
有鉴于此,本发明的目的在于提供一种暗链检测方法,能够利用动态词向量预训练模型结合神经网络分类模型推断字词在当前语境是否合理,避免中文语义的误报问题,并按照字符粒度对中文文本进行切分,避免使用中文分词技术所带来的漏报混淆后敏感词的问题。其具体方案如下:
第一方面,本申请提供了一种暗链检测方法,包括:
获取待检测网页源代码并对所述待检测网页源代码进行解析,以得到中文文本;
利用动态词向量预训练模型的分词器并基于字符粒度对所述中文文本进行转化,以得到中文文本索引;
将所述中文文本索引输入所述动态词向量预训练模型,并利用自注意力机制结合上下文语境对与所述中文文本索引对应的每个汉字进行预设维度的动态词向量分配处理,以得到向量化文本特征;
将所述向量化文本特征输入神经网络分类模型,以得到分类概率,并基于所述分类概率确定待检测网页类别是否属于暗链类别。
可选的,所述获取待检测网页源代码并对所述待检测网页源代码进行解析之前,还包括:
收集敏感词、混淆后敏感词、正常文本和包含所述敏感词的正常文本,以构建训练集;
利用所述训练集对初始动态词向量预训练模型进行微调训练,以得到所述动态词向量预训练模型。
可选的,所述基于所述分类概率确定待检测网页类别是否属于暗链类别,包括:
从所述分类概率中筛选出满足预设概率条件的目标分类概率,并判断所述目标分类概率是否大于或等于预设概率阈值;
如果所述目标分类概率大于或等于所述预设概率阈值,则判定所述待检测网页类别属于与所述目标分类概率对应的暗链类别;
如果所述目标分类概率小于所述预设概率阈值,则判断所述目标分类概率是否等于零;
如果所述目标分类概率等于零,则判定所述待检测网页类别属于正常网页类别;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州安恒信息技术股份有限公司,未经杭州安恒信息技术股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211527778.9/2.html,转载请声明来源钻瓜专利网。





