[发明专利]一种互联网有害网址检测分析处理方法、装置和存储介质在审
申请号: | 202211190151.9 | 申请日: | 2022-09-28 |
公开(公告)号: | CN115544494A | 公开(公告)日: | 2022-12-30 |
发明(设计)人: | 张建军;刘立峰;刁海峰;王坤;吕鑫;田巍;王文重 | 申请(专利权)人: | 珠海高凌信息科技股份有限公司 |
主分类号: | G06F21/51 | 分类号: | G06F21/51;G06F16/55;G06F16/951;G06N3/04;G06N3/08 |
代理公司: | 广州嘉权专利商标事务所有限公司 44205 | 代理人: | 黄英杰 |
地址: | 519060 广东省*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 互联网 有害 网址 检测 分析 处理 方法 装置 存储 介质 | ||
本申请公开了一种互联网有害网址检测分析处理方法、装置和存储介质,其中方法包括获取网址图片和视频;对所述网址图片和视频进行细化处理,所述细化处理包括数据标准化、数据清洗、数据标注、数据分化和数据规模调整;利用视觉大模型对所述网址图片和视频进行特征提取;结合所述网址图片和视频的特征数据集训练所述视觉大模型,并调整所述视觉大模型的参数;使用CSP‑Darknet骨干模型网络对待分析网址进行特征提取并回归出目标位置;对回归到的目标图像进行类别分类,输出有害网址的图像判定结果。本申请能够实现图片与视频数据的统一特征提取,并通过CNN网络构建视觉深度模型,从而大大提升互联网有害内容准确率和适用范围。
技术领域
本申请涉及互联网有害网址检测领域,尤其是一种互联网有害网址检测分析处理方法、装置和存储介质。
背景技术
互联网上的文字、相关图片序列或者视频信息等构成。并且,当前的互联网有害内容检测方法基本都是基于文字处理,例如,常规的互联网有害内容检测模型通常处理文本内容或网址链接本身特征,然而,由于大量的网址网站通过采用反爬虫技术,无法获取文本信息,因此难以对网址网站中的文字进行有害内容检测。因此当前的处理方式无法针对反爬虫的网址内容进行处理,导致对互联网上有害内容的检测准确率不高。
因此,相关技术存在的上述技术问题亟待解决。
发明内容
本申请旨在解决相关技术中的技术问题之一。为此,本申请实施例提供一种互联网有害网址检测分析处理方法、装置和存储介质,能够有效对互联网网址进行有害内容的检测分析。
根据本申请实施例一方面,提供一种互联网有害网址检测分析处理方法,所述方法包括:
获取网址图片和视频;
对所述网址图片和视频进行细化处理,所述细化处理包括数据标准化、数据清洗、数据标注、数据分化和数据规模调整;
利用视觉大模型对所述网址图片和视频进行特征提取,其中,将所述网址图片和视频作为所述视觉大模型的输入,所述视觉大模型的输出为所述网址图片和视频的特征;
结合所述网址图片和视频的特征数据集训练所述视觉大模型,并调整所述视觉大模型的参数;
使用CSP-Darknet骨干模型网络对待分析网址进行特征提取并回归出目标位置;
对回归到的目标图像进行类别分类,输出有害网址的图像判定结果。
在其中一个实施例中,所述获取网址图片和视频,包括:
通过网络爬虫将网址的图片、视频视觉信息爬取,并存入相应的数据库中。
在其中一个实施例中,所述方法还包括:
对所述网址图片和视频进行数据预处理,所述数据预处理包括:
按预设要求对所述视频抽帧,得到连续的序列图像;
对所述网址图片和视频进行进行数据增强处理;
对所述网址图片和视频进行分辨率归一化处理。
在其中一个实施例中,所述数据增强处理包括进行色度变换、角度旋转、裁剪来增强样本泛化能力。
在其中一个实施例中,所述将所述网址图片和视频作为所述视觉大模型的输入,包括:
若所述视觉大模型的输入为视频,则将视频转化为序列图像,将t和t+1处的每对连续图像转换为单个图像,其中,t为帧时间。
在其中一个实施例中,所述视觉大模型包括数据输入、骨干模型网络、模型neck、检测头;
所述骨干模型网络基于Darknet53深度网络,包括CSP块,用于链接底层特征和高层信息;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于珠海高凌信息科技股份有限公司,未经珠海高凌信息科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211190151.9/2.html,转载请声明来源钻瓜专利网。