[发明专利]一种互联网有害网址检测分析处理方法、装置和存储介质在审

申请号：	202211190151.9	申请日：	2022-09-28
公开（公告）号：	CN115544494A	公开（公告）日：	2022-12-30
发明（设计）人：	张建军;刘立峰;刁海峰;王坤;吕鑫;田巍;王文重	申请（专利权）人：	珠海高凌信息科技股份有限公司
主分类号：	G06F21/51	分类号：	G06F21/51;G06F16/55;G06F16/951;G06N3/04;G06N3/08
代理公司：	广州嘉权专利商标事务所有限公司 44205	代理人：	黄英杰
地址：	519060 广东省***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种互联网有害网址检测分析处理方法装置存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本申请公开了一种互联网有害网址检测分析处理方法、装置和存储介质，其中方法包括获取网址图片和视频；对所述网址图片和视频进行细化处理，所述细化处理包括数据标准化、数据清洗、数据标注、数据分化和数据规模调整；利用视觉大模型对所述网址图片和视频进行特征提取；结合所述网址图片和视频的特征数据集训练所述视觉大模型，并调整所述视觉大模型的参数；使用CSP‑Darknet骨干模型网络对待分析网址进行特征提取并回归出目标位置；对回归到的目标图像进行类别分类，输出有害网址的图像判定结果。本申请能够实现图片与视频数据的统一特征提取，并通过CNN网络构建视觉深度模型，从而大大提升互联网有害内容准确率和适用范围。

技术领域

本申请涉及互联网有害网址检测领域，尤其是一种互联网有害网址检测分析处理方法、装置和存储介质。

背景技术

互联网上的文字、相关图片序列或者视频信息等构成。并且，当前的互联网有害内容检测方法基本都是基于文字处理，例如，常规的互联网有害内容检测模型通常处理文本内容或网址链接本身特征，然而，由于大量的网址网站通过采用反爬虫技术，无法获取文本信息，因此难以对网址网站中的文字进行有害内容检测。因此当前的处理方式无法针对反爬虫的网址内容进行处理，导致对互联网上有害内容的检测准确率不高。

因此，相关技术存在的上述技术问题亟待解决。

发明内容

本申请旨在解决相关技术中的技术问题之一。为此，本申请实施例提供一种互联网有害网址检测分析处理方法、装置和存储介质，能够有效对互联网网址进行有害内容的检测分析。

根据本申请实施例一方面，提供一种互联网有害网址检测分析处理方法，所述方法包括：

获取网址图片和视频；

对所述网址图片和视频进行细化处理，所述细化处理包括数据标准化、数据清洗、数据标注、数据分化和数据规模调整；

利用视觉大模型对所述网址图片和视频进行特征提取，其中，将所述网址图片和视频作为所述视觉大模型的输入，所述视觉大模型的输出为所述网址图片和视频的特征；

结合所述网址图片和视频的特征数据集训练所述视觉大模型，并调整所述视觉大模型的参数；

使用CSP-Darknet骨干模型网络对待分析网址进行特征提取并回归出目标位置；

对回归到的目标图像进行类别分类，输出有害网址的图像判定结果。

在其中一个实施例中，所述获取网址图片和视频，包括：

通过网络爬虫将网址的图片、视频视觉信息爬取，并存入相应的数据库中。