[发明专利]不良信息网站的检测方法、装置、设备及可读存储介质有效
申请号: | 202011009231.0 | 申请日: | 2020-09-23 |
公开(公告)号: | CN112187768B | 公开(公告)日: | 2022-10-21 |
发明(设计)人: | 杜帅;范渊 | 申请(专利权)人: | 杭州安恒信息技术股份有限公司 |
主分类号: | H04L9/40 | 分类号: | H04L9/40;G06F16/951;G06F16/906;G06N3/08;G06F40/30 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 张春辉 |
地址: | 310000 浙江省*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 不良信息 网站 检测 方法 装置 设备 可读 存储 介质 | ||
本申请公开了一种不良信息网站的检测方法,该方法基于统计学原理,首先利用非线性分类器根据网页数据对待检测网站进行初步分类,得到分类结果,以确定不良信息的信息类型;由于预先针对每种信息类型设置了对应的递归神经网络模型,因此,进一步利用与上述分类结果相对应的递归神经网络模型对待检测网站进行二次分类,得到最终的检测结果,从而实现在海量网页中快速查找并且精准定位违法和不良信息网站的目的,有效提升检测效率和检测准确度,为网络监管带来极大便利。此外,本申请还提供了一种不良信息网站的检测装置、设备及可读存储介质,其技术效果与上述方法的技术效果相对应。
技术领域
本申请涉及计算机技术领域,特别涉及一种不良信息网站的检测方法、装置、设备及可读存储介质。
背景技术
随着互联网技术的不断发展,搭建网站的成本越来越低、技术手段越来越简单,各种各样的网络服务不断涌出,不乏有博彩、色情、涉政、涉恐等违法和不良网络服务出现,导致网络监管压力逐年上升。
目前,网络监管治理对时效性和准确度要求越来越高,当前的检测方案无法及时有效的完成对违法和不良信息的查找和定位,并且覆盖面也不够。例如,目前针对违法和不良信息的检测方案大多都是基于网站文本的检测,检测到相关的文字描述或前后语句定位为违法和不良信息网站。这类检测都是基于文本分析或词库配合语义分析,明确网页内容。然而,基于关键字、词或者语义分析也有很高的误报率,通过内容匹配完成定位时,部分网站会被误报为违法和不良信息网站,比如官方指导文件、事件通报发文等,对实际的互联网治理造成了阻碍。
可见,针对违法和不良信息,当前的检测方案虽然能够做到部分检测,但是检测效率和检测准确度不能满足当下需求。因此,如何在海量网页中根据网页数据快读定位违法和不良信息网站,是亟待本领域技术人员解决的问题。
发明内容
本申请的目的是提供一种不良信息网站的检测方法、装置、设备及可读存储介质,用以解决当前的检测方案的检测效率和检测准确度较低的问题。其具体方案如下:
第一方面,本申请提供了一种不良信息网站的检测方法,包括:
利用非线性分类器,对待检测网站的网页数据进行分类,得到分类结果,所述分类结果用于描述不良信息的信息类型;
根据与所述分类结果相对应的特征模板,从所述网页数据中提取特征数据;
将所述特征数据输入与所述分类结果相对应的递归神经网络模型,得到所述待检测网站的检测结果。
优选的,所述利用非线性分类器,对待检测网站的网页数据进行分类,得到分类结果,包括:
对待检测网站的网页数据进行文本检测和语义分析,得到关键字内容和上下文语境;
利用非线性分类器,根据所述关键字内容和所述上下文语境,得到分类结果。
优选的,所述利用非线性分类器,对待检测网站的网页数据进行分类,得到分类结果,包括:
利用基于稀疏贝叶斯算法的非线性分类器,对待检测网站的网页数据进行分类,得到分类结果。
优选的,在所述利用非线性分类器,对待检测网站的网页数据进行分类,得到分类结果之前,还包括:
利用爬虫技术,获取待检测网站的网页数据。
优选的,还包括:
根据不良信息的各种信息类型,分别创建对应的数据库;
相应的,在所述利用非线性分类器,对待检测网站的网页数据进行分类,得到分类结果之后,还包括:
对所述网页数据进行结构化处理,为处理后的网页数据添加与所述分类结果相对应的类别标识,并存储至与所述分类结果相对应的数据库中。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州安恒信息技术股份有限公司,未经杭州安恒信息技术股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011009231.0/2.html,转载请声明来源钻瓜专利网。