[发明专利]基于卷积神经网络的赌博网站识别方法和系统在审
申请号: | 201711070078.0 | 申请日: | 2017-11-03 |
公开(公告)号: | CN108052523A | 公开(公告)日: | 2018-05-18 |
发明(设计)人: | 陈立国;张跃冬;袁晓彤;耿光刚;延志伟 | 申请(专利权)人: | 中国互联网络信息中心 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06K9/62;G06Q50/34 |
代理公司: | 北京君尚知识产权代理事务所(普通合伙) 11200 | 代理人: | 邱晓锋 |
地址: | 100190 北京*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 卷积 神经网络 赌博 网站 识别 方法 系统 | ||
本发明涉及一种基于卷积神经网络的赌博网站识别方法和系统。该方法包括以下步骤:批量获取网站的网页截图;标注网页截图的类别;以标注的网页截图作为训练数据,训练卷积神经网络模型;利用训练好的卷积神经网络模型对待预测网站的网页截图进行识别,判断其是否为赌博网站。该系统包括批量网页截图模块、网站类别标注模块、模型训练模块和预测模块。本发明通过深度神经网络对网站网页截图的特征进行学习,使用的是整个网站的截图,区别于使用网页里面的图片进行分类的方法,并且不再依靠网页源码中的文本信息,从根本上解决了该类不良网站的识别问题。
技术领域
本发明属于信息技术领域,涉及赌博网站检测技术,具体涉及一种基于卷积神经网络的赌博网站识别方法和系统。
背景技术
随着计算机技术的飞速发展,互联网走进了千家万户,但网络给人们带来信息和方便的同时,也带来了负面的信息。各种宣扬色情、暴力、赌博的不良内容充斥着网络,不仅严重污染着未成年人的心灵,也破坏了社会风气。
现有的针对赌博网站的检测技术主要包括提取网页的文本内容,对文本进行预处理、分词、特征选择、分类训练等步骤,通过基于文本的机器学习方法对网页进行分类,从而实现对网站分类的目的。
然而随着不良网站的不断迭代,基于多重JS加载形式的网站越来越多,由于难以提取文本内容,原本基于文本的检测方法难以奏效。又由于不良网站的模板不断迭代,基于文本的方法需要根据不同的模板通过人工不断更新提取文本的规则,费时费力。
发明内容
本发明提供一种基于卷积神经网络的赌博网站识别方法和系统,能够解决文本特征方法难以处理新出现的网站模板的问题,提高赌博网站检测的准确率。
判断一个网站是否为赌博网站,标准在于网页加载完成后是否具有赌博内容。因此本发明通过深度神经网络对网站网页截图的特征进行学习,使用的是整个网站的截图,区别于使用网页里面的图片进行分类的方法,并且不再依靠网页源码中的文本信息,从根本上解决了该类不良网站的识别问题。
本发明采用的技术方案如下:
一种基于卷积神经网络的赌博网站识别方法,包括以下步骤:
批量获取网站的网页截图;
标注网页截图的类别;
以标注的网页截图作为训练数据,训练卷积神经网络模型;
利用训练好的卷积神经网络模型对待预测网站的网页截图进行识别,判断其是否为赌博网站。
进一步地,对标注的网站网页截图进行预处理操作,以便于进行模型训练。
进一步地,所述预处理操作包括转灰度操作、缩放操作和/或白化操作。
进一步地,所述获取网站的网页截图包括使用多线程的网页加载渲染工具快速地实现大批量网页的加载和渲染,从而快速的获取网站的网页截图。
进一步地,采用人工方式标注网站网页截图的类别。
进一步地,所述卷积神经网络模型包括:输入层、两层卷积层、两层池化层、扁平化层、两层随机丢弃层和全连接层。
一种基于卷积神经网络的赌博网站识别系统,其包括:
批量网页截图模块,用于批量获取网站的网页截图;
网站类别标注模块,用于标注网页截图的类别;
模型训练模块,用于以标注的网页截图作为训练数据,训练卷积神经网络模型;
预测模块,用于利用训练好的卷积神经网络模型对待预测网站的网页截图进行识别,判断其是否为赌博网站。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国互联网络信息中心,未经中国互联网络信息中心许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711070078.0/2.html,转载请声明来源钻瓜专利网。