[发明专利]一种网站检测的方法和系统有效
申请号: | 201910457676.6 | 申请日: | 2019-05-29 |
公开(公告)号: | CN110336790B | 公开(公告)日: | 2021-05-25 |
发明(设计)人: | 陈潜森;林汉荣;秦诚 | 申请(专利权)人: | 网宿科技股份有限公司 |
主分类号: | H04L29/06 | 分类号: | H04L29/06;H04L29/08;G06K9/34;G06K9/62 |
代理公司: | 北京华智则铭知识产权代理有限公司 11573 | 代理人: | 王昌贵 |
地址: | 200030 上海市徐汇*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 网站 检测 方法 系统 | ||
本发明公开了一种网站检测的方法和系统,属于计算机技术领域。所述方法包括:所述云平台接收携带有目标URL的网站检测请求,将所述网站检测请求转发至所述目标URL对应的目标边缘设备;所述目标边缘设备获取所述目标URL对应的页面截图,基于预设的文字识别算法和/或图片分析模型分析所述页面截图,生成分析结果;所述目标边缘设备向所述网站检测请求的发送端反馈所述分析结果。采用本发明,可以有效降低网站检测的成本,提高网站检测的效率,减少带宽流量的消耗,以及缩短网站检测的延时。
技术领域
本发明涉及计算机技术领域,特别涉及一种网站检测的方法和系统。
背景技术
近几年伴随着互联网的飞速发展,互联网上的网站也越来越多,网站的内容也越来越丰富、多样,而很多包含违法违规内容的网站也频繁出现,或者网站受恶意攻击导致网页被劫持、被篡改而出现了违法违规内容。因此,网站监管已成为当前互联网领域的热门需求。
目前网站监管大多采用人工检测的方式进行,当需要对某个网站是否包含违法违规内容进行检测时,网站方可以将网站的文本图片上传至网站监管方,然后由网络管理员对上述文本图片内容进行人工检测,从而判断相应网站中是否包含有违法违规内容。
在实现本发明的过程中,发明人发现现有技术至少存在以下问题:
由于目前网站的数量、内容均不断的增加,需要人工检测的文本及图片数量众多,首先针对大量文本及图片的审核需要消耗大量的人力、时间成本;其次将大量文本及图片上传给网站监管方,带宽流量消耗和检测延时均较高,因此目前网站检测的难度大、效率低、速度慢、成本高。
发明内容
为了解决现有技术的问题,本发明实施例提供了一种网站检测的方法和系统。所述技术方案如下:
第一方面,提供了一种网站检测的方法,所述方法应用于边缘计算系统,所述边缘计算系统包括云平台和分布式部署的多台边缘设备,其中:
所述云平台接收携带有目标URL的网站检测请求,将所述网站检测请求转发至所述目标URL对应的目标边缘设备;
所述目标边缘设备获取所述目标URL对应的页面截图,基于预设的文字识别算法和/或图片分析模型分析所述页面截图,生成分析结果;
所述目标边缘设备向所述网站检测请求的发送端反馈所述分析结果。
可选的,所述基于预设的文字识别算法和/或图片分析模型分析所述页面截图,生成分析结果,包括:
所述目标边缘设备基于OCR技术识别所述页面截图中的文字,并基于AC 自动机算法将识别出的文字与违规文本库进行比对,生成文本分析结果;和/或,
所述目标边缘设备基于图片分析模型检测所述页面截图中是否包含违规图片,生成图片分析结果。
可选的,所述方法还包括:
所述目标边缘设备根据所述图片分析结果对所述图片分析模型进行训练,以更新所述图片分析模型的模型参数。
可选的,所述目标边缘设备根据所述图片分析结果对所述图片分析模型进行训练,包括:
如果接收到所述发送端发送的结果确认消息,所述目标边缘设备则根据所述图片分析结果对所述图片分析模型进行训练,否则丢弃所述图片分析结果。
可选的,所述目标边缘设备根据所述图片分析结果对所述图片分析模型进行训练之前,还包括:
所述目标边缘设备基于预设的图片信息检测算法对所述图片分析结果进行检测,根据检测结果调整所述图片分析结果;或者,
所述目标边缘设备接收针对所述图片分析结果的人工调整指令,根据所述人工调整指令调整所述图片分析结果。
可选的,所述方法还包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于网宿科技股份有限公司,未经网宿科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910457676.6/2.html,转载请声明来源钻瓜专利网。