[发明专利]基于模式库的智能手机端不良内容网站鉴别方法无效
申请号: | 201110146136.X | 申请日: | 2011-06-01 |
公开(公告)号: | CN102170640A | 公开(公告)日: | 2011-08-31 |
发明(设计)人: | 肖波;孙浩量;刘建树;肖顺华;李骥 | 申请(专利权)人: | 南通海韵信息技术服务有限公司 |
主分类号: | H04W12/12 | 分类号: | H04W12/12;H04L29/08;G06F17/30 |
代理公司: | 南京天翼专利代理有限责任公司 32112 | 代理人: | 陈建和 |
地址: | 226600 江苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 模式 智能手机 不良 内容 网站 鉴别方法 | ||
一、 技术领域
本发明涉及使用模式库对智能手机端不良网站内容进行鉴别的方法。
二、 背景技术
随着移动互联网的快速发展,其大大推进了智能手机移动产业的蓬勃发展。手机,同个人电脑一样,成为了一种重要的互联网接入与访问设备。据最新资料显示,我国手机用户已经达到了7亿之众,而通过手机平台进行上网的人士也已经超过了1.5亿。随之衍生的,手机淫秽色情网站,以及举不胜举的移动终端网络诈骗等也步入用户的视野。针对种种智能终端的安全缺口问题日趋严重化,如何对手机的网络访问进行有效的控制和保护,愈来愈成为一项重要的议题。目前的应对方法主要集中在清查和关闭各种低俗网站上,保护方式并没有覆盖整个色情信息的传递链条,还仅限于行政手段,应在各个环节均有保护和控制的手段,尤其是对于接入互联网的移动终端。另外,由于巨大利益的诱惑,国内外的手机色情网站层出不穷,仅依赖于关闭网站,必然有时延性和一定程度的遗漏率,存在很大的技术和防范漏洞,
三、 发明内容
本发明目的是:提供了一种应用在智能手机终端、利用可更新的分级模式库对网站内容进行分析,评判和反馈的系统方案。尤其是使用模式库对智能手机端可能进行访问的不良网站内容进行鉴别的方法。可以使智能手机自动隔离不良信息网站的不良影响;尤其是通过模式库中多元不良关键词来判决某页面内容是否为不良信息,判断的标准更加精确和全面。
本发明的目的是通过以下技术方案实现的:基于模式库的智能手机端不良内容网站鉴别方法,网络设有云端服务器提供模式库让智能手机端(客户端)下载。模式库(关键词模式库)以下述方式建立:(1)对现有不良网站内容样本作提取关键词处理,根据其出现频率与不良程度进行分级;将关键词模式库分为若干级,每级关键词模式库赋予独一的不良等级分数,分数越高,代表包含此级关键词模式库中关键词的内容为不良信息的可能性越大;(2)对于待访问网站所含内容,使用分词算法对其进行关键词提取处理;(3)将提取到的关键词与关键词模式库进行匹配,确定其所属模式库的等级,即获得该关键词所对应的不良等级分数,若无匹配模式库,此关键词的不良等级分数即为0;(4)将关键词的不良等级分数进行累加,当总和大于某一预设阈值时,即可判决此网页内容为不良信息;(5) 当某不良等级分数总和达不到阈值时,关键词模式库还提供语义线索行为判别方式;即在模式库中定义一个不良信息关键词序列 A、B、C、 D,其中A、B、C、 D均为不良关键词,其不良等级分数总和达不到阈值,但当某一网站内容以预设序列定义的顺序包含这四个关键词时,则判决此页面内容为不良信息;(6)将此不良网站内容上传至云端服务器;云端服务器作模式库更新,让客户端下载到最新的模式库。
本发明的特点是: 本发明提出的方案可以在智能手机终端上对不良信息网站进行鉴别。本发明充分利用模式库匹配技术和网络技术,尤其是使用分级模式库的方法对网站页面内容进行打分以获得其不良等级,以避免普通关键词匹配法的高误判率,可以使智能手机自动隔离不良信息网站的不良影响;同时使用语义线索行为判别法,弥补阈值判断法的不足,降低了漏判率。本发明尤其是通过模式库中多元不良关键词来判决某页面内容是否为不良信息,判断的标准更加精确和全面。本发明可以用于对网络的综合管理的技术手段。
四、 附图说明
图1为本发明中的方案的应用框图。
五、 具体实施方式
本发明中的判决算法在智能手机端不良内容鉴别系统中的应用框图如图1所示。
1. 生成不良网站内容关键词模式库。对现有不良网站内容样本作提取关键词处理,根据其出现频率与不良程度进行分级。可将关键词模式库分为若干级,每级模式库赋予独一的不良等级分数,分数越高,代表包含此级模式库中关键词的内容为不良信息的可能性越大;
2. 使用底层hook技术获得待访问网站内容,使用分词算法对其进行关键词提取处理;
3. 将提取到的关键词与模式库进行匹配,确定其所属模式库的等级,即获得该关键词所对应的不良等级分数,若无匹配模式库,此关键词的不良等级分数即为0;
4. 将关键词的不良等级分数进行累加,当总和大于某一预设阈值时,即可判决此网页内容为不良信息。可设多级阈值,根据客户端选择使用,阈值越高,漏判率越低,但误判率越高,阈值越低,漏判率越高,但误判率越低;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南通海韵信息技术服务有限公司,未经南通海韵信息技术服务有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110146136.X/2.html,转载请声明来源钻瓜专利网。