[发明专利]一种色情信息源的定位方法和系统有效
申请号: | 201210574358.6 | 申请日: | 2012-12-26 |
公开(公告)号: | CN103902557B | 公开(公告)日: | 2018-01-30 |
发明(设计)人: | 夏玉溪;杨腾海;汪蕾蕾;张刚;陈其勇;周松;翁先正;郭麟;王宇;罗勇 | 申请(专利权)人: | 中国移动通信集团贵州有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京中誉威圣知识产权代理有限公司11279 | 代理人: | 郭振兴,丛芳 |
地址: | 550004*** | 国省代码: | 贵州;52 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 色情 信息源 定位 方法 系统 | ||
1.一种色情信息源的定位方法,其特征在于,分析网站结构、网站页面内容结构和页面链接信息,并对分析结果根据预设判决规则进行判断,获得色情网站页面地址清单;
所述分析网站结构进一步包括分析网站页面级数和每一级的页面数量;
所述预设判决规则包括:
对网站页面内容结构的分析结果满足以下要求:
页面的所有非边沿区域的图片长宽解析度超过第一预设比例聚焦于不多于第一预设值粒度的范围,并且,
页面的所有非边沿区域的图片尺寸超过第二预设比例聚焦于不多于第二预设值粒度的范围,并且,
对页面链接信息的分析结果满足以下要求:
图片作为入口的比率大于第三预设比例,并且下级页面的对网站页面内容结构的分析结果满足以下要求:
页面的所有非边沿区域的图片长宽解析度超过第一预设比例聚焦于不多于第一预设值粒度的范围,并且,
页面的所有非边沿区域的图片尺寸超过第二预设比例聚焦于不多于第二预设值粒度的范围。
2.根据权利要求1所述的一种色情信息源的定位方法,其特征在于,还包括以下步骤:
采集所述色情网站页面地址清单中页面数据的用户消费行为特征信息,进行分析,进一步判断色情网站页面地址清单。
3.根据权利要求1所述的一种色情信息源的定位方法,其特征在于,所述分析网站页面内容结构进一步包括以下步骤:
将网站页面内容进行分类,并分析不同类别内容的项目数量和比率;
分析每一级页面包含的不同类别内容的单项最大、最小和平均数据量;
依据所述每一级页面包含的不同类别内容的单项平均数据量,进行等分,设置尺寸粒度,分析每一级页面包含的不同类别内容的单项数据量在不同尺寸粒度的概率分布。
4.根据权利要求3所述的一种色情信息源的定位方法,其特征在于,将网站页面内容分为文字、图像、链接和视频片段。
5.根据权利要求4所述的一种色情信息源的定位方法,其特征在于,
所述分析页面链接信息是分析一个页面下所有第一级的下层链接页面本身与链接入口的关系,进一步包括以下步骤:
分析作为链接入口的文字、图片和图标的分布;
分析作为链接入口的文字、图片或图标的数目占本类项的页面总数目的比率。
6.根据权利要求2所述的一种色情信息源的定位方法,其特征在于,分析所述色情网站页面地址清单中页面数据的用户消费行为特征信息,进一步包括分析页面数据流量特征和分析单次消费。
7.根据权利要求6所述的一种色情信息源的定位方法,其特征在于,所述分析页面数据流量特征,进一步包括以下步骤:
提取和计算交互类指令频次;
提取和计算视频类数据传送频次。
8.根据权利要求7所述的一种色情信息源的定位方法,其特征在于,所述分析单次消费,进一步包括以下步骤:
提取和计算页面停留时间;
提取和计算合计下载时间。
9.根据权利要求8所述的一种色情信息源的定位方法,其特征在于,
所述进一步判断色情网站页面地址清单,是所述色情网站页面地址清单中的页面同时满足以下条件:
视频类数据传送频次与交互类指令频次的比值大于第三预设值,并且,
合计下载时间与页面停留时间的比值小于第四预设值,且大于第五预设值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国移动通信集团贵州有限公司,未经中国移动通信集团贵州有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210574358.6/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种无功功率补偿调节器的散热器
- 下一篇:智能电容器