[发明专利]一种面向网页的不良Web内容识别方法有效
申请号: | 201110312691.5 | 申请日: | 2011-10-15 |
公开(公告)号: | CN102332028A | 公开(公告)日: | 2012-01-25 |
发明(设计)人: | 郑庆华;刘子奇;刘均;田振华;程晓程 | 申请(专利权)人: | 西安交通大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 西安通大专利代理有限责任公司 61200 | 代理人: | 朱海临 |
地址: | 710049 *** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 面向 网页 不良 web 内容 识别 方法 | ||
技术领域
本发明涉及互联网中文本分类技术,特别涉及一种面向互联网中网页的不良Web内容识别方法,应用机器学习领域的特征抽取及分类技术完成最终的判别。
背景技术
随着互联网的飞速发展,不良网络文化内容充斥其中,色情网页的大量出现更是严重影响青少年的健康成长。自动识别互联网中充斥的各种色情网页亟待解决。申请人经过查新,检索到三篇与本发明相关的属于不良网络内容识别领域的专利文献,它们分别是:①基于内容的网络色情图像和不良图像检测系统(申请号200510048577.0)。②一种基于URL的不良网页识别方法(申请号200910023926.1)。③一种基于多分类器融合的敏感网页过滤方法及系统(申请号200710065181.6)。
在上述专利①中,发明人提出的检测系统含有图标检测子系统,筛选出多数为网站广告之类的窄条形状和尺寸太小的网络图像;文本检测子系统,判断出文本图像和可疑图像;颜色检测子系统,分析图像的颜色组成,通过颜色空间的实验比较建立肤色模型,通过检测网络图像肤色暴露程度,分离出网页正常图像和可疑图像;姿态检测子系统,建立色情标准图像特征库,作为判决是否为色情图像的匹配相似性的依据,区分出网页正常图像和可疑图像。
在专利②中,发明人提出的方法是通过URL主域名部分的语义分析和整个URL的结构分析来判别其是否为色情站点URL。判别时,提取了URL所包含的敏感串特征与结构特征两类特征作为判别的依据,并采用将和SVM算法综合起来的判别器最终综合特征进行二分类得到判别结果。该发明在不需要获取网页内容的情况下就可以进行不良网页内容判别,从而快速地识别不良网页。
在专利③中,处理对象是一幅网页,其处理结果是该网页是否包含敏感内容。系统基于多个分类器的协作,在给定网页的统一资源定位器的条件下,获取该网页的源代码,在预处理阶段进行文本和图像的分流,获取文本信息和有效图像信息;利用决策树算法将输入网页分为三种样式;利用连续文本分类器、离散敏感文本分类器和图像分类器对网页进行识别,根据各分类器识别的输出结果进行融合计算,给出判别因子,将最终结果返回给浏览器。
根据上述查新,现有技术主要存在以下两个方面的问题:
1.现有专利多采用直接识别文件对象中的图像信息的方式,通常色情页面包含大量图片信息,而现有图片识别技术的精度和效率都离实际应用有一定距离。
2.现有专利中大量基于文本内容的识别方法中,均没有考虑区分真正色情内容和疑似色情内容,如性保健、性知识等文本中同样会包含很多色情词汇。
在互联网高速发展的今天,不良内容网页充斥其中并快速增长。由于不良内容网页具有海量、动态的特点,人工检查的方式效率低下,自动、高效、准确的不良网页识别方法亟待提出。随着基于统计的分类模型技术的成熟,如SVM、决策树等模型的广泛应用,为不良网页识别提供了技术基础。
发明内容
本发明的目的是,一方面,利用页面结构信息构建不良页面识别器,利用机器学习的方法训练识别色情内容的分类器,在不考虑图片识别的前提下为针对该类页面的准确识别提供了新思路;另一方面,利用真正不良页面和疑似不良页面如性知识、性保健文本分别作为训练数据中的正例和负例,构造分类器识别这两类容易混淆的页面。
为达到以上目的,本发明是采取如下技术方案予以实现的:
一种面向网页的不良Web内容识别方法,其特征在于,包括下述步骤:
第一步,提取网页视觉结构、HTML标签、链接三类信息,分别从3类信息中提取12维特征,利用决策树构建的二元分类模型识别当前网页的12维特征,如果判定是不良网页,则标记该网页为不良网页,否则执行第二步;
第二步,提取网页文本内容和特定HTML标签内容,其中特定HTML标签包括title、A标签;由人工设置初始种子色情词汇19个并自动迭代生成最终色情词典,并通过学习到的规则判别正常页面和疑似色情页面;在此基础上,基于文档频率和信息增益方法在整个文档集上抽取特征词,利用SVM模型从疑似色情网页中识别色情网页;
其中,第一步所述的基于页面结构分析的识别方法包括如下具体步骤:
Step1:通过分析大量不良网站的页面,将视觉特征、HTML标签特征、链接特征三类特征具体细化为12维特征向量定义为Fstruct,包括F1,F2,F3,…,F12,其中每一维对应一个特征值,这些特征值对应如下:
视觉结构
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安交通大学,未经西安交通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110312691.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:展示系统
- 下一篇:车辆用时钟弹簧的自动锁定机构