[发明专利]一种面向网页的不良Web内容识别方法有效
申请号: | 201110312691.5 | 申请日: | 2011-10-15 |
公开(公告)号: | CN102332028A | 公开(公告)日: | 2012-01-25 |
发明(设计)人: | 郑庆华;刘子奇;刘均;田振华;程晓程 | 申请(专利权)人: | 西安交通大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 西安通大专利代理有限责任公司 61200 | 代理人: | 朱海临 |
地址: | 710049 *** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种面向网页的不良Web内容识别方法,按照如下步骤:(1)以待识别的网页Page为输入,提取网页视觉结构信息、HTML标签信息、链接信息以及正文信息;(2)采用2层识别模型识别该Page是否是不良内容网页:首先采用面向网页结构的不良内容识别模型判别Page,如果Page判为不良则输出;否则采用面向网页文本内容的识别模型判别Page并输出结果;面向网页结构的不良内容识别模型采用决策树模型学习不良网页在页面结构中的规律并完成分类。面向网页文本内容的识别模型基于色情词典采用规则过滤明显为正常的网页,对剩下的疑似色情网页要区分的性知识类网页和真正色情网页,构建正负例比例1∶1的训练数据,抽取特征词采用SVM分类模型学习规律并完成最终识别。 | ||
搜索关键词: | 一种 面向 网页 不良 web 内容 识别 方法 | ||
【主权项】:
一种面向网页的不良Web内容识别方法,其特征在于,包括如下步骤:第一步,提取网页视觉结构、HTML标签、链接三类信息,分别从3类信息中提取12维特征,利用决策树构建的二元分类模型识别当前网页的12维特征,如果判定是不良网页,则标记该网页为不良网页,否则执行第二步;第二步,提取网页文本内容和特定HTML标签内容,其中特定HTML标签包括title、A标签;由人工设置初始种子色情词汇并自动迭代生成最终色情词典,并通过学习到的规则判别正常页面和疑似色情页面;在此基础上,基于文档频率和信息增益方法在整个文档集上抽取特征词,利用SVM模型从疑似色情网页中识别色情网页;上述方案中,第一步所述的基于页面结构分析的识别方法包括如下具体步骤:Step1:通过分析大量不良网站的页面,将视觉特征、HTML标签特征、链接特征三类特征具体细化为12维特征向量定义为Fstruct,包括F1,F2,F3,…,F12,其中每一维对应一个特征值,这些特征值对应如下:视觉结构A.F1:背景颜色BGColor;获取方法:背景颜色对应标签属性为“background”的属性值;特征值类型:枚举型;B.F2:页面主体是否由一张大图片占据BigPicOccup;获取方法:检查img标签中图像的宽度和高度属性值;特征值类型:布尔型;C.F3:图片个数PicN;获取方法:统计整个html中标签为IMG的个数;特征值类型:数值型;D.F4:同级图片连续出现数目最大值MaxOccurPic;获取方法:统计html页面中所有兄弟节点中连续IMG标签个数;特征值类型:数值型;E.F5:字体信息FontInfo;获取方法:检查font标签中face属性值、size属性值;特征值类型:枚举型;链接结构F.F6:出现超链接个数HyplinkN;获取方法:计算整个html页面中A标签个数;特征值类型:数值型;G.F7:所有超链接实际指向的不同URL数目UrlOutN;获取方法:遍历整个html,每次遍历到A标签,判断如果该A标签中的URL是否在Hash表中存储,如果未存储则计数加1,并将该URL存储在Hash表中,否则继续遍历,直到遍历完整个html,最终的计数就是该特征值:特征值类型:数值型;H.F8:同级超链接连续出现数目最大值MaxHyplinkOccurN;获取方法:经过BeautifulSoup解析html后得到一张树形结构,计算树中每个级别的连续A标签个数的最大值;特征值类型:数值型;标签结构I.F9锚文本长度Alen;获取方法:计算标签A中NavigableString的长度,NavigableString定义为起始标签和结束标签中间的字符;特征值类型:数值型;J.F10:标签A中title属性长度TitleLen;获取方法:计算A标签中title属性对应的字符串的长度;特征值类型:数值型;K.F11:Title标签包含的NavigableString长度TitleNavstrLen;获取方法:计算Title标签包含的NavigableString长度;特征值类型:数值型;L.F12:Meta标签包含的NavigableString长度MetaNavstrLen;获取方法:计算Meta标签包含的NavigableString长度;特征值类型:数值型;Step2:借助于HTML解析工具计算每一维特征值,并为每个页面生成对应的特征向量,特征向量中每一维值对应上述12维特征计算得到的特征值;Step3:利用决策树J48方法训练得到判别模型,1)训练数据构造如下:从门户网站如新浪、腾讯、天涯论坛搜集正常网页作为正例,从色情网站搜集不良网页作为负例,正负样例比例为1∶10;2)取所有12维属性作为属性集Fstruct,包括F1,F2,F3,…,F12;3)遍历属性集中所有属性,分别计算每个属性对应的信息增益率,取具有最大信息增益率的属性F为当前根属性,并从属性集FStruct中删除该属性;4)重复步骤3)直到属性集为空或者当前根属性不再划分数据集;Step4:对于输入网页,采用Step1、2中的方法计算该网页中的特征向量,并作为输入到Step3中训练出的决策树模型,最后判别输出该网页属于正常网页还是不良网页;第二步所述的基于文本的识别方法包括如下具体步骤:Step1:人工设定种子色情词汇,根据文档频率DF、共现句子频率CoSenFreq、最短距离MinDist和词性POS的指标生成色情词汇,并通过常领域文本集过滤,最终形成色情词典PornDic;Step2:基于上一步生成的色情词典PornDic,结合规则识别正常网页NorPage和疑似色情网页SuspPage;Step3:以真正色情网页和疑似色情网页如性知识网页1∶1比例构造训练数据集,抽取特征词形成特征向量,最终通过SVM学习得到二元分类模型,识别疑似色情网页是否是真正色情网页。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安交通大学,未经西安交通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201110312691.5/,转载请声明来源钻瓜专利网。
- 上一篇:展示系统
- 下一篇:车辆用时钟弹簧的自动锁定机构