[发明专利]基于Web结构特征挖掘的网页类型自动识别方法在审

专利信息
申请号: 201710830492.0 申请日: 2017-09-15
公开(公告)号: CN107577783A 公开(公告)日: 2018-01-12
发明(设计)人: 于富财;汪辉;文友枥;胡光岷;费高雷 申请(专利权)人: 电子科技大学
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 成都宏顺专利代理事务所(普通合伙)51227 代理人: 周永宏
地址: 611731 四川省成*** 国省代码: 四川;51
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 web 结构 特征 挖掘 网页 类型 自动识别 方法
【权利要求书】:

1.基于Web结构特征挖掘的网页类型自动识别方法,其特征在于,包括以下步骤:

S1、通过爬虫系统获取网页源码集;

S2、对网页源码进行预处理;

S3、进行网页特征提取;

S4、运用机器学习中分类算法构造分类器,通过分类器完成网页类型的自动识别。

2.根据权利要求1所述的基于Web结构特征挖掘的网页类型自动识别方法,其特征在于,所述步骤S2包括以下子步骤:

S21、清理噪声标签,把对目标网页类型正确自动识别有帮助的特征称为积极特征;把对目标网页类型正确自动识别无帮助的特征称为消极特征,将消极特征作为噪声标签清除;具体包括以下步骤:

S211、用JAVA的API接口将网页源码解析成DOM树;

S212、遍历DOM树的标签节点,判断当前标签是否属于待清除节点,若是则清除该标签节点并遍历下一个标签节点,否则将该标签节点添加到标签节点集中;

S22、对标签节点集中的标签信息进行预处理,对单个标签节点进行处理,获取标签节点的标签结构信息。

3.根据权利要求1所述的基于Web结构特征挖掘的网页类型自动识别方法,其特征在于,所述步骤S3包括以下子步骤:

S31、采用正则匹配方法提取URL特征;

S32、提取文本标签特征,包括以下步骤:

S321、根据网页源码预处理中保留的标签信息,挖掘标签的9个属性:标签序号、标签文本长度、左标签长度、右标签长度、标签文本标点符号数量、标签层次、叶子标签合并个数、非叶子标签合并个数和标签合并个数;

S322、根据标签属性,定义用于存储标签属性信息的标签属性信息结构体,将标签属性变化为连续值的量度值;

S323、选定标签以及对应的属性,对属性相同的标签进行合并处理;

S33、提取页面特征,包括以下步骤:

S331、提取超链接特征,使用计算相似度来过滤噪声网页,提取网页超链接数量特征,计算相似度的方法为:

SimURL=Common(URL,URL1)Max(lenurl,lenurl1)]]>

式中,分子表示当前网页URL的字符与超链接URL的字符进行字符串匹配,从左到右进行逐一匹配的相同字符数,分母是表示两种URL长度的最大值;

设置相似度的阈值T为0.5,若相似度大于0.5则超链接特征加1,否则不操作;

S332、提取网页源码大小特征,将网页源码解析为字符串形式,采用字符串的内置函数size()求出字符串的大小即网页源码大小。

4.根据权利要求1所述的基于Web结构特征挖掘的网页类型自动识别方法,其特征在于,所述步骤S4具体实现方法为:将多分类过程转换为四个二分类过程,即新闻类和非新闻类、论坛类和非论坛类、商务类和非商务类、博客类和非博客类;采用C4.5算法构建四个不同的分类器,分别识别新闻网页、论坛网页、商务类网页以及博客类网页。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于电子科技大学,未经电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201710830492.0/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top