[发明专利]基于Web结构特征挖掘的网页类型自动识别方法在审
申请号: | 201710830492.0 | 申请日: | 2017-09-15 |
公开(公告)号: | CN107577783A | 公开(公告)日: | 2018-01-12 |
发明(设计)人: | 于富财;汪辉;文友枥;胡光岷;费高雷 | 申请(专利权)人: | 电子科技大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 成都宏顺专利代理事务所(普通合伙)51227 | 代理人: | 周永宏 |
地址: | 611731 四川省成*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 web 结构 特征 挖掘 网页 类型 自动识别 方法 | ||
1.基于Web结构特征挖掘的网页类型自动识别方法,其特征在于,包括以下步骤:
S1、通过爬虫系统获取网页源码集;
S2、对网页源码进行预处理;
S3、进行网页特征提取;
S4、运用机器学习中分类算法构造分类器,通过分类器完成网页类型的自动识别。
2.根据权利要求1所述的基于Web结构特征挖掘的网页类型自动识别方法,其特征在于,所述步骤S2包括以下子步骤:
S21、清理噪声标签,把对目标网页类型正确自动识别有帮助的特征称为积极特征;把对目标网页类型正确自动识别无帮助的特征称为消极特征,将消极特征作为噪声标签清除;具体包括以下步骤:
S211、用JAVA的API接口将网页源码解析成DOM树;
S212、遍历DOM树的标签节点,判断当前标签是否属于待清除节点,若是则清除该标签节点并遍历下一个标签节点,否则将该标签节点添加到标签节点集中;
S22、对标签节点集中的标签信息进行预处理,对单个标签节点进行处理,获取标签节点的标签结构信息。
3.根据权利要求1所述的基于Web结构特征挖掘的网页类型自动识别方法,其特征在于,所述步骤S3包括以下子步骤:
S31、采用正则匹配方法提取URL特征;
S32、提取文本标签特征,包括以下步骤:
S321、根据网页源码预处理中保留的标签信息,挖掘标签的9个属性:标签序号、标签文本长度、左标签长度、右标签长度、标签文本标点符号数量、标签层次、叶子标签合并个数、非叶子标签合并个数和标签合并个数;
S322、根据标签属性,定义用于存储标签属性信息的标签属性信息结构体,将标签属性变化为连续值的量度值;
S323、选定标签以及对应的属性,对属性相同的标签进行合并处理;
S33、提取页面特征,包括以下步骤:
S331、提取超链接特征,使用计算相似度来过滤噪声网页,提取网页超链接数量特征,计算相似度的方法为:
式中,分子表示当前网页URL的字符与超链接URL的字符进行字符串匹配,从左到右进行逐一匹配的相同字符数,分母是表示两种URL长度的最大值;
设置相似度的阈值T为0.5,若相似度大于0.5则超链接特征加1,否则不操作;
S332、提取网页源码大小特征,将网页源码解析为字符串形式,采用字符串的内置函数size()求出字符串的大小即网页源码大小。
4.根据权利要求1所述的基于Web结构特征挖掘的网页类型自动识别方法,其特征在于,所述步骤S4具体实现方法为:将多分类过程转换为四个二分类过程,即新闻类和非新闻类、论坛类和非论坛类、商务类和非商务类、博客类和非博客类;采用C4.5算法构建四个不同的分类器,分别识别新闻网页、论坛网页、商务类网页以及博客类网页。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于电子科技大学,未经电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710830492.0/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种输送带式卸粮装置
- 下一篇:一种散料缓冲装置