[发明专利]基于Web结构特征挖掘的网页类型自动识别方法在审

申请号：	201710830492.0	申请日：	2017-09-15
公开（公告）号：	CN107577783A	公开（公告）日：	2018-01-12
发明（设计）人：	于富财;汪辉;文友枥;胡光岷;费高雷	申请（专利权）人：	电子科技大学
主分类号：	G06F17/30	分类号：	G06F17/30
代理公司：	成都宏顺专利代理事务所(普通合伙)51227	代理人：	周永宏
地址：	611731 四川省成***	国省代码：	四川;51
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于 web 结构特征挖掘网页类型自动识别方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.基于Web结构特征挖掘的网页类型自动识别方法，其特征在于，包括以下步骤：

S1、通过爬虫系统获取网页源码集；

S2、对网页源码进行预处理；

S3、进行网页特征提取；

S4、运用机器学习中分类算法构造分类器，通过分类器完成网页类型的自动识别。

2.根据权利要求1所述的基于Web结构特征挖掘的网页类型自动识别方法，其特征在于，所述步骤S2包括以下子步骤：

S21、清理噪声标签，把对目标网页类型正确自动识别有帮助的特征称为积极特征；把对目标网页类型正确自动识别无帮助的特征称为消极特征，将消极特征作为噪声标签清除；具体包括以下步骤：

S211、用JAVA的API接口将网页源码解析成DOM树；

S212、遍历DOM树的标签节点，判断当前标签是否属于待清除节点，若是则清除该标签节点并遍历下一个标签节点，否则将该标签节点添加到标签节点集中；

S22、对标签节点集中的标签信息进行预处理，对单个标签节点进行处理，获取标签节点的标签结构信息。

3.根据权利要求1所述的基于Web结构特征挖掘的网页类型自动识别方法，其特征在于，所述步骤S3包括以下子步骤：

S31、采用正则匹配方法提取URL特征；

S32、提取文本标签特征，包括以下步骤：

S321、根据网页源码预处理中保留的标签信息，挖掘标签的9个属性：标签序号、标签文本长度、左标签长度、右标签长度、标签文本标点符号数量、标签层次、叶子标签合并个数、非叶子标签合并个数和标签合并个数；

S322、根据标签属性，定义用于存储标签属性信息的标签属性信息结构体，将标签属性变化为连续值的量度值；

S323、选定标签以及对应的属性，对属性相同的标签进行合并处理；

S33、提取页面特征，包括以下步骤：

S331、提取超链接特征，使用计算相似度来过滤噪声网页，提取网页超链接数量特征，计算相似度的方法为：

SimURL=Common(URL,URL1)Max(lenurl,lenurl1)]]>

式中，分子表示当前网页URL的字符与超链接URL的字符进行字符串匹配，从左到右进行逐一匹配的相同字符数，分母是表示两种URL长度的最大值；

设置相似度的阈值T为0.5，若相似度大于0.5则超链接特征加1，否则不操作；

S332、提取网页源码大小特征，将网页源码解析为字符串形式，采用字符串的内置函数size()求出字符串的大小即网页源码大小。

4.根据权利要求1所述的基于Web结构特征挖掘的网页类型自动识别方法，其特征在于，所述步骤S4具体实现方法为：将多分类过程转换为四个二分类过程，即新闻类和非新闻类、论坛类和非论坛类、商务类和非商务类、博客类和非博客类；采用C4.5算法构建四个不同的分类器，分别识别新闻网页、论坛网页、商务类网页以及博客类网页。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于电子科技大学，未经电子科技大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201710830492.0/1.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F17-00 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法
G06F17-10 .复杂数学运算的
G06F17-20 .处理自然语言数据的
G06F17-30 .信息检索；及其数据库结构
G06F17-40 .数据的获取和记录
G06F17-50 .计算机辅助设计

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]基于Web结构特征挖掘的网页类型自动识别方法在审

专利文献下载