[发明专利]网页类型识别方法及装置有效
| 申请号: | 201310476416.6 | 申请日: | 2013-10-12 |
| 公开(公告)号: | CN103577547B | 公开(公告)日: | 2017-11-10 |
| 发明(设计)人: | 梁捷;王磊 | 申请(专利权)人: | 优视科技有限公司 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30 |
| 代理公司: | 北京律谱知识产权代理事务所(普通合伙)11457 | 代理人: | 黄云铎 |
| 地址: | 100080 北京市海淀区*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 网页 类型 识别 方法 装置 | ||
技术领域
本发明涉及移动通信领域,特别是涉及一种网页类型识别方法及装置。
背景技术
小说阅读器是一种提供小说下载阅读功能的软件,不仅能够提供本地小说阅读下载,一般还支持网络小说的下载、阅读、搜索等功能。网络小说下载或阅读,是以互联网上的各个小说类的网页为基础,通过将这些网页上的小说进行抽取,再重新整合成合适的格式呈现给用户。由于网页小说的目录页面和内容页面采用的抽取算法不同,通常需要首先判断小说的网页类型,然后根据网页类型再采用相应的抽取算法进行抽取。
目前识别网页类型的方法有:基于白名单识别和基于页面关键字识别。基于白名单识别的方法是指将互联网上的各个目标网页归入白名单中,针对白名单中不同网页的页面特征采用不同的识别算法,如起点网、吾读网等小说网页分别有各自的排版布局方法,预先根据其排版特征设计出每个网站对应的识别算法来区分这些网站的小说的网页类型。基于页面关键字方法根据页面是否包含区分目录页面和内容页面的关键字来识别网页类型,例如某一网页包含“设置字体”,则认为当前网页类型为内容页面。
上述基于白名单和页面关键字识别的方法都存在一定的缺点。基于白名单识别的方法,对于未加入到白名单中网页的网页类型往往无法准确识别,而随着互联网网页数量巨大且网站不断增加,白名单中的网页的数目也在不断增多,导致维护成本非常高;而基于页面关键字识别的方法,由于网络页面差别很大,用于区分网页类型的关键字可能不适用所有的网页,因此页面关键字方法往往无法准确识别网页类型。
发明内容
本发明实施例提供了一种网页类型识别方法及装置,以解决现有技术中存在无法对网页类型进行准确识别的问题。
为了解决上述技术问题,第一方面,本发明实施例公开了一种网页类型识别方法,包括:在多个已知网页类型的样本网页中分别统计是否包含多个目的页面特征,得到统计结果;利用决策树算法对多个样本网页的已知网页类型和统计结果进行分析,得到目的页面特征的优先级排序,以及目的页面特征与网页类型之间的对应关系;按照所述优先级排序在待识别网页中依次查找所述目的页面特征,根据查找结果和所述对应关系确定待识别网页的网页类型。
第一方面第一种可能的实施方式中,所述在多个已知网页类型的样本网页中分别统计是否包含多个目的页面特征,得到统计结果的步骤包括:逐一判断所述样本网页是否包含目的页面特征;当所述样本网页包含所述目的页面特征时,记录为第一特征;当所述样本网页不包含所述目的页面特征时,记录为第二特征;构建包含所有样本网页对应第一特征、第二特征的表格,将所述表格作为统计结果。
结合第一方面第一种可能的实施方式,第一方面第二种可能的实施方式中,所述利用决策树算法对多个样本网页的已知网页类型和统计结果进行分析,得到目的页面特征的优先级排序,以及目的页面特征与网页类型之间的对应关系的步骤包括:根据所述表格计算多个所述目的页面特征的信息增益;将多个所述目的页面特征按照信息增益由大到小进行排序,得到目的页面特征的优先级排序;根据多个样本网页的已知网页类型和所述目的页面特征的优先级排序生成目的页面特征与网页类型的对应关系。
结合第一方面第二种可能的实施方式,第一方面第三种可能的实施方式中,按以下方式计算每个所述目的页面特征的信息增益:根据所述表格计算目的页面特征的相对应第一特征的比值和第二特征的比值;分别计算第一特征和第二特征的信息熵;根据所述第一特征和第二特征的信息熵计算目的页面特征的条件熵;根据所述表格计算目的页面特征的信息熵;将目的页面特征的信息熵减去目的页面特征的条件熵得到目的页面特征的信息增益。
结合第一方面、第一方面第一种可能的实施方式、第一方面第二种可能的实施方式或第一方面第三种可能的实施方式,所述在待识别网页中按照所述优先级排序依次查找所述目的页面特征,根据查找结果和所述对应关系确定待识别网页的网页类型的步骤包括:在待识别网页中查找优先级排序最大的目的页面特征;判断所述待识别网页中是否存在优先级排序最大的目的页面特征;当所述待识别网页中存在优先级排序最大的目的页面特征时,在所述对应关系中查找与存在的目的页面特征相对应的网页类型,将查找到的网页类型作为待识别网页的网页类型;当所述待识别网页中不存在优先级排序最大的目的页面特征时,按照优先级排序由大到小在待识别网页中依次查找其它目的页面特征,直至查找到待识别网页的网页类型,或者,直至将对应关系表中所有目的页面特征查找完成。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于优视科技有限公司,未经优视科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310476416.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:鼻症电疗面罩
- 下一篇:一种新型儿童头皮针固定装置





