[发明专利]一种判别网页类型的方法及装置有效
| 申请号: | 201611270198.0 | 申请日: | 2016-12-29 |
| 公开(公告)号: | CN108255891B | 公开(公告)日: | 2020-08-28 |
| 发明(设计)人: | 郑立颖 | 申请(专利权)人: | 北京国双科技有限公司 |
| 主分类号: | G06F16/9535 | 分类号: | G06F16/9535;G06F16/955 |
| 代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 古利兰;王宝筠 |
| 地址: | 100080 北京市海淀区*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 判别 网页 类型 方法 装置 | ||
本发明公开了一种判别网页类型的方法,包括:获取待判断网页的页面信息;从页面信息中提取出标题信息;判断标题信息中是否包含预设关键字,预设关键字为包含网页类型的关键字;若标题信息中未包含预设关键字,基于页面信息所对应的页面结构信息和/或所述标题信息得到待判断网页的网页类型。本发明能够解决现有技术中依赖人工方式进行网页类型分类效率低的问题。本发明还公开了一种判别网页类型的装置。
技术领域
本发明涉及网页分类技术领域,尤其涉及一种判别网页类型的方法及装置。
背景技术
随着互联网技术的飞速发展,搜索引擎收录的网页数量越来越多,对网页类型的判别也越来越重要。网页类型指的是网页的媒体性质,可以划分为新闻、论坛、博客、贴吧、问答等。对网页类型进行分类的应用情景有很多,比如:1、品牌曝光分析,通过对品牌曝光的URL(Uniform Resource Locator,统一资源定位符)进行收集统计,分析其网站类别,可以知道品牌在哪种媒体类型曝光较多,进而帮助品牌主更有针对性的选择品牌曝光媒体;2、品牌舆情分析,通过对品牌舆情进行统计,了解在不同媒体类型上品牌的正负面信息,进而可以更有效的应对和发布信息;3、网页爬取,通过对网页类型进行识别,可以提前确定不同的页面解析逻辑,更合理的提取页面信息。目前对于网页类型分类主要还是依赖于人工方式,非常耗时耗力,这显然无法适用于网页数量急剧增加的现状,因此如何提高网页类型的分类效率是一项亟待解决的问题。
发明内容
鉴于上述问题,本发明提供了一种判别网页类型的方法及装置,以解决现有技术中依赖人工方式进行网页类型分类效率低的问题。
本发明提供了一种判别网页类型的方法,包括:
获取待判断网页的页面信息;
从所述页面信息中提取出标题信息;
判断所述标题信息中是否包含预设关键字,所述预设关键字为包含网页类型的关键字;
若所述标题信息中未包含所述预设关键字,基于所述页面信息所对应的页面结构信息和/或所述标题信息得到所述待判断网页的网页类型。
优选地,所述方法还包括:
若所述标题信息中包含所述预设关键字,将所述预设关键字所对应的网页类型作为所述待判断网页的网页类型。
优选地,所述获取待判断网页的页面信息包括:
对所述待判断网页进行解析,提取出所述待判断网页对应的链接的域名;
模拟访问所述域名所对应的统一资源定位符URL,爬取所述待判断网页的页面信息。
优选地,所述基于所述页面信息所对应的页面结构信息和/或所述标题信息得到所述待判断网页的网页类型包括:
获取至少一个已知网页类型下的若干作为参考标准的网页的页面信息;
从所述作为参考标准的网页的页面信息所对应的页面结构信息中提取出作为参考标准的标签信息,并统计每个所述已知网页类型下作为参考标准的标签信息的数量;
从所述待判断网页的页面信息所对应的页面结构信息中提取出至少一个标签信息;
将每个所述标签信息分别与所述作为参考标准的标签信息进行匹配,并统计每个所述已知网页类型下匹配成功的所述标签信息的数量;
获取每个所述已知网页类型下匹配成功的标签信息的数量与该已知网页类型下作为参考标准的标签信息的数量的比值,并将所述比值与预设比值进行比较;
若所述比值大于等于所述预设比值,将所述比值所对应的已知网页类型作为所述待判断网页的网页类型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京国双科技有限公司,未经北京国双科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201611270198.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:页面的处理方法和装置
- 下一篇:Cookie生命周期的计算方法及装置





