[发明专利]一种判别网页类型的方法及装置有效
| 申请号: | 201611270198.0 | 申请日: | 2016-12-29 |
| 公开(公告)号: | CN108255891B | 公开(公告)日: | 2020-08-28 |
| 发明(设计)人: | 郑立颖 | 申请(专利权)人: | 北京国双科技有限公司 |
| 主分类号: | G06F16/9535 | 分类号: | G06F16/9535;G06F16/955 |
| 代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 古利兰;王宝筠 |
| 地址: | 100080 北京市海淀区*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 判别 网页 类型 方法 装置 | ||
1.一种判别网页类型的方法,其特征在于,包括:
获取待判断网页的页面信息;
从所述页面信息中提取出标题信息;
判断所述标题信息中是否包含预设关键字,所述预设关键字为包含网页类型的关键字;
若所述标题信息中未包含所述预设关键字,基于所述标题信息得到所述待判断网页的网页类型;
其中,所述基于所述标题信息得到所述待判断网页的网页类型包括:
获取至少一个已知网页类型下的若干作为参考标准的网页的标题信息;
从所述作为参考标准的网页的标题信息中拆分出作为参考标准的词组,并统计每个所述已知网页类型下作为参考标准的词组的数量;
从所述待判断网页的标题信息中拆分出至少一个词组;
将所述每个词组分别与所述作为参考标准的词组进行匹配,并统计每个所述已知网页类型下匹配成功的所述词组的数量;
获取每个所述已知网页类型下匹配成功的词组的数量与该已知网页类型下作为参考标准的词组的数量的比值,并将所述比值与预设比值进行比较;
若所述比值大于等于所述预设比值,将所述比值所对应的已知网页类型作为所述待判断网页的网页类型。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
若所述标题信息中包含所述预设关键字,将所述预设关键字所对应的网页类型作为所述待判断网页的网页类型。
3.根据权利要求1所述的方法,其特征在于,所述获取待判断网页的页面信息包括:
对所述待判断网页进行解析,提取出所述待判断网页对应的链接的域名;
模拟访问所述域名所对应的统一资源定位符URL,爬取所述待判断网页的页面信息。
4.根据权利要求1-3中任意一项所述的方法,其特征在于,所述方法还包括:基于所述页面信息所对应的页面结构信息得到所述待判断网页的网页类型;
所述基于所述页面信息所对应的页面结构信息得到所述待判断网页的网页类型包括:
获取至少一个已知网页类型下的若干作为参考标准的网页的页面信息;
从所述作为参考标准的网页的页面信息所对应的页面结构信息中提取出作为参考标准的标签信息,并统计每个所述已知网页类型下作为参考标准的标签信息的数量;
从所述待判断网页的页面信息所对应的页面结构信息中提取出至少一个标签信息;
将每个所述标签信息分别与所述作为参考标准的标签信息进行匹配,并统计每个所述已知网页类型下匹配成功的所述标签信息的数量;
获取每个所述已知网页类型下匹配成功的标签信息的数量与该已知网页类型下作为参考标准的标签信息的数量的比值,并将所述比值与预设比值进行比较;
若所述比值大于等于所述预设比值,将所述比值所对应的已知网页类型作为所述待判断网页的网页类型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京国双科技有限公司,未经北京国双科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201611270198.0/1.html,转载请声明来源钻瓜专利网。
- 上一篇:页面的处理方法和装置
- 下一篇:Cookie生命周期的计算方法及装置





