[发明专利]确定网页类型的方法和装置无效
申请号: | 201210539055.0 | 申请日: | 2012-12-13 |
公开(公告)号: | CN103870486A | 公开(公告)日: | 2014-06-18 |
发明(设计)人: | 张富强;杨巍 | 申请(专利权)人: | 深圳市世纪光速信息技术有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京三高永信知识产权代理有限责任公司 11138 | 代理人: | 滕一斌 |
地址: | 518057 广东省深圳市*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 确定 网页 类型 方法 装置 | ||
技术领域
本发明涉及通信技术领域,特别涉及一种确定网页类型的方法和装置。
背景技术
随着移动互联网和移动终端(如手机、平板电脑等)的迅速发展,除了可以通过pc(person computer,个人计算机)终端接入互联网外,还可以通过移动终端接入互联网。因此除了针对pc终端的web网页外,还出现了针对移动终端的wap(Wireless Application Protocol,无线应用协议)网页。但针对移动终端的wap网页在pc终端上体验很不好,特别是wap1.0网页在pc终端上无法展示。同时针对pc终端的web网页也不能很好的在移动终端上展示。所以对于搜索引擎来讲,在爬取网页时的首要任务,便是确定出网页的类型,即区分出当前网页是wap网页还是web网页,这样才能不让对移动终端不友好的web网页出现在wap网页搜索结果中,同时不让对pc终端不友好的wap网页出现在web网页搜索结果中。
现有确定网页类型的方法主要包括:通过wap网页和web网页标记语言的差别进行确定、通过网页文档内容进行确定等。
然而,在实现本发明的过程中,发明人发现现有技术至少存在以下问题:
通过wap网页和web网页标记语言的差别进行确定的方法,可以确定出使用WML(Wireless Markup Language,无线标记语言)标记语言的Wap1.0网页和使用HTML(Hyper Text Mark-up Language,超文本标记语言)标记语言的web网页(WML和HTML两种标记语言的差别很大),但无法确定出使用XHTML(eXtensible HyperText Markup Language,可扩展超文本标记语言)标记语言的wap2.0网页(XHTML和HTML两种标记语言的差别很小)和使用HTML标记语言的web网页。
通过网页文档内容进行确定的方法,规范的wap2.0网页在网页文档的开头位置会有类似“<!DOCTYPE html PUBLIC-//WAPFORUM//DTD XHTML Mobile”的声明,对于按照规范编写的网页能够通过这个声明确定出是wap2.0网页还是web网页,但实际上大部分网页都是不规范的,无法确定出是wap2.0网页还是web网页。
发明内容
为了解决现有技术的问题,本发明实施例提供了一种确定网页类型的方法和装置。所述技术方案如下:
一方面,提供了一种确定网页类型的方法,所述方法包括:
获取网页的文档信息;其中,所述网页的文档信息包含网页地址URL信息、网页文档内容信息和网页视觉信息;
从所述网页的文档信息中提取网页特征参数;
根据提取出的网页特征参数,确定所述网页的类型。
另一方面,提供了一种确定网页类型的装置,所述装置包括:
获取模块,用于获取网页的文档信息;其中,所述网页的文档信息包含网页地址URL信息、网页文档内容信息和网页视觉信息;
提取模块,用于在所述获取模块获取网页的文档信息后,从所述网页的文档信息中提取网页特征参数;
确定模块,用于在所述提取模块从所述网页的文档信息中提取网页特征参数后,根据提取出的网页特征参数,确定所述网页的类型。
本发明实施例提供的技术方案带来的有益效果是:
从获取的网页的文档信息(包含网页地址URL信息、网页文档内容信息和网页视觉信息)中提取网页特征参数,网页特征参数提取的范围广,可以提取出多个网页特征参数,使得可以根据提取出的网页特征参数,有效地确定出该网页的类型。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例一提供的确定网页类型的方法流程图;
图2是本发明实施例二提供的确定网页类型的方法流程图;
图3是本发明实施例三提供的确定网页类型的装置结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。
实施例一
本发明实施例提供了一种确定网页类型的方法,参见图1,该方法包括:
101:获取网页的文档信息。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳市世纪光速信息技术有限公司,未经深圳市世纪光速信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210539055.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:中红外宽带偏振光分束合成薄膜
- 下一篇:半导体存储系统及其操作方法