[发明专利]确定网页类型的方法和装置无效

专利信息
申请号: 201210539055.0 申请日: 2012-12-13
公开(公告)号: CN103870486A 公开(公告)日: 2014-06-18
发明(设计)人: 张富强;杨巍 申请(专利权)人: 深圳市世纪光速信息技术有限公司
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 北京三高永信知识产权代理有限责任公司 11138 代理人: 滕一斌
地址: 518057 广东省深圳市*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 确定 网页 类型 方法 装置
【说明书】:

技术领域

发明涉及通信技术领域,特别涉及一种确定网页类型的方法和装置。

背景技术

随着移动互联网和移动终端(如手机、平板电脑等)的迅速发展,除了可以通过pc(person computer,个人计算机)终端接入互联网外,还可以通过移动终端接入互联网。因此除了针对pc终端的web网页外,还出现了针对移动终端的wap(Wireless Application Protocol,无线应用协议)网页。但针对移动终端的wap网页在pc终端上体验很不好,特别是wap1.0网页在pc终端上无法展示。同时针对pc终端的web网页也不能很好的在移动终端上展示。所以对于搜索引擎来讲,在爬取网页时的首要任务,便是确定出网页的类型,即区分出当前网页是wap网页还是web网页,这样才能不让对移动终端不友好的web网页出现在wap网页搜索结果中,同时不让对pc终端不友好的wap网页出现在web网页搜索结果中。

现有确定网页类型的方法主要包括:通过wap网页和web网页标记语言的差别进行确定、通过网页文档内容进行确定等。

然而,在实现本发明的过程中,发明人发现现有技术至少存在以下问题:

通过wap网页和web网页标记语言的差别进行确定的方法,可以确定出使用WML(Wireless Markup Language,无线标记语言)标记语言的Wap1.0网页和使用HTML(Hyper Text Mark-up Language,超文本标记语言)标记语言的web网页(WML和HTML两种标记语言的差别很大),但无法确定出使用XHTML(eXtensible HyperText Markup Language,可扩展超文本标记语言)标记语言的wap2.0网页(XHTML和HTML两种标记语言的差别很小)和使用HTML标记语言的web网页。

通过网页文档内容进行确定的方法,规范的wap2.0网页在网页文档的开头位置会有类似“<!DOCTYPE html PUBLIC-//WAPFORUM//DTD XHTML Mobile”的声明,对于按照规范编写的网页能够通过这个声明确定出是wap2.0网页还是web网页,但实际上大部分网页都是不规范的,无法确定出是wap2.0网页还是web网页。

发明内容

为了解决现有技术的问题,本发明实施例提供了一种确定网页类型的方法和装置。所述技术方案如下:

一方面,提供了一种确定网页类型的方法,所述方法包括:

获取网页的文档信息;其中,所述网页的文档信息包含网页地址URL信息、网页文档内容信息和网页视觉信息;

从所述网页的文档信息中提取网页特征参数;

根据提取出的网页特征参数,确定所述网页的类型。

另一方面,提供了一种确定网页类型的装置,所述装置包括:

获取模块,用于获取网页的文档信息;其中,所述网页的文档信息包含网页地址URL信息、网页文档内容信息和网页视觉信息;

提取模块,用于在所述获取模块获取网页的文档信息后,从所述网页的文档信息中提取网页特征参数;

确定模块,用于在所述提取模块从所述网页的文档信息中提取网页特征参数后,根据提取出的网页特征参数,确定所述网页的类型。

本发明实施例提供的技术方案带来的有益效果是:

从获取的网页的文档信息(包含网页地址URL信息、网页文档内容信息和网页视觉信息)中提取网页特征参数,网页特征参数提取的范围广,可以提取出多个网页特征参数,使得可以根据提取出的网页特征参数,有效地确定出该网页的类型。

附图说明

为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1是本发明实施例一提供的确定网页类型的方法流程图;

图2是本发明实施例二提供的确定网页类型的方法流程图;

图3是本发明实施例三提供的确定网页类型的装置结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。

实施例一

本发明实施例提供了一种确定网页类型的方法,参见图1,该方法包括:

101:获取网页的文档信息。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳市世纪光速信息技术有限公司,未经深圳市世纪光速信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201210539055.0/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top