[发明专利]页面提取方法及装置、设备终端在审

专利信息
申请号: 201410804957.1 申请日: 2014-12-19
公开(公告)号: CN105786828A 公开(公告)日: 2016-07-20
发明(设计)人: 梁捷;唐俊开 申请(专利权)人: 广州市动景计算机科技有限公司
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 北京鸿元知识产权代理有限公司 11327 代理人: 陈英俊;龚洁
地址: 510627 广东省广州市天河区*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 页面 提取 方法 装置 设备 终端
【说明书】:

技术领域

发明涉及移动互联网技术领域,更为具体地,涉及一种页面提取方法 及装置、设备终端。

背景技术

随着科技的进步,互联网已进入多端多屏的时代,访问网站的终端设备 也不再局限于PC时代的大屏浏览器。通过网页转码,可以将传统的PC网页 页面转换为适合平板电脑、智能手机、TV(电视)等多种屏幕浏览的页面, 从而提高用户体验。

传统的转码过程,都是按预设规则(如关键字)抽取页面内容,然后进 行转码。然而,网站都会存在升级改版的现象,对于这些改版的页面再利用 原有的预设规则很有可能抽取不到页面内容,此时若对这些新页面再次进行 转码,就需要重新设置规则。如一个网站的导航,可以利用class或ID的属 性作为关键字来识别是否为导航区域,然而导航的属性是会发生变化的,例 如导航改版前的属性值为nav,改版后的属性变成navlist,此时,利用原有的 针对nav设置的规则就不能正确抽取该区域的内容并进行转码。

一般情况下,同一类型的站点通常是由一套程序或模板生成出来的,例 如论坛系统、博客系统等,对于这类站点,其网页结构都是相类似的,特别 是网页的ID以及class等元素属性,都有部分相似或者相同。因此可以通过 ID或class来区分各种有价值的页面内容进而分析页面特征。但实际上网页是 海量的,而且网页的ID和class是开发人员定义的一套命名规则,不同的站 点、不同的开发人员都可能有自己的一套命名规则。因此,不可能完全依赖 ID或class属性来识别网页结构。另一方面,网页结构组合形式多样,也无法 完全利用这些命名规则去判定一个页面特性。

综上所述,传统的网页转码方式,需要不断维护抽取页面内容的预设规 则,不能有效地抽取页面以进行转码。

发明内容

鉴于上述问题,本发明的目的是提供一种页面提取方法及装置、设备终 端,以解决传统网页转码方式中,需要不断维护抽取页面内容的预设规则, 不能有效地抽取页面以进行转码的问题。

根据本发明的一个方面,提供了一种页面提取方法,包括对HTML网页 的网页元素进行列表区域识别;提取识别出的列表区域的页面内容。

其中,对HTML网页的网页元素进行列表区域识别的过程包括:识别所 述网页元素是否为table元素并确认识别出的网页元素是否为列表区域的步 骤;其中,

在HTML网页的列表由table元素结合tr和td元素实现,且table元素所 包含的多个tr子元素含有相等数量的td子元素,各td子元素的DOM结构均 相同时,确定table元素为列表区域;或者,在table元素包含一个tr元素, 且tr元素的td子元素的DOM结构相同时,确定table元素为列表区域。

其中,对HTML网页的网页元素进行列表区域识别的过程还包括:识别 所述网页元素是否为ul/ol元素,并确认识别出的网页元素是否为列表区域的 步骤;其中,

在HTML网页的列表由ul/ol元素结合li元素实现,且ul/ol元素的子元 素均为li元素以及各li元素的子元素的DOM结构均相同时,确定ul/ol元素 为列表区域。

其中,对HTML网页的网页元素进行列表区域识别的过程还包括:识别 所述网页元素是否为dt元素,并确认识别出的网页元素是否为列表区域的步 骤;其中,

在HTML网页的列表由dt结合dl元素实现,且dt元素的子元素均为dl 元素,各dl元素的DOM结构均相同时,确定dt元素为列表区域。

其中,对HTML网页的网页元素进行列表区域识别的过程还包括:识别 所述网页元素是否为div元素,并确认识别出的网页元素是否为列表区域的步 骤;其中,

在HTML网页的列表由div元素实现,且div元素的子元素均相同,div 元素的子元素的DOM结构均相同时,确定div元素为列表区域。

其中,在对HTML网页的网页元素进行列表区域识别的过程中,依次识 别网页元素是否为table元素、ul/ol元素、dt元素或div元素,并确认识别出 的网页元素是否为列表区域。

根据本发明的另一方面,提供了一种页面提取装置,包括识别单元,用 于对获取的HTML网页的网页元素进行列表区域识别;提取单元,用于提取 识别出的列表区域的页面内容。

其中,识别单元包括以下识别单元的至少一个:

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广州市动景计算机科技有限公司,未经广州市动景计算机科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201410804957.1/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top