[发明专利]启发式多特征规则集网页分块方法有效

专利信息
申请号: 201611110969.X 申请日: 2016-12-06
公开(公告)号: CN106802914B 公开(公告)日: 2021-03-23
发明(设计)人: 查修齐;麦秀青;高元钧;王千;于华祥 申请(专利权)人: 中国电子科技集团公司第三十二研究所
主分类号: G06F16/957 分类号: G06F16/957
代理公司: 上海汉声知识产权代理有限公司 31236 代理人: 郭国中
地址: 200233 *** 国省代码: 上海;31
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 启发式 特征 规则 网页 分块 方法
【说明书】:

发明提供了一种启发式多特征规则集网页分块方法,其包括以下步骤:步骤一,调用VIPS算法将待操作的网页生成页面的块结构树;步骤二,根据启发式多特征规则集对结构树进行裁剪;步骤三,生成语义独立的块列表。本发明不需要事先定义PDoC值,方法简单可靠,网页分块效果好,便于服务器进行页面转换或使用网页缩略图,使移动端访问互联网的内容,并且在分块过程中获取了每个块的结构信息和内容信息,便于后续进行Web页面信息的提取和页面内容的重组。

技术领域

本发明涉及一种页面分块方法,具体地,涉及一种启发式多特征规则集网页分块方法。

背景技术

近年来,移动通信技术和互联网技术的发展和广泛应用,对人们的生活方式产生巨大影响。移动通信技术使人与人之间能够随时随地进行沟通,而互联网的发展使人们能迅速、快捷地获取丰富的信息资源。两种技术的结合使人们无论何时何地能通过移动终端自由地访问互联网的信息资源。目前绝大部分Web(网页)页面是为传统个人电脑而设计的,包括台式电脑和笔记本电脑,它们具有较大的屏幕和高分辨率。然而由于屏幕大小的物理局限、内存大小和无线网络带宽等因素的限制,移动终端直接访问已有的Web页面难以正常显示页面,Web页面的二维布局不适合移动终端屏幕显示。目前通常通过两种手段来解决这种问题:通过服务器进行页面转换或者使用网页缩略图。前者首先将用户访问的页面进行分页和转换,然后将分页的结果提交给移动设备;后者则是将整个Web页面生成缩略图,整个页面被分割为数目不等的区域,用户如果对特定区域感兴趣,则可以再次访问该区域的内容。通过这两个策略,基本可以完成移动终端访问互联网的内容,但是核心内容就是对页面进行语义分割。

如何对Web页面进行有效的分页,目前提出的VIPS(基于视觉信息的网页分块)算法,充分利用了页面的布局特点并从语义层次对页面进行划分,将视觉提示信息和DOM(文档对象模块)结合起来推断出可视化的内容结构。该算法以预定义的PDoC(页面预先定义的内聚度阀值,Permitted DegreeofCoherence)值作为迭代的终止条件,当各块的内聚度值大于PDoC值是迭代终止,预定义的终止条件影响了分块的效果。

发明内容

针对现有技术中的缺陷,本发明的目的是提供一种启发式多特征规则集网页分块方法,其不需要事先定义PDoC值,方法简单可靠,网页分块效果好,便于服务器进行页面转换或使用网页缩略图,使移动端访问互联网的内容,并且在分块过程中获取了每个块的结构信息和内容信息,便于后续进行Web页面信息的提取和页面内容的重组。

根据本发明的一个方面,提供启发式多特征规则集网页分块方法,其特征在于,其包括以下步骤:

步骤一,调用VIPS算法将待操作的网页生成页面的块结构树;

步骤二,根据启发式多特征规则集对结构树进行裁剪;

步骤三,生成语义独立的块列表;

步骤二包括以下判断过程:

过程一,根据块间语义距离的推理规则确定当前块是否要继续分隔;

过程二,若过程一的结果为否,继续按照分割流程来判断是否继续分割;

过程三,将不需要分割的节点纳入块列表,需要分割的块对它的子节点同样进行检查;

推理规则包括:

规则一,两个节点所对应块的语义距离初始为零;

规则二,如果两个页面块的距离越远,则两个页面块的语义关系越不紧密;

规则三,如果两个页面块的背景色不同,但两个页面块相邻且两个页面块的宽度相差不超过30%且上面块的面积大于下面块的面积的一百倍,那么两个页面块间语义距离保持不变;

规则四,如果两个页面块的背景色不同且不是规则三的情况,那么两个页面块的语义关系不紧密,两个页面块间语义距离值加一;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国电子科技集团公司第三十二研究所,未经中国电子科技集团公司第三十二研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201611110969.X/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top