[发明专利]启发式多特征规则集网页分块方法有效
申请号: | 201611110969.X | 申请日: | 2016-12-06 |
公开(公告)号: | CN106802914B | 公开(公告)日: | 2021-03-23 |
发明(设计)人: | 查修齐;麦秀青;高元钧;王千;于华祥 | 申请(专利权)人: | 中国电子科技集团公司第三十二研究所 |
主分类号: | G06F16/957 | 分类号: | G06F16/957 |
代理公司: | 上海汉声知识产权代理有限公司 31236 | 代理人: | 郭国中 |
地址: | 200233 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 启发式 特征 规则 网页 分块 方法 | ||
本发明提供了一种启发式多特征规则集网页分块方法,其包括以下步骤:步骤一,调用VIPS算法将待操作的网页生成页面的块结构树;步骤二,根据启发式多特征规则集对结构树进行裁剪;步骤三,生成语义独立的块列表。本发明不需要事先定义PDoC值,方法简单可靠,网页分块效果好,便于服务器进行页面转换或使用网页缩略图,使移动端访问互联网的内容,并且在分块过程中获取了每个块的结构信息和内容信息,便于后续进行Web页面信息的提取和页面内容的重组。
技术领域
本发明涉及一种页面分块方法,具体地,涉及一种启发式多特征规则集网页分块方法。
背景技术
近年来,移动通信技术和互联网技术的发展和广泛应用,对人们的生活方式产生巨大影响。移动通信技术使人与人之间能够随时随地进行沟通,而互联网的发展使人们能迅速、快捷地获取丰富的信息资源。两种技术的结合使人们无论何时何地能通过移动终端自由地访问互联网的信息资源。目前绝大部分Web(网页)页面是为传统个人电脑而设计的,包括台式电脑和笔记本电脑,它们具有较大的屏幕和高分辨率。然而由于屏幕大小的物理局限、内存大小和无线网络带宽等因素的限制,移动终端直接访问已有的Web页面难以正常显示页面,Web页面的二维布局不适合移动终端屏幕显示。目前通常通过两种手段来解决这种问题:通过服务器进行页面转换或者使用网页缩略图。前者首先将用户访问的页面进行分页和转换,然后将分页的结果提交给移动设备;后者则是将整个Web页面生成缩略图,整个页面被分割为数目不等的区域,用户如果对特定区域感兴趣,则可以再次访问该区域的内容。通过这两个策略,基本可以完成移动终端访问互联网的内容,但是核心内容就是对页面进行语义分割。
如何对Web页面进行有效的分页,目前提出的VIPS(基于视觉信息的网页分块)算法,充分利用了页面的布局特点并从语义层次对页面进行划分,将视觉提示信息和DOM(文档对象模块)结合起来推断出可视化的内容结构。该算法以预定义的PDoC(页面预先定义的内聚度阀值,Permitted DegreeofCoherence)值作为迭代的终止条件,当各块的内聚度值大于PDoC值是迭代终止,预定义的终止条件影响了分块的效果。
发明内容
针对现有技术中的缺陷,本发明的目的是提供一种启发式多特征规则集网页分块方法,其不需要事先定义PDoC值,方法简单可靠,网页分块效果好,便于服务器进行页面转换或使用网页缩略图,使移动端访问互联网的内容,并且在分块过程中获取了每个块的结构信息和内容信息,便于后续进行Web页面信息的提取和页面内容的重组。
根据本发明的一个方面,提供启发式多特征规则集网页分块方法,其特征在于,其包括以下步骤:
步骤一,调用VIPS算法将待操作的网页生成页面的块结构树;
步骤二,根据启发式多特征规则集对结构树进行裁剪;
步骤三,生成语义独立的块列表;
步骤二包括以下判断过程:
过程一,根据块间语义距离的推理规则确定当前块是否要继续分隔;
过程二,若过程一的结果为否,继续按照分割流程来判断是否继续分割;
过程三,将不需要分割的节点纳入块列表,需要分割的块对它的子节点同样进行检查;
推理规则包括:
规则一,两个节点所对应块的语义距离初始为零;
规则二,如果两个页面块的距离越远,则两个页面块的语义关系越不紧密;
规则三,如果两个页面块的背景色不同,但两个页面块相邻且两个页面块的宽度相差不超过30%且上面块的面积大于下面块的面积的一百倍,那么两个页面块间语义距离保持不变;
规则四,如果两个页面块的背景色不同且不是规则三的情况,那么两个页面块的语义关系不紧密,两个页面块间语义距离值加一;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国电子科技集团公司第三十二研究所,未经中国电子科技集团公司第三十二研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201611110969.X/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种播放内容推荐方法及其装置
- 下一篇:一种基于用户行为的学术资源推荐方法