[发明专利]启发式多特征规则集网页分块方法有效
申请号: | 201611110969.X | 申请日: | 2016-12-06 |
公开(公告)号: | CN106802914B | 公开(公告)日: | 2021-03-23 |
发明(设计)人: | 查修齐;麦秀青;高元钧;王千;于华祥 | 申请(专利权)人: | 中国电子科技集团公司第三十二研究所 |
主分类号: | G06F16/957 | 分类号: | G06F16/957 |
代理公司: | 上海汉声知识产权代理有限公司 31236 | 代理人: | 郭国中 |
地址: | 200233 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明提供了一种启发式多特征规则集网页分块方法,其包括以下步骤:步骤一,调用VIPS算法将待操作的网页生成页面的块结构树;步骤二,根据启发式多特征规则集对结构树进行裁剪;步骤三,生成语义独立的块列表。本发明不需要事先定义PDoC值,方法简单可靠,网页分块效果好,便于服务器进行页面转换或使用网页缩略图,使移动端访问互联网的内容,并且在分块过程中获取了每个块的结构信息和内容信息,便于后续进行Web页面信息的提取和页面内容的重组。 | ||
搜索关键词: | 启发式 特征 规则 网页 分块 方法 | ||
【主权项】:
一种启发式多特征规则集网页分块方法,其特征在于,其包括以下步骤:步骤一,调用VIPS算法将待操作的网页生成页面的块结构树;步骤二,根据启发式多特征规则集对结构树进行裁剪;步骤三,生成语义独立的块列表;步骤二包括以下判断过程:过程一,根据块间语义距离的推理规则确定当前块是否要继续分隔;过程二,若过程一的结果为否,继续按照分割流程来判断是否继续分割;过程三,将不需要分割的节点纳入块列表,需要分割的块对它的子节点同样进行检查;推理规则包括以下规则:规则一,两个节点所对应块的语义距离初始为零;规则二,如果两个页面块的距离越远,则两个页面块的语义关系越不紧密;规则三,如果两个页面块的背景色不同,但两个页面块相邻且两个页面块的宽度相差不超过30%且上面块的面积大于下面块的面积的一百倍,那么两个页面块间语义距离保持不变;规则四,如果两个页面块的背景色不同且不是规则三的情况,那么两个页面块的语义关系不紧密,两个页面块间语义距离值加一;规则五,如果两个页面块的字体大小不同且两个页面块不是上下相邻,那么两个页面块间语义距离值加一;规则六,如果两个页面块的字体不同,两个页面块上下相邻,上面块的面积的一百倍小于下面块的面积,上面块的字体小于下面块的字体,那么两个页面块间语义距离值加一;规则七,如果两个页面块的字体不同,两个页面块上下相邻,上面块的面积大于下面块的面积,那么两个页面块间语义距离值加一;规则八,如果两个页面块的字体大小不同,两个页面块上下相邻且上面块的面积和下面块的面积相差不超过30%,那么两个页面块间语义距离值加一;规则九,如果两个页面块的字体重量不同且两个页面块不是上下相邻,那么两个页面块间语义距离值加一;规则十,如果两个页面块的字体重量不同,两个页面块上下相邻,上面块的面积的一百倍小于下面块的面积,上面块的字体重量小于下面块的字体重量,那么两个页面块间语义距离值加一;规则十一,如果两个页面块的字体重量不同,两个页面块上下相邻,上面块的面积大于下面块的面积,那么两个页面块间语义距离值加一;规则十二,如果两个页面块的字体重量不同,两个页面块上下相邻且上面块的面积和下面块的面积相差不超过30%,那么两个页面块间语义距离值加一;规则十三,如果两个页面块不是兄弟块且其中一个块的父节点与另外一块为兄弟节点,那么两个页面块间语义距离等于父节点与其的块间语义距离加上父块与兄弟块间的语义距离;分割流程包括以下流程:流程一,若该块的内聚度为十一,则表明该块已经是叶子节点,不需要继续分割,否则进入流程二;流程二,若该块是一个列表类型,则停止分割,以该节点为父节点的子树被裁减掉,否则进入流程三;流程三,若该块是一个横向滚动条列表类型,则停止分割,以该节点为父节点的子树被裁减掉,否则进入流程四;流程四,若该块的所有孩子节点的内聚度都是十一,则停止分割,以该节点为父节点的子树被裁减掉,否则进入流程五;流程五,若该块的孩子节点是左右相邻的,则该块需要继续分割,否则进入流程六;流程六,若该块的内聚度与其所有孩子节点的内聚度一致,表明父块内部结构的紧密程度与子块类似,则停止分割,以该节点为父节点的子树被裁减掉,否则进入流程七;流程七,若该块有两个孩子,其中一个孩子节点的DoC值为十一,另一个孩子节点的DoC值与当前块值一致,且该孩子节点的孩子不是左右相邻的,则停止分割,以该节点为父节点的子树被裁减掉,否则进入流程八;流程八,若上述流程中的条件都不满足,则该块需要继续分割,遍历其孩子节点,继续判断。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国电子科技集团公司第三十二研究所,未经中国电子科技集团公司第三十二研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201611110969.X/,转载请声明来源钻瓜专利网。
- 上一篇:一种播放内容推荐方法及其装置
- 下一篇:一种基于用户行为的学术资源推荐方法