[发明专利]检测在网页上的重复模式有效
| 申请号: | 201110215012.2 | 申请日: | 2011-07-29 |
| 公开(公告)号: | CN102902693A | 公开(公告)日: | 2013-01-30 |
| 发明(设计)人: | H-M.侯;J-M.金;L-M.焦;S.H.麟 | 申请(专利权)人: | 惠普开发有限公司 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30 |
| 代理公司: | 中国专利代理(香港)有限公司 72001 | 代理人: | 刘春元;王洪斌 |
| 地址: | 美国德*** | 国省代码: | 美国;US |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 检测 网页 重复 模式 | ||
背景技术
通常使用固定的模板或模式来再现网页上的信息。模式可能在网页上重复地出现,并经常被称为重复模式。可以基于在网页上找到的模式,对网页进行分割。例如,片段可以是导航条、头部、尾部、广告、相关链接、版权信息或实际网页内容自身。识别在网页中的模式在很多应用中是有用的,所述应用诸如在小屏幕装置上显示网页、数据挖掘、搜索引擎以及打印装置。进一步地,识别重复模式可以提供关于网页设计、网页结构以及网页上包含的内容的信息。
为了从网页识别并检索内容,网页分割算法可以对相似元素进行聚类。在这些算法中,可能不对重复的元素组进行聚类,因为重复的元素可能根本不相似。因此,重复模式可能无法在聚类的元素中检测到,以及由重复模式传达的信息可能丢失。
附图说明
参考附图在以下的详细说明中对某些示例性实施例进行说明,在这些附图中:
图1是根据本技术的实施例的、可以检测在网页上的重复模式的系统的框图;
图2是根据本技术的实施例的、用于检测在网页中的重复模式的方法的过程流程图;
图3是示出根据本技术的实施例的、具有节点的网页的一部分的图示;
图4是示出根据本技术的实施例的、网页的DOM-树的一部分的图示;
图5是示出根据本技术的实施例的、用于网页的1D信号的图示;
图6是示出根据本技术的实施例的、对信号进行信号分析的结果的框图;
图7是示出根据本技术的实施例的、对于网页的所检测的重复模式的标记选择结果的图示;
图8是示出根据本技术的实施例的、存储用于检测在网页上的重复模式的代码的非暂时的(non-transitory)、计算机可读介质的框图。
具体实施方式
[0004] 检测网页上的重复元素使得重复元素能够被分组(group)为重复模式。一个实施例包括系统,所述系统能够使用信号分析方法来检测在网页上的重复模式,包括使用树数据结构的网页文档对象模型(DOM)生成信号。DOM是用于表示各种标记语言文档中的对象以及与所述对象交互的跨平台且与语言无关的协定。DOM的各方面(诸如其元素)可以被寻址以及操纵。元素是所使用的特定标记语言的单独组件。DOM-树将这些元素再现为树中的节点。节点也可以对应于驻留在网页上的小的数据单元。
各种用于网页分割的技术能够使用树匹配算法来识别重复模式,以及然后使用对齐信息来过滤掉不想要的数据。可以通过在DOM-树中使用自下至上的次序遍历每个节点,从局部最优解获得全局最优解。但是,自下至上遍历是递归的,以及这种递归计算可能是耗时的。进一步地,如果重复模式没有被完全显示则它们可能不被检测到,使得一个子树不包含模式的一些节点,但是实际上是网页的模式。
用于网页分割的其他技术可以使用哑元树(dummy tree)匹配算法,以通过检查在DOM-树的所有层中的独特标签以及然后比较独特标签的总数,来查验DOM-树中的数据记录的相似性。但是,当一个子树不包含模式的所有节点时,这种技术也可能出现问题。类似地,如果数据记录具有不同的属性,则使用视觉一致性来定位和提取模式或数据区域可能效果不好。
在实施例中,可以以鲁棒方式来检测重复模式,而不管重复模式中的节点数量如何或者数据记录是否具有不同的属性。另外,即便没有在网页上完全显示重复模式也可能检测到重复模式。进一步,信号分析技术,诸如快速傅立叶变换(FFT)、数字小波变换(DWT)、自相关或任何其他时间-频率分析技术可以用于分析该信号。通过本技术,web重复模式检测问题可以被作为信号分析问题进行求解,其中,信号分析技术被用于获得准确且鲁棒的结果。因为重复模式可以被用于分割网页,所述结果在网页打印以及web内容提取中可以是有用的。
图1是根据本技术的一个实施例的、可以检测在网页上的重复模式的系统的框图。该系统通常用参考数字100来表示。本领域普通技术人员将认识到,图1中所示的功能框和装置可以包括:硬件元素,包括电路;软件元素,包括在有形的、机器可读介质上存储的计算机代码;或者硬件元素与软件元素的组合。另外,系统100的功能框和装置不过是可以在一个实施例中实现的功能框和装置的一个示例。本领域普通技术人员将容易地能够根据特定电子装置的设计考虑而定义具体的功能框。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于惠普开发有限公司,未经惠普开发有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110215012.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种用于悬索桥施工的主缆紧缆装置
- 下一篇:护栏横杆连接装置





