[发明专利]获取网页中的感兴趣信息的方法及相关装置有效
| 申请号: | 201010176808.7 | 申请日: | 2010-05-18 |
| 公开(公告)号: | CN102253937A | 公开(公告)日: | 2011-11-23 |
| 发明(设计)人: | 丁绍顺 | 申请(专利权)人: | 阿里巴巴集团控股有限公司 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30 |
| 代理公司: | 北京同达信恒知识产权代理有限公司 11291 | 代理人: | 郭润湘 |
| 地址: | 英属开曼群岛大开曼*** | 国省代码: | 开曼群岛;KY |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 获取 网页 中的 感兴趣 信息 方法 相关 装置 | ||
技术领域
本申请涉及计算机及互联网技术领域,尤其涉及一种获取网页中的感兴趣信息的方法及一种获取网页中的感兴趣信息的装置。
背景技术
随着互联网技术的快速发展,互联网已经成为人们日常获取信息的重要手段。当人们需要从大量网页中获取感兴趣信息时,如果依靠人工逐一阅读每个网页来判断是否存在感兴趣的信息,并在该网页中存在感兴趣的信息时,获取感兴趣的信息并存储,从人力成本和时间成本上来看是不现实的。
为解决上述问题,现有技术提出了基于正则规则的信息获取技术和基于文档对象模型(DOM,Document Object Model)树Xpath路径的信息获取技术。
基于正则规则的信息获取技术的基本工作原理为:首先对包含感兴趣信息的现有网页的HTML编码进行分析,获得用于匹配待获取信息的正则表达式,然后根据获得的正则表达式,对待获取信息的大量网页逐一进行匹配处理,根据匹配结果获得感兴趣的信息。例如根据对现有网页的HTML编码进行分析,确定与感兴趣的地址信息相关的HTML编码片段为″<div><td>地址:</td><td>三里屯</td></div>″,那么对应的正则表达式为″</td><td>(.+?)</td>″,然后依据该正则表达式逐一判断每个待获取信息的网页中是否存在符合该正则表达式的编码片段,若是,将该编码片段中位于正则表达式中符号“(.+?)”对应的位置上的内容,作为获取到的感兴趣的信息。
基于DOM树Xpath路径的信息获取技术的基本工作原理为:对包含感兴趣信息的现有网页的HTML编码进行解析,获得对应的DOM树,继而确定对应的内容为感兴趣信息的节点在该DOM数中的路径(xpath),将该路径(xpath)作为从大量待获取信息的网页获取感兴趣的信息的匹配模板。例如,在上面的例子中,假定现有网页的HTML代码为″<div><td>地址:</td><td>三里屯</td></div>″,解析获得的对应的DOM树如附图1所示。对应的文本为感兴趣的地址信息的节点所在的路径为″//div/td[2]″(即div根节点的第2个td子节点)。然后依据该路径,逐一判断每个待获取信息的网页对应的DOM树中,是否有路径为″//div/td[2]″的节点,若是,则将该节点对应的文本作为获取到的感兴趣的信息。
可见,上述两种方案都是通过对包含感兴趣信息的现有网页的HTML编码进行分析,获取能够体现感兴趣信息在网页中所处位置的规则,然后根据获取的规则对每个待抽取信息的网页逐一进行匹配处理来获取感兴趣的信息。因此,对于并非与包含感兴趣信息的现有网页基于同一模板生成的待获取信息的网页(即现有网页的DOM树与待获取信息的网页的DOM树拓扑结构不同),获取感兴趣的信息的效果不佳。虽然目前绝大多数网页都是基于超文本标记语言(HTML,HyperText Markup Language)格式的,但是包含相同或相似文本内容的网页展现方式是千变万化的(即模板可能是不同的),例如字体、排版方式(纵排、横排)可以不同,其中一个网页中可以比另一网页具有更多的附加广告信息等。上述两种现有技术均无法适应这种网页展现方式的变化,因而无法有效地从大量网页中获取感兴趣信息。
发明内容
本申请实施例提供一种获取网页中的感兴趣信息的方法,用以解决现有技术中无法从大量根据不同模板生成的网页中,精确有效地提取感兴趣信息的问题。
对应地,本申请实施例还提供了一种获取网页中的感兴趣信息的装置。
本申请实施例提供的技术方案如下:
一种获取网页中的感兴趣信息的方法,包括:
根据DOM树的拓扑结构,对训练网页集合中各训练网页进行聚类,获得至少一个DOM树具有相似的拓扑结构的训练网页子集合;
对每个所述训练网页子集合中各个训练网页的DOM树分别进行合并,合并后的DOM树中的每个节点对应的文本集合中包括该训练网页子集合中各个训练网页的DOM树中与该节点位于相同路径的节点对应的文本;并
确定合并后的DOM树中的备选节点,所述备选节点对应的文本集合中不同文本的数量与该文本集合中包含文本总数的比值超过设定阈值;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201010176808.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:松乳菇菌丝多糖提取物及其应用
- 下一篇:一种海洋青霉菌菌株及其应用





