[发明专利]抓取页面的方法和装置有效
申请号: | 201210591380.1 | 申请日: | 2012-12-31 |
公开(公告)号: | CN103020298A | 公开(公告)日: | 2013-04-03 |
发明(设计)人: | 苗宏 | 申请(专利权)人: | 华为技术有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京龙双利达知识产权代理有限公司 11329 | 代理人: | 毛威;张亮 |
地址: | 518129 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 抓取 页面 方法 装置 | ||
1.一种抓取页面的方法,其特征在于,包括:
获取页面的可扩展标记语言路径语言Xpath元素,并通过对所述Xpath元素进行规约获取规约后的Xpath元素;
在所述规约后的Xpath元素中确定训练样本;
执行所述训练样本中的每个Xpath元素的事件,根据所述训练样本中的每个Xpath元素的事件产生的文档对象模型DOM树与原DOM树的编辑距离确定所述训练样本中的每个Xpath元素是否有效,根据所述训练样本中的每个Xpath元素是否有效训练分类器;
通过所述分类器对所述规约后的Xpath元素进行分类,获取有效Xpath元素集合;
执行所述有效Xpath元素集合中的每个Xpath元素的事件,根据所述有效Xpath元素集合中的每个Xpath元素的事件产生的DOM树与原DOM树的编辑距离抓取页面。
2.根据权利要求1所述的方法,其特征在于,在所述根据所述训练样本中的每个Xpath元素是否有效训练分类器之前,所述方法还包括:
获取业务定制信息,根据所述业务定制信息确定定制规则;
所述根据所述训练样本中的每个Xpath元素是否有效训练分类器,包括:
根据所述训练样本中的每个Xpath元素是否有效和所述定制规则,训练所述分类器。
3.根据权利要求1或2所述的方法,其特征在于,所述根据所述训练样本中的每个Xpath元素的事件产生的DOM树与原DOM树的编辑距离确定所述训练样本中的每个Xpath元素是否有效,包括:
若所述训练样本中的第一Xpath元素的事件产生的DOM树与原DOM树的编辑距离大于预定阈值,则确定所述第一Xpath元素有效;
若所述训练样本中的第二Xpath元素的事件产生的DOM树与原DOM树的编辑距离不大于所述预定阈值,则确定所述第二Xpath元素无效;
所述根据所述有效Xpath元素集合中的每个Xpath元素的事件产生的DOM树与原DOM树的编辑距离抓取页面,包括:
若所述有效Xpath元素集合中的第三Xpath元素的事件产生的DOM树与原DOM树的编辑距离大于所述预定阈值,则保存所述第三Xpath元素的事件产生的DOM树;
若所述有效Xpath元素集合中的第四Xpath元素的事件产生的DOM树与原DOM树的编辑距离不大于所述预定阈值,则不保存所述第四Xpath元素的事件产生的DOM树。
4.根据权利要求1至3中任一项所述的方法,其特征在于,在所述根据所述训练样本中的每个Xpath元素的事件产生的DOM树与原DOM树的编辑距离确定所述训练样本中的每个Xpath元素是否有效之后,所述方法还包括:
保存所述训练样本中的有效Xpath元素的事件产生的DOM树;
所述通过所述分类器对所述规约后的Xpath元素进行分类,获取有效Xpath元素集合,包括:
通过所述分类器对所述规约后的Xpath元素中除所述训练样本之外的Xpath元素进行分类,获取所述有效Xpath元素集合。
5.根据权利要求1至4中任一项所述的方法,其特征在于,在所述获取规约后的Xpath元素之后,所述方法还包括:
生成所述规约后的Xpath元素的状态转换图模型;
所述在所述规约后的Xpath元素中确定训练样本,包括:
在所述状态转换图模型中确定训练样本;
所述通过所述分类器对所述规约后的Xpath元素进行分类,获取有效Xpath元素集合,包括:
将所述状态转换图模型输入所述分类器,获取所述有效Xpath元素集合。
6.根据权利要求1至5中任一项所述的方法,其特征在于,所述获取页面的可扩展标记语言路径语言Xpath元素,包括:
通过嵌入浏览器技术获取所述Xpath元素。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华为技术有限公司,未经华为技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210591380.1/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种纳米二氧化钛生产装置
- 下一篇:一种碳酸钙生产用冷却循环系统