[发明专利]一种动态匹配网页模板的方法及其装置在审
| 申请号: | 201510199105.9 | 申请日: | 2015-04-24 |
| 公开(公告)号: | CN104866527A | 公开(公告)日: | 2015-08-26 |
| 发明(设计)人: | 陈本峰 | 申请(专利权)人: | 美通云动(北京)科技有限公司 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30;H04L29/08 |
| 代理公司: | 北京君泊知识产权代理有限公司 11496 | 代理人: | 王程远 |
| 地址: | 100080 北京市*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 动态 匹配 网页 模板 方法 及其 装置 | ||
1.一种动态匹配网页模板的方法,该方法包括如下步骤:
获取待转换的网页;
生成待转换网页的DOM;
为待转换的网页查找与其匹配的网页模板;
根据查找到的网页模板转换网页。
2.如权利要求1所述的动态匹配网页模板的方法,其中为待转换的网页查找与其匹配的网页模板包括:根据一定规则预先生成网页模板库,在匹配过程中,根据同样的规则,查找与待转换的网页相匹配的网页模板。
3.如权利要求1所述的动态匹配网页模板的方法,其中使用启发式规则为待转换的网页查找与其匹配的网页模板,具体包括:预先建立启发式规则列表,在为待转换的网页查找与其匹配的网页模板时,依次遍历待识别网页DOM中的节点,生成待识别网页的网页特征,将这些网页特征与预先定义的启发式规则列表进行规则的匹配,若待识别网页的网页特征符合某启发式规则定义的条件,则规则匹配成功,进一步根据匹配的规则输出待识别网页的网页类型。
4.如权利要求3所述的动态匹配网页模板的方法,其中预先建立启发式规则列表包括:获得网页模板库中网页的DOM;依次遍历DOM中的节点,生成网页的网页特征;对获得的网页特征进行分类,获得启发式规则列表。
5.如权利要求1所述的动态匹配网页模板的方法,其中使用网页DOM为待转换的网页查找与其匹配的网页模板,包括:获得网页模板库中网页DOM,并对获得的网页DOM进行分类,为各个类型的网页DOM建立相应的模板;依次选择网页模板库中的DOM,计算该网页模板库中的DOM同所述待转换网页的DOM的相似度,如果所述相似度大于预设阈值,确定所述待转换网页属于该网页模板库中选择的DOM对应的类别。
6.一种网页模板动态匹配的装置包括:
获取模块:获取待转换的网页;
DOM生成模块:生成待转换网页的DOM;
匹配模块:为待转换的网页查找与其匹配的网页模板;
转换模块:根据查找到的网页模板转换网页。
7.如权利要求6所述的网页模板动态匹配的装置,其中匹配模块根据一定规则预先生成网页模板库,在匹配过程中,根据同样的规则,查找与待转换的网页相匹配的网页模板。
8.如权利要求6所述的网页模板动态匹配的装置,其中匹配模块使用启发式规则为待转换的网页查找与其匹配的网页模板,匹配模块预先建立启发式规则列表,匹配模块包括:
比对模块:依次遍历待识别网页DOM中的节点,生成待识别网页的网页特征,将这些网页特征与预先定义的启发式规则列表进行规则的匹配,若待识别网页的网页特征符合某启发式规则定义的条件,则规则匹配成功,并根据匹配的规则输出待识别网页的网页类型。
9.如权利要求8所述的动态匹配网页模板的装置,其中匹配模块还包括:
模板库生成模块:获得网页模板库中网页的DOM;依次遍历DOM中的节点,生成网页的网页特征;
启发式规则列表生成模块:对获得的网页特征进行分类,获得启发式规则列表。
10.如权利要求6所述的网页模板动态匹配的装置,其中匹配模块使用网页DOM为待转换的网页查找与其匹配的网页模板,具体包括:
匹配模块首先获得网页模板库中网页DOM,对其进行分类,并为各个类型的网页DOM建立相应的模板;匹配模块依次选择网页模板库中的DOM,计算该网页模板库中的DOM同所述待转换网页的DOM的相似度,如果所述相似度大于预设阈值,确定所述待转换网页属于该网页模板库中选择的DOM对应的类别。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于美通云动(北京)科技有限公司,未经美通云动(北京)科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510199105.9/1.html,转载请声明来源钻瓜专利网。





