[发明专利]一种站点模板的处理方法及装置有效
| 申请号: | 201510789321.9 | 申请日: | 2015-11-17 |
| 公开(公告)号: | CN105468688B | 公开(公告)日: | 2020-04-28 |
| 发明(设计)人: | 刘伟;叶汇龙;田振雷;马晋;曹冰;张显;张晓婧 | 申请(专利权)人: | 百度在线网络技术(北京)有限公司 |
| 主分类号: | G06F16/958 | 分类号: | G06F16/958 |
| 代理公司: | 北京鸿德海业知识产权代理事务所(普通合伙) 11412 | 代理人: | 袁媛 |
| 地址: | 100085 北京*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 站点 模板 处理 方法 装置 | ||
本发明实施例提供了一种站点模板的处理方法及装置。一方面,本发明实施例通过获取站点所提供的页面,以作为训练样本;从而,获取模板样式,所述模板样式中定义有至少一个字段;根据与各字段相匹配的字符串,在所述训练样本中进行匹配,以获得所述模板样式中定义的各字段的描述信息;进而,根据所述模板样式和所述模板样式中定义的各字段的描述信息,生成所述站点的站点模板。因此,本发明实施例提供的技术方案能够实现自动生成站点模板,提高了站点模板的生成效率,降低了站点模板的生成成本。
【技术领域】
本发明涉及搜索技术领域,尤其涉及一种站点模板的处理方法及装置。
【背景技术】
网站可以提供各种页面,对于这些页面,可以从中抽取出多个信息,以论文为例,可以抽取出题目、作者、书目、期号、页码、DOI、摘要和关键词中至少一个信息。这些信息可以用于构建搜索引擎在搜索时所需要使用的搜索索引信息。
现有技术中,从互联网的页面中爬取信息的方法是:首先爬取到大量页面内容,再根据各站点的站点模板来从页面内容中抽取所需要的信息。然而,这种利用站点模板来抽取信息的方式中,一旦页面结构发生变化,将导致站点模板失效,目前站点模板是人工配置的,站点模板失效后将需要人工重新配置,因此,现有技术中站点模板的生成效率比较低,生成成本比较高。
【发明内容】
有鉴于此,本发明实施例提供了一种站点模板的处理方法及装置,可以实现自动生成站点模板,提高了站点模板的生成效率,降低了站点模板的生成成本。
本发明实施例的一方面,提供一种站点模板的处理方法,包括:
获取站点所提供的页面,以作为训练样本;
获取模板样式,所述模板样式中定义有至少一个字段;
根据与各字段相匹配的字符串,在所述训练样本中进行匹配,以获得所述模板样式中定义的各字段的描述信息;
根据所述模板样式和所述模板样式中定义的各字段的描述信息,生成所述站点的站点模板。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述根据与各字段相匹配的字符串,在所述训练样本中进行匹配,以获得所述模板样式中定义的各字段的描述信息,包括:
根据输入的与每个字段相匹配的字符串,在所述训练样本中进行模糊匹配,以获得候选字符串;
去除所述候选字符串中的杂质字符,以获得目标字符串;
获得所述目标字符串在所述训练样本中的节点路径;
根据所述节点路径,从所述训练样本中抽取所述模板样式中定义的与所述目标字符串相匹配的字段的其他描述信息。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,每个所述字段的描述信息包括字段的元信息、上下文信息、节点路径和字体中至少一个。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述模板样式包括:站点的域名、站点模板命中的页面的URL、站点模板命中的所述站点所提供的页面的次数、各字段名称、各字段的描述信息、模板类型和模板权重中至少一个。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述方法还包括:
利用所述站点所提供的至少一个页面,对所述站点模板中各字段的描述信息进行校验,以获得校验结果;
根据所述校验结果,对所述站点模板中各字段的描述信息进行调整。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述方法还包括:
利用所述站点模板对所述站点的一个页面进行字符串提取;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于百度在线网络技术(北京)有限公司,未经百度在线网络技术(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510789321.9/2.html,转载请声明来源钻瓜专利网。





