[发明专利]一种站点模板的处理方法及装置有效

申请号：	201510789321.9	申请日：	2015-11-17
公开（公告）号：	CN105468688B	公开（公告）日：	2020-04-28
发明（设计）人：	刘伟;叶汇龙;田振雷;马晋;曹冰;张显;张晓婧	申请（专利权）人：	百度在线网络技术(北京)有限公司
主分类号：	G06F16/958	分类号：	G06F16/958
代理公司：	北京鸿德海业知识产权代理事务所(普通合伙) 11412	代理人：	袁媛
地址：	100085 北京***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种站点模板处理方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明实施例提供了一种站点模板的处理方法及装置。一方面，本发明实施例通过获取站点所提供的页面，以作为训练样本；从而，获取模板样式，所述模板样式中定义有至少一个字段；根据与各字段相匹配的字符串，在所述训练样本中进行匹配，以获得所述模板样式中定义的各字段的描述信息；进而，根据所述模板样式和所述模板样式中定义的各字段的描述信息，生成所述站点的站点模板。因此，本发明实施例提供的技术方案能够实现自动生成站点模板，提高了站点模板的生成效率，降低了站点模板的生成成本。

【技术领域】

本发明涉及搜索技术领域，尤其涉及一种站点模板的处理方法及装置。

【背景技术】

网站可以提供各种页面，对于这些页面，可以从中抽取出多个信息，以论文为例，可以抽取出题目、作者、书目、期号、页码、DOI、摘要和关键词中至少一个信息。这些信息可以用于构建搜索引擎在搜索时所需要使用的搜索索引信息。

现有技术中，从互联网的页面中爬取信息的方法是：首先爬取到大量页面内容，再根据各站点的站点模板来从页面内容中抽取所需要的信息。然而，这种利用站点模板来抽取信息的方式中，一旦页面结构发生变化，将导致站点模板失效，目前站点模板是人工配置的，站点模板失效后将需要人工重新配置，因此，现有技术中站点模板的生成效率比较低，生成成本比较高。

【发明内容】

有鉴于此，本发明实施例提供了一种站点模板的处理方法及装置，可以实现自动生成站点模板，提高了站点模板的生成效率，降低了站点模板的生成成本。

本发明实施例的一方面，提供一种站点模板的处理方法，包括：

获取站点所提供的页面，以作为训练样本；

获取模板样式，所述模板样式中定义有至少一个字段；

根据与各字段相匹配的字符串，在所述训练样本中进行匹配，以获得所述模板样式中定义的各字段的描述信息；

根据所述模板样式和所述模板样式中定义的各字段的描述信息，生成所述站点的站点模板。

如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，所述根据与各字段相匹配的字符串，在所述训练样本中进行匹配，以获得所述模板样式中定义的各字段的描述信息，包括：

根据输入的与每个字段相匹配的字符串，在所述训练样本中进行模糊匹配，以获得候选字符串；

去除所述候选字符串中的杂质字符，以获得目标字符串；

获得所述目标字符串在所述训练样本中的节点路径；

根据所述节点路径，从所述训练样本中抽取所述模板样式中定义的与所述目标字符串相匹配的字段的其他描述信息。