[发明专利]用于确定目标对象所对应的站点信息模板的方法和设备有效
申请号: | 201310162881.2 | 申请日: | 2013-05-06 |
公开(公告)号: | CN103279495A | 公开(公告)日: | 2013-09-04 |
发明(设计)人: | 陈洪亮;呼大为 | 申请(专利权)人: | 百度在线网络技术(北京)有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27 |
代理公司: | 北京汉昊知识产权代理事务所(普通合伙) 11370 | 代理人: | 罗朋;周建华 |
地址: | 100085 北京*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 确定 目标 对象 对应 站点 信息 模板 方法 设备 | ||
技术领域
本发明涉及互联网技术领域,尤其涉及一种用于确定目标对象所对应的站点信息模板的技术。
背景技术
现有的网页信息提取方法,主要是通过对网页的DOM(文档对象化模型,Document Object Model)树进行遍历,抽取其中的所有文本节点信息以组成与该网页对应的正文信息。
利用这种方法所抽取的网页信息,没有真正的对网页的结果进行分析,抽取出的信息多且杂,不能更好的满足用户的需求;同时,由于当前网页中的信息丰富多样,站长使用的页面模版也是多种多样,从而无法利用同一个网页信息提取模板对不同网站上的信息进行提取。
发明内容
本发明的目的是提供一种用于确定目标对象所对应的站点信息模板的方法和设备。
根据本发明的一个方面,提供了一种用于确定目标对象所对应的站点信息模板的方法,其中,该方法包括以下步骤:
a根据目标对象在参考站点所对应的参考站点模板,在所述参考站点中获取对应的参考文本;
b根据所述参考文本进行匹配查询,以确定与所述参考文本相匹配的一个或多个站点训练文本;
c根据所述一个或多个站点训练文本中至少一个站点训练文本,以及所述至少一个站点训练文本所对应的目标站点的站点相关信息,确定所述目标对象在所述目标站点中所对应的站点信息模板。
根据本发明的另一方面,还提供了一种用于确定目标对象所对应的站点信息模板的处理设备,其中,该设备包括:
参考文本获取装置,用于根据目标对象在参考站点所对应的参考站点模板,在所述参考站点中获取对应的参考文本;
训练文本确定装置,用于根据所述参考文本进行匹配查询,以确定与所述参考文本相匹配的一个或多个站点训练文本;
模板确定装置,用于根据所述一个或多个站点训练文本中至少一个站点训练文本,以及所述至少一个站点训练文本所对应的目标站点的站点相关信息,确定所述目标对象在所述目标站点中所对应的站点信息模板。
根据本发明的再一方面,还提供了一种搜索引擎,包括如上述所述的用于确定目标对象所对应的站点信息模板的处理设备。
根据本发明的又一方面,还提供了一种搜索引擎插件,包括如上述所述的用于确定目标对象所对应的站点信息模板的处理设备。
根据本发明的另一方面,还提供了一种浏览器,包括如上述所述的用于确定目标对象所对应的站点信息模板的处理设备。
根据本发明的另一方面,还提供了一种浏览器插件,包括如上述所述的用于确定目标对象所对应的站点信息模板的处理设备。
与现有技术相比,本发明通过根据目标对象在参考站点所对应的参考站点模板,在所述参考站点中获取对应的参考文本,根据所述参考文本进行匹配查询,以确定与所述参考文本相匹配的一个或多个站点训练文本,并根据所述一个或多个站点训练文本中至少一个站点训练文本,以及所述至少一个站点训练文本所对应的目标站点的站点相关信息,确定所述目标对象在所述目标站点中所对应的站点信息模板,从而能够根据目标对象进行站点信息模板的确定,提高了信息获取的准确性,并且扩大了信息获取的范围,提高了信息的获取效率。
而且,本发明还可以根据用户在所述参考站点的操作信息,确定与所述参考站点相对应的目标对象,并根据所述目标对象,确定所述目标对象在参考站点所对应的参考站点模板;从而提高了参考站点模板确定的实效性与灵活性,使得参考站点模板与用户的需求相对应,进一步提高了信息获取的准确性。
而且,本发明还可以获取用户在所述参考站点的访问操作信息,根据用户在所述参考站点的访问操作信息,确定与所述参考站点相对应的目标对象;并且,根据所述站点信息模板,在所述目标站点中确定与所述站点信息模板相匹配的一个或多个目标文本信息,将与所述一个或多个目标文本信息相对应的信息提供给所述用户;进一步地,根据所述一个或多个目标文本信息中至少一个,确定对应的优选目标文本信息,将所述优选目标文本信息提供给所述用户;从而提高了参考站点模板确定的实效性与灵活性,使得参考站点模板与用户的需求相对应,进一步提高了信息获取的准确性,同时及时地将目标文本信息提供给所述用户,提高了信息的获取效率,改善了用户体验。
而且,本发明还可以对包含结构化数据需求的目标对象生成对应的站点信息模板;进一步地,还可以确定所述目标对象是否包含结构化数据需求;从而实现了对数据结构化的处理,使得信息更便于被阅读与分析,提高了信息获取的准确性,并且扩大了信息获取的范围,提高了信息的获取效率。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于百度在线网络技术(北京)有限公司,未经百度在线网络技术(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310162881.2/2.html,转载请声明来源钻瓜专利网。