[发明专利]一种基于网页抽取的搜索系统及搜索方法无效
申请号: | 200710074743.3 | 申请日: | 2007-06-07 |
公开(公告)号: | CN101192234A | 公开(公告)日: | 2008-06-04 |
发明(设计)人: | 杜建强;邓大付 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 深圳市顺天达专利商标代理有限公司 | 代理人: | 郭伟刚;蔡晓红 |
地址: | 518057广东省深圳市高新科*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 网页 抽取 搜索 系统 方法 | ||
1.一种基于网页抽取的搜索系统,包括用于下载网页的网页下载单元以及用于存储搜索结果的结果存储单元,其特征在于,还包括:
模板存储单元,用于存储一个或多个模板,所述模板用于记录预设的网页特征;
网页抽取单元,用于将所述网页下载单元下载的网页中与所述模板匹配的内容作为搜索结果。
2.根据权利要求1所述的一种基于网页抽取的搜索系统,其特征在于,所述模板存储单元中的每一模板对应一组URL特征项,所述网页抽取单元进一步包括模板匹配子单元,用于通过所述网页的URL匹配模板的URL特征项,并丢弃与所有模板都不匹配的网页。
3.根据权利要求2所述的一种基于网页抽取的搜索系统,其特征在于,所述模板存储单元中的每一模板包括一个或多个块特征,所述块特征包括HTML标签的顺序和/或标签的嵌套,所述网页抽取单元进一步包括块匹配子单元,用于根据所述网页中的HTML标签匹配所述模板匹配子单元确定的模板中的块特征,并丢弃网页中与所述模板中所有块特征都不匹配的内容。
4.根据权利要求3所述的一种基于网页抽取的搜索系统,其特征在于,所述模板存储单元中的每一模板的块特征中包括一个或多个结点特征,所述结点特征包括数据类型、过滤规则和/或抽取规则,所述网页抽取单元进一步包括结点匹配子单元,用于根据网页中的数据类型和内容匹配所述块匹配子单元确定的块中的结点特征,并将与所述结点特征匹配的内容作为搜索结果。
5.根据权利要求1-4中任一项所述的一种基于网页抽取的搜索系统,其特征在于,还包括模板设置单元,用于将被选择网页的URL或者经过编辑的URL作为模板的URL特征、将网页中被选择部分内容的标签作为块特征及结点特征生成模板。
6.一种基于网页抽取的搜索方法,其特征在于,包括以下步骤:
(a)从互联网获取网页;
(b)将步骤(a)中获取的网页中与预设的模板匹配的内容作为搜索结果,所述模板用于记录预设的网页特征;
(c)存储步骤(b)获得的搜索结果。
7.根据权利要求6所述的一种基于网页抽取的搜索方法,其特征在于,每一所述模板对应一个URL特征项,所述步骤(b)进一步包括:
(b1)将所述网页的URL匹配所述模板的URL特征项,并丢弃与所有模板都不匹配的网页。
8.根据权利要求7所述的一种基于网页抽取的搜索方法,其特征在于,每一所述模板包括一个或多个块特征,所述块特征包括HTML标签的顺序和/或标签的嵌套,所述步骤(b)进一步包括:
(b2)根据所述网页中的HTML标签匹配所述步骤(b1)确定的模板中的块特征,并丢弃网页中与所述模板中所有块特征都不匹配的内容。
9.根据权利要求8所述的一种基于网页抽取的搜索方法,其特征在于,每一所述模板的块特征中包括一个或多个结点特征,所述结点特征包括数据类型、过滤规则和/或抽取规则,所述步骤(b)进一步包括:
(b3)根据网页中的数据类型和/或内容匹配所述步骤(b2)确定的块中的结点特征,并将与所述结点特征匹配的内容作为搜索结果。
10.根据权利要求6所述的一种基于网页抽取的搜索方法,其特征在于,所述模板中预设的网页特征包括URL特征、块特征或结点特征,所述步骤(b)进一步包括:
(b1’)将网页的URL匹配模板的URL特征项,若存在对应的URL特征项的模板,则将包含匹配URL特征的模板作为当前网页的模板并执行步骤(b2’),否则执行步骤(b5’);
(b2’)根据网页中的HTML标签匹配步骤(b1’)确定的模板中的块特征,若网页中存在匹配块特征的内容,则执行步骤(b3’),否则执行步骤(b5’);
(b3’)根据网页中的数据类型和/或内容匹配所述步骤(b2)确定的块中的结点特征,若网页中存在与结点特征匹配的内容,则执行步骤(b4’),否则执行步骤(b5’);
(b4’)将与结点特征匹配的内容作为搜索结果;
(b5’)丢弃当前网页。
11.根据权利要求6-10中任一项所述的一种基于网页抽取的搜索方法,其特征在于,还包括将被选择网页的URL或者经过编辑的URL作为模板的URL特征、将网页中被选择部分内容的标签作为块特征及结点特征生成模板。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200710074743.3/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种曲轴成型制壳的方法
- 下一篇:一种电动汽车车载充电器的冷却装置和方法