[发明专利]搜索方法和搜索引擎有效
| 申请号: | 201310470200.9 | 申请日: | 2013-10-10 |
| 公开(公告)号: | CN104572643B | 公开(公告)日: | 2018-06-19 |
| 发明(设计)人: | 张涛;于晓明;杨建武 | 申请(专利权)人: | 北大方正集团有限公司;北京大学;北京北大方正电子有限公司 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30 |
| 代理公司: | 北京同立钧成知识产权代理有限公司 11205 | 代理人: | 刘芳 |
| 地址: | 100871 北京市海*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 匹配网页 搜索 索引文件 存储 搜索引擎 用户终端 磁盘 内存 匹配 发送 检索效率 搜索结果 再利用 检索 网页 占用 | ||
本发明提供一种搜索方法和搜索引擎,通过接收用户终端发送的用于对网页进行搜索的关键字,利用各从节点的内存中存储的第一索引文件,进行搜索,获得与关键字相匹配的第一匹配网页后,若第一匹配网页的个数少于第一阈值,再利用各节点的磁盘中所存储的第二索引文件,进行搜索,获得与所述关键字相匹配的第二匹配网页,向用户终端发送包含第一匹配网页和第二匹配网页的搜索结果,由于首先利用内存中存储的第一索引文件进行搜索,不需要占用I/O接口,从而避免了由于全部将索引文件存储在磁盘所导致的检索速度下降,提高了检索效率。
技术领域
本发明涉及信息检索技术,尤其涉及一种搜索方法和搜索引擎。
背景技术
搜索引擎是一种根据用户终端输入的关键字,利用倒排索引文件,也称索引文件,进行检索的系统。搜索引擎可分为全文搜索引擎、垂直搜索引擎、集合式搜索引擎和门户搜索引擎等不同种类。搜索引擎需要预先根据包括数十亿,甚至百亿数量级网页的原始网络数据创建索引文件,获得的索引文件的数据量也较大,以全文搜索引擎为例,约为102G到103G数量级。
现有技术中,通常采用将索引文件存储在磁盘上,当利用文件进行搜索时,需要频繁占用磁盘的输入/输出(I/O)接口,因而导致检索速度下降,效率较低。
发明内容
本发明提供一种搜索方法和搜索引擎,用于提高检索速度和效率。
本发明的第一个方面是提供一种搜索方法,包括:
接收用户终端发送的用于对网页进行搜索的关键字;
利用各从节点的内存中存储的第一索引文件,进行搜索,获得与所述关键字相匹配的第一匹配网页;
若所述第一匹配网页的个数少于第一阈值,利用所述各节点的磁盘中所存储的第二索引文件,进行搜索,获得与所述关键字相匹配的第二匹配网页;所述第二索引文件是以第一时长为周期对所述各从节点的内存中所存储的所述第一索引文件周期性持久化到磁盘中获得的;
向所述用户终端发送搜索结果;所述搜索结果包括所述第一匹配网页和/或所述第二匹配网页。
本发明的另一个方面是提供一种搜索引擎,包括:
接收模块,用于接收用户终端发送的用于对网页进行搜索的关键字;
第一搜索模块,用于利用各从节点的内存中存储的第一索引文件,进行搜索,获得与所述关键字相匹配的第一匹配网页;
第二搜索模块,用于若所述第一匹配网页的个数少于第一阈值,利用所述各节点的磁盘中所存储的第二索引文件,进行搜索,获得与所述关键字相匹配的第二匹配网页;所述第二索引文件是以第一时长为周期对所述各从节点的内存中所存储的所述第一索引文件,周期性持久化到磁盘中获得的;
发送模块,用于向所述用户终端发送搜索结果;所述搜索结果包括所述第一匹配网页和/或所述第二匹配网页。
本发明提供的搜索方法和搜索引擎,通过接收用户终端发送的用于对网页进行搜索的关键字,利用各从节点的内存中存储的第一索引文件,进行搜索,获得与关键字相匹配的第一匹配网页后,若第一匹配网页的个数少于第一阈值,再利用各节点的磁盘中所存储的第二索引文件,进行搜索,获得与所述关键字相匹配的第二匹配网页,向用户终端发送包含第一匹配网页和第二匹配网页的搜索结果,由于首先利用内存中存储的第一索引文件进行搜索,不需要占用I/O接口,从而避免了由于全部将索引文件存储在磁盘所导致的检索速度下降,提高了检索效率。
附图说明
图1为本发明一实施例提供的搜索方法的流程示意图;
图2为本发明另一实施例提供的搜索方法的流程示意图;
图3为本发明一实施例提供的搜索引擎的结构示意图;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北大方正集团有限公司;北京大学;北京北大方正电子有限公司,未经北大方正集团有限公司;北京大学;北京北大方正电子有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310470200.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种存储系统缓存策略自适应方法
- 下一篇:设备控制方法、装置及系统





