[发明专利]数据存储以及读取方法、装置、搜索方法、引擎及系统无效

专利信息
申请号: 201210176784.4 申请日: 2012-05-31
公开(公告)号: CN103455504A 公开(公告)日: 2013-12-18
发明(设计)人: 谢朴锐 申请(专利权)人: 深圳市世纪光速信息技术有限公司
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 深圳市世纪恒程知识产权代理事务所 44287 代理人: 胡海国
地址: 518057 广东省深圳市*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 数据 存储 以及 读取 方法 装置 搜索 引擎 系统
【说明书】:

技术领域

发明涉及到数据库读取技术,特别涉及到一种倒排数据库的数据存储以及读取方法、装置、搜索方法、引擎及系统。

背景技术

倒排数据库是搜索引擎中用来保存信息的数据库,通过倒排数据库,能很快的找到满足用户查询的结果页面。

现有的技术方案中,搜索引擎是根据用户输入的查询词(比如词“A”),从倒排数据库依次按照存储地址的顺序读取该查询词所匹配词条的所有记录(文档集合A),进行相关度计算,再取排序前列N个(Top(N))结果返回给用户。参照表1:

词条A文档集合A :包含查询词“A”的文档0-N词条B文档集合B :包含查询词“B”的文档0-M

在具体的读取过程中,需要从头到尾读取“文档集合A”的所有记录。假如“文档集合A”的记录太多,比如有1000万条记录,如果全部读出来的话,需要额外的读盘次数,增加查询响应时间,降低了搜索引擎的查询效率。

另,在现有的技术方案中,文档集合A中的记录,并不一定按照时间排序;即使文档集合A按照时间排序,在读取记录时也是按照从头到尾的读取方式,而对于新增文档,却无法直接插入到文档集合A的“头部”(初始偏移位置),因此并不能满足将记录按时间顺序从新到旧读取。

发明内容

本发明的主要目的为提供一种倒排数据库的数据存储方法,提升了数据查询的效率。

本发明提出一种倒排数据库的数据存储方法,包括:

在倒排数据库中,按时间由先至后的顺序对与词条对应的文档集合的记录进行排序,并按照排序的顺序依次进行存储;

建立内存快表,保存所述文档集合在倒排数据库中的最后偏移。

优选地,所述方法还包括:

在存储文档集合的存储空间的尾部创建存储新增文档的新增文档区间。

优选地,所述方法还包括:

将新增文档按时间由先至后的顺序存储至新增文档区间,并在增加新增文档后,修改内存快表中的最后偏移。

本发明还提出一种倒排数据库的数据存储装置,包括:

排序存储模块,用于在倒排数据库中,按时间由先至后的顺序对与词条对应的文档集合的记录进行排序,并按照排序的顺序依次进行存储;

内存快表模块,用于建立内存快表,保存所述文档集合在倒排数据库中的最后偏移。

优选地,所述装置还包括:

新增文档模块,用于在存储文档集合的存储空间的尾部创建存储新增文档的新增文档区间。

优选地,所述装置还包括:

偏移修改模块,用于将新增文档按时间由先至后的顺序存储至新增文档区间,并在增加新增文档后,修改内存快表中的最后偏移。

本发明还提出一种倒排数据库的搜索方法,包括:

获取搜索关键字;

根据所述关键字所匹配词条在内存快表中保存的最后偏移倒序读取倒排数据库中文档集合的记录;

判断读取的记录是否与关键字匹配;

读取匹配成功的记录,判断匹配成功的记录数量是否达到预设值,并在达到预设值时终止记录读取。

本发明还提出一种倒排数据库的搜索引擎,包括:

关键字获取模块,用于获取搜索关键字;

偏移读取模块,用于根据所述关键字所匹配词条在内存快表中保存的最后偏移倒序读取倒排数据库中文档集合的记录;

记录匹配模块,用于判断读取的记录是否与关键字匹配;

记录判断模块,用于读取匹配成功的记录,判断匹配成功的记录数量是否达到预设值,并在达到预设值时终止记录读取。

本发明还提出一种倒排数据库的读取方法,包括:

根据内存快表中保存的最后偏移倒序读取倒排数据库中文档集合的记录;

判断读取的记录是否与所需要读取的内容匹配;

读取匹配成功的记录,判断匹配成功的记录数量是否达到预设值,并在达到预设值时终止记录读取。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳市世纪光速信息技术有限公司,未经深圳市世纪光速信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201210176784.4/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top