[发明专利]数据存储以及读取方法、装置、搜索方法、引擎及系统无效
| 申请号: | 201210176784.4 | 申请日: | 2012-05-31 |
| 公开(公告)号: | CN103455504A | 公开(公告)日: | 2013-12-18 |
| 发明(设计)人: | 谢朴锐 | 申请(专利权)人: | 深圳市世纪光速信息技术有限公司 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30 |
| 代理公司: | 深圳市世纪恒程知识产权代理事务所 44287 | 代理人: | 胡海国 |
| 地址: | 518057 广东省深圳市*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 数据 存储 以及 读取 方法 装置 搜索 引擎 系统 | ||
技术领域
本发明涉及到数据库读取技术,特别涉及到一种倒排数据库的数据存储以及读取方法、装置、搜索方法、引擎及系统。
背景技术
倒排数据库是搜索引擎中用来保存信息的数据库,通过倒排数据库,能很快的找到满足用户查询的结果页面。
现有的技术方案中,搜索引擎是根据用户输入的查询词(比如词“A”),从倒排数据库依次按照存储地址的顺序读取该查询词所匹配词条的所有记录(文档集合A),进行相关度计算,再取排序前列N个(Top(N))结果返回给用户。参照表1:
在具体的读取过程中,需要从头到尾读取“文档集合A”的所有记录。假如“文档集合A”的记录太多,比如有1000万条记录,如果全部读出来的话,需要额外的读盘次数,增加查询响应时间,降低了搜索引擎的查询效率。
另,在现有的技术方案中,文档集合A中的记录,并不一定按照时间排序;即使文档集合A按照时间排序,在读取记录时也是按照从头到尾的读取方式,而对于新增文档,却无法直接插入到文档集合A的“头部”(初始偏移位置),因此并不能满足将记录按时间顺序从新到旧读取。
发明内容
本发明的主要目的为提供一种倒排数据库的数据存储方法,提升了数据查询的效率。
本发明提出一种倒排数据库的数据存储方法,包括:
在倒排数据库中,按时间由先至后的顺序对与词条对应的文档集合的记录进行排序,并按照排序的顺序依次进行存储;
建立内存快表,保存所述文档集合在倒排数据库中的最后偏移。
优选地,所述方法还包括:
在存储文档集合的存储空间的尾部创建存储新增文档的新增文档区间。
优选地,所述方法还包括:
将新增文档按时间由先至后的顺序存储至新增文档区间,并在增加新增文档后,修改内存快表中的最后偏移。
本发明还提出一种倒排数据库的数据存储装置,包括:
排序存储模块,用于在倒排数据库中,按时间由先至后的顺序对与词条对应的文档集合的记录进行排序,并按照排序的顺序依次进行存储;
内存快表模块,用于建立内存快表,保存所述文档集合在倒排数据库中的最后偏移。
优选地,所述装置还包括:
新增文档模块,用于在存储文档集合的存储空间的尾部创建存储新增文档的新增文档区间。
优选地,所述装置还包括:
偏移修改模块,用于将新增文档按时间由先至后的顺序存储至新增文档区间,并在增加新增文档后,修改内存快表中的最后偏移。
本发明还提出一种倒排数据库的搜索方法,包括:
获取搜索关键字;
根据所述关键字所匹配词条在内存快表中保存的最后偏移倒序读取倒排数据库中文档集合的记录;
判断读取的记录是否与关键字匹配;
读取匹配成功的记录,判断匹配成功的记录数量是否达到预设值,并在达到预设值时终止记录读取。
本发明还提出一种倒排数据库的搜索引擎,包括:
关键字获取模块,用于获取搜索关键字;
偏移读取模块,用于根据所述关键字所匹配词条在内存快表中保存的最后偏移倒序读取倒排数据库中文档集合的记录;
记录匹配模块,用于判断读取的记录是否与关键字匹配;
记录判断模块,用于读取匹配成功的记录,判断匹配成功的记录数量是否达到预设值,并在达到预设值时终止记录读取。
本发明还提出一种倒排数据库的读取方法,包括:
根据内存快表中保存的最后偏移倒序读取倒排数据库中文档集合的记录;
判断读取的记录是否与所需要读取的内容匹配;
读取匹配成功的记录,判断匹配成功的记录数量是否达到预设值,并在达到预设值时终止记录读取。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳市世纪光速信息技术有限公司,未经深圳市世纪光速信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210176784.4/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置





