[发明专利]一种数据索引建立方法、索引检索方法及装置在审
| 申请号: | 201710582220.3 | 申请日: | 2017-07-17 |
| 公开(公告)号: | CN109947759A | 公开(公告)日: | 2019-06-28 |
| 发明(设计)人: | 徐党生;刘赫;常剑飞;辛术;卞淑 | 申请(专利权)人: | 中国移动通信集团吉林有限公司;中国移动通信集团公司 |
| 主分类号: | G06F16/22 | 分类号: | G06F16/22;G06F16/24 |
| 代理公司: | 北京同达信恒知识产权代理有限公司 11291 | 代理人: | 郭润湘 |
| 地址: | 130021 吉*** | 国省代码: | 吉林;22 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 数据索引 数据文件信息 数据文件 索引检索 指定字段 字段 数据存储和管理 数据文件存储 关联关系 海量数据 索引方式 索引文件 高效率 申请 删除 | ||
本申请涉及数据存储和管理技术领域,尤其涉及一种数据索引建立方法、索引检索方法及装置,用以解决现有索引方式无法适用于海量数据环境下且很难实现高效率的批量删除的问题。本申请实施例提供的数据索引建立方法包括:提取待处理的数据文件中指定字段对应的字段值;生成包含有所述数据文件中指定字段对应的字段值与数据文件信息之间的关联关系的索引文件,其中,所述数据文件信息为数据文件名和/或数据文件存储位置。
技术领域
本申请涉及数据存储和管理技术领域,尤其涉及一种数据索引建立方法、索引检索方法及装置。
背景技术
随着信息化的发展和大数据时代的来临,数据量呈爆炸式增长,为了支撑海量数据环境下数据的快速检索,数据索引的设计成为至关重要的环节。
现有数据索引的建立多体现为关键词与具体记录的关系,用户可以输入某一关键词,在索引中查询到包含有该关键词的一条具体记录。比如,数据库中存储的一条信息为:“张三吃午饭”,那么在建立索引时,可以将“午饭”设置为关键词,后续可以输入“午饭”查找到具体记录为“张三吃午饭”。然而在海量数据环境下,若按照上述方法来为每个文件中的内容创建记录并建立索引,将索引指向每条记录的具体位置,可想而知所耗费的工作量是巨大的。并且,在海量数据环境下,由于数据量过大,一般只为近期的数据建立索引并进行缓存,同时将之前的存储的数据删除,而在删除数据时,还需查找索引中关键词对应的具体记录,然后逐条删除具体记录,故此,删除操作也需耗费很大的工作量,现有索引方式很难实现高效率地批量删除。
综上,目前需要一种能够适用于海量数据环境下且支持高效率批量删除的索引建立方法。
发明内容
本申请实施例提供一种数据索引建立方法、索引检索方法及装置,用以解决现有索引方式无法适用于海量数据环境下且很难实现高效率的批量删除的问题。
本申请实施例提供的具体技术方案如下:
第一方面,一种数据索引建立方法,包括:
提取待处理的数据文件中指定字段对应的字段值;
生成包含有所述数据文件中指定字段对应的字段值与数据文件信息之间的关联关系的索引文件,其中,所述数据文件信息为数据文件名和/或数据文件存储位置。
可选地,在提取待处理的数据文件中指定字段对应的字段值之后,所述方法还包括:
针对每一个数据文件,生成包含有该数据文件中指定字段以及所述指定字段对应的字段值的有序表;
所述生成包含有所述数据文件中指定字段对应的字段值与所述数据文件信息之间的关联关系的索引文件,包括:
将各数据文件的有序表合并;
将合并后的有序表中指定字段、字段值以及包含字段值的数据文件的数据文件信息关联存储在索引文件中。
可选地,在生成包含有所述数据文件中指定字段对应的字段值与所述数据文件信息之间的关联关系的索引文件之后,所述方法还包括:
判断内存中已缓存的索引文件量是否超出设定阈值;
若是,则将内存中创建时间在指定时间范围的索引文件删除,并将新生成的索引文件存储在内存中;
若否,则将新生成的索引文件存储在内存中。
可选地,在将新生成的索引文件存储在内存中之后,所述方法还包括:
将所述新生成的索引文件存储在磁盘中。
可选地,在生成包含有所述数据文件中指定字段对应的字段值与所述数据文件信息之间的关联关系的索引文件之后,所述方法还包括:
第二方面,一种索引检索方法,包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国移动通信集团吉林有限公司;中国移动通信集团公司,未经中国移动通信集团吉林有限公司;中国移动通信集团公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710582220.3/2.html,转载请声明来源钻瓜专利网。





