[发明专利]一种基于分布式储存系统的数据处理方法和系统有效
申请号: | 202110651810.3 | 申请日: | 2021-06-11 |
公开(公告)号: | CN113407785B | 公开(公告)日: | 2023-02-28 |
发明(设计)人: | 何军红 | 申请(专利权)人: | 西北工业大学 |
主分类号: | G06F16/901 | 分类号: | G06F16/901;G06F16/903;G06F16/27 |
代理公司: | 西安志帆知识产权代理事务所(普通合伙) 61258 | 代理人: | 侯峰;韩素兰 |
地址: | 710072 *** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 分布式 储存 系统 数据处理 方法 | ||
1.一种基于分布式储存系统的数据处理方法,其特征在于,该方法包括:
获取关键词和关键词对应的字段;
根据所述字段在分布式存储系统中确定对应的索引;
在索引中通过对应的关键词获取一组第一数据集,当所述关键词设置有多个时,根据每个所述关键词分别获取一组第一数据集;具体包括:
根据关键词与所述字段的对应关系,在所述索引中提取预选数据集;
根据所述预选数据集的大小,对预选数据集分页;
通过From-size检索所述预选数据集,以确定至少一组目标分页,其中第一数据集合存放在目标分页当中;
通过Scroll检索所述目标分页,以获取第一数据集;
根据多个第一数据集通过关联或模糊匹配生成第二数据集,并通过Scroll方式检索所述第二数据集以获取检索结果,并将结果返回给用户。
2.根据权利要求1所述的一种基于分布式储存系统的数据处理方法,其特征在于,所述步骤通过From-size检索所述预选数据集,以确定至少一组目标分页,其中第一数据集合存放在目标分页当中,具体包括:
通过From-size对至少一个所述分页的至少一条记录对所述关键词进行搜索;
根据在所述分页中搜索到所述关键词,记录所述分页第一项记录的预设标识;
记录的所述预设标识,确定对应的分页为所述目标分页。
3.根据权利要求1所述的一种基于分布式储存系统的数据处理方法,其特征在于,所述步骤根据所述预选数据集的大小,对预选数据集分页具体包括:
根据所述预选数据集的记录条数小于预设值,获取所述索引预留内存大小;
根据所述索引预留内存大小,和预设的冗余比例确定分页最大数据量;
根据所述分页最大数据量所能存储的记录条数向下取整,确定分页大小。
4.一种基于分布式储存系统的数据处理系统,其特征在于,包括:
关键字获取模块,用于获取至少一个关键词和关键词对应的字段;
索引确定模块,用于根据所述字段在分布式存储系统中确定对应的索引;
第一数据集获取模块,用于在索引中通过对应的关键词获取一组第一数据集,当所述关键词设置有多个时,根据每个所述关键词分别获取一组第一数据集;具体包括:
预选数据集获取子模块,用于根据关键词与所述字段的对应关系,在所述索引中提取预选数据集;
分页子模块,用于根据所述预选数据集的大小,对预选数据集分页;
目标分页确定子模块,用于通过From-size检索所述预选数据集,以确定至少一组目标分页,其中第一数据集合存放在目标分页当中;
第一数据集获取子模块,用于通过Scrol l检索所述目标分页,以获取第一数据集;
结果获取模块,用于根据多个第一数据集通过关联或模糊匹配生成第二数据集,并通过Scroll方式检索所述第二数据集以获取检索结果,并将结果返回给用户。
5.根据权利要求4所述的一种基于分布式储存系统的数据处理系统,其特征在于,所述目标分页确定子模块,具体包括:
关键词查询子模块,用于通过From-size对至少一个所述分页的至少一条记录对所述关键词进行搜索;
标识查询子模块,用于根据在所述分页中搜索到所述关键词,记录所述分页第一项记录的预设标识;
标识记录子模块,用于记录的所述预设标识,确定对应的分页为所述目标分页。
6.根据权利要求5所述的一种基于分布式储存系统的数据处理系统,其特征在于,所述分页子模块具体包括:
规模判断子模块,用于根据所述预选数据集的记录条数小于预设值,获取所述索引预留内存大小;
最大分量确定子模块,根据所述索引预留内存大小,和预设的冗余比例确定分页最大数据量;
向下取整子模块,用于根据所述分页最大数据量所能存储的记录条数向下取整,确定分页大小。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西北工业大学,未经西北工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110651810.3/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种抑制虚假对流的方法
- 下一篇:解码方法、设备及可读存储介质