[发明专利]一种基于分布式储存系统的数据处理方法和系统有效
申请号: | 202110651810.3 | 申请日: | 2021-06-11 |
公开(公告)号: | CN113407785B | 公开(公告)日: | 2023-02-28 |
发明(设计)人: | 何军红 | 申请(专利权)人: | 西北工业大学 |
主分类号: | G06F16/901 | 分类号: | G06F16/901;G06F16/903;G06F16/27 |
代理公司: | 西安志帆知识产权代理事务所(普通合伙) 61258 | 代理人: | 侯峰;韩素兰 |
地址: | 710072 *** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 分布式 储存 系统 数据处理 方法 | ||
本申请公开了一种基于分布式储存系统的数据处理方法,该方法包括:获取关键词和关键词对应的字段;根据所述字段在分布式存储系统中确定对应的索引;在索引中通过对应的关键词获取一组第一数据集,当所述关键词设置有多个时,根据每个所述关键词分别获取一组第一数据集;将多个第一数据集合并为第二数据集,并通过Scroll方式检索所述第二数据集以获取检索结果,并将结果返回给用户。本申请根据字段分类在不同的数据库中搜索数据获取第一数据集,能够减少对不必要的记录的访问,快速获取到第一数据集,如果关键词设置有多个,通过多个第一数据集获取的第二数据集数据量有限,容易通过检索获取最终返回给客户的数据,该方案检索效率高。
技术领域
本申请涉及全文分布式检索技术领域,尤其涉及一种基于分布式储存系统的数据处理方法、装置、计算机设备及存储介质。
背景技术
随着计算机运算能力的提升,物联网、大数据等概念逐年实用化,计算机系统所需要处理的数据量产生了井喷,因此对众多信息管理成为一项信息技术挑战。新增数据在数据量扩增的同时,数据的复杂度也产生了巨大的变化,其中为了处理大量结构化并不充分的文字数据,数据的索引和检索引入了全文检索的方式,与之相配合的是索引方式的改变。通过倒排索引的方式,以一个具体的字段作为索引的依据,存储字段下的值出现过的所有记录,如此能够对全文出现的各种信息进行索引,相较于传统关系型数据库对个别字段进行的索引,信息的索引更为全面,索引的数量以及每个索引当中存放的数据也更多。这对检索过程造成了压力。
Elasticsearch是一个分布式、高扩展、高实时的搜索与数据分析引擎。它能很方便的使大量数据具有搜索、分析和探索的能力。具备Elasticsearch的水平伸缩性,能够有效通过倒序索引的方式对文本数据进行全文索引,并实施后续的检索工作。然而,海量的数据仍然会降低检索的效率。From-size的检索方式,将数据分成多页,并且对指定页进行检索,在数据量大时,因为分页执行效率大幅降低容易造成查询超时,而Scroll的检索方式对所有指定数据进行检索,一次性筛选在数据量较大时仍然会造成超时。
发明内容
本申请实施例的目的在于提出一种能够提升检索效率的分布式的检索方法。
一种基于分布式储存系统的数据处理方法,该方法包括:
获取关键词和关键词对应的字段;
根据所述字段在分布式存储系统中确定对应的索引;
在索引中通过对应的关键词获取一组第一数据集,当所述关键词设置有多个时,根据每个所述关键词分别获取一组第一数据集;
根据多个第一数据集通过关联或模糊匹配生成第二数据集,并通过Scroll方式检索所述第二数据集以获取检索结果,并将结果返回给用户。
进一步的,所述步骤在索引中通过对应的关键词获取一组第一数据集,当所述关键词设置有多个时,根据每个所述关键词分别获取一组第一数据集,具体包括:
根据关键词与所述字段的对应关系,在所述索引中提取预选数据集;
根据所述预选数据集的大小,对预选数据集分页;
通过From-size检索所述预选数据集,以确定至少一组目标分页,其中第一数据集合存放在目标分页当中;
通过Scroll检索所述目标分页,以获取第一数据集。
进一步的,所述步骤通过From-size检索所述预选数据集,以确定至少一组目标分页,其中第一数据集合存放在目标分页当中,具体包括:
通过From-size对至少一个所述分页的至少一条记录对所述关键词进行搜索;
根据在所述分页中搜索到所述关键词,记录所述分页第一项记录的所述预设标识;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西北工业大学,未经西北工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110651810.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种抑制虚假对流的方法
- 下一篇:解码方法、设备及可读存储介质