[发明专利]一种支持结构化数据和非结构数据混合查询系统及方法在审
申请号: | 202111154175.4 | 申请日: | 2021-09-29 |
公开(公告)号: | CN114201488A | 公开(公告)日: | 2022-03-18 |
发明(设计)人: | 李今鸣 | 申请(专利权)人: | 武汉众智数字技术有限公司 |
主分类号: | G06F16/22 | 分类号: | G06F16/22;G06F16/25;G06F16/28;G06F16/31;G06F16/335;G06F16/35;G06F9/48;G06F9/50 |
代理公司: | 北京汇泽知识产权代理有限公司 11228 | 代理人: | 郑飞 |
地址: | 430074 湖北省武*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 支持 结构 数据 混合 查询 系统 方法 | ||
1.一种支持结构化数据和非结构数据混合查询系统,其特征在于,包括:
接入模块,用于对外暴露客户端连接的终端,负责处理客户端链接,进行用户请求的静态验证和基本的动态检查,完成向其他系统组件内组合调用获取操作结果并向客户端返回;
任务调度模块,用于负责计算单元负载均衡、控制任务执行顺序、时间戳生成、数据声明及数据管理;
数据存储模块,用于负责构建数据在内存和磁盘里的存储方式,记录数据的存储位置,使系统能检索到想要的数据;
检索引擎,用于集成MySQL和Faiss形成向量索引库,以负责对结构化数据和非结构化数据的检索。
2.根据权利要求1所述的支持结构化数据和非结构数据混合查询系统,其特征在于,所述接入模块包括GRPC接口和HTTP接口。
3.根据权利要求1所述的支持结构化数据和非结构数据混合查询系统,其特征在于,所述任务调度模块设有硬盘源、CPU源及GPU源,各源均包含一个任务队列、一个任务加载项Loader和一个执行项Executor,Loader负责将任务队列中的任务数据加载到当前设备上,Executor负责执行已加载任务的搜索,所述Loader和Executor共享同一个任务队列。
4.根据权利要求1所述的支持结构化数据和非结构数据混合查询系统,其特征在于,所述数据存储模块用于在内存里开辟一块空间作为可写缓冲,数据直接写入可写缓冲里,当积累到一定数据量之后,该可写缓冲就会被标记为只读缓冲,只读缓冲被定时写入磁盘,并且会自动开辟新的可写缓冲等待新的数据写入。
5.根据权利要求4所述的支持结构化数据和非结构数据混合查询系统,其特征在于,所述数据存储模块还用于将写满后形成的大小不一的磁盘进行合并得到大文件,所述大文件的大小不小于1GB。
6.根据权利要求1所述的支持结构化数据和非结构数据混合查询系统,其特征在于,所述向量索引库包括FLAT索引类型、IVF索引类型及PQ索引类型。
7.根据权利要求6所述的支持结构化数据和非结构数据混合查询系统,其特征在于,所述向量索引库还包括IVF_SQ8H及IVF_PQ,所述IVF_SQ8是在IVF的基础上对放入单元里的每条向量做一次标量量化;所述IVF_PQ是先对向量做乘积量化,然后进行IVF索引聚类。
8.根据权利要求6所述的支持结构化数据和非结构数据混合查询系统,其特征在于,所述用户请求包括插入请求及检索请求;
当为插入请求时,任务调度模块将请求传给存储模块,存储模块将结构化数据存放在MySQL便于查询,而非结构化数据保存在内存和磁盘中;
当为检索请求时,若要检索的数据里符合结构化条件的数据大于百分之三十就直接先检索然后再过滤符合结构化条件的数据;若检索的数据里符合结构化条件的数据小于百分之三十,则先过滤出这些符合结构化条件的数据再进行检索;对于非结构化数据,在系统运行之前会配置一种非结构化数据检索引擎,检索时先找出要检索数据索引的中心向量,将目标非结构化数据与索引的中心向量对比,得出相似度较高的索引的中心向量,再将目标非结构化数据与相似度较高的索引的中心向量簇中的数据对比。
9.一种用于如权利要求1~8任一项所述的支持结构化数据和非结构数据混合查询系统的方法,其特征在于,包括:
采用接入模块对外暴露客户端连接的终端,处理客户端链接,进行用户请求的静态验证和基本的动态检查,完成向其他系统组件内组合调用获取操作结果并向客户端返回;
采用任务调度模块计算单元负载均衡、控制任务执行顺序、时间戳生成、数据声明及数据管理;
采用数据存储模块构建数据在内存和磁盘里的存储方式,记录数据的存储位置,使系统能检索到想要的数据;
通过检索引擎集成MySQL和Faiss形成向量索引库,以负责对结构化数据和非结构化数据的检索。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉众智数字技术有限公司,未经武汉众智数字技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111154175.4/1.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置