[发明专利]一种支持结构化数据和非结构数据混合查询系统及方法在审
申请号: | 202111154175.4 | 申请日: | 2021-09-29 |
公开(公告)号: | CN114201488A | 公开(公告)日: | 2022-03-18 |
发明(设计)人: | 李今鸣 | 申请(专利权)人: | 武汉众智数字技术有限公司 |
主分类号: | G06F16/22 | 分类号: | G06F16/22;G06F16/25;G06F16/28;G06F16/31;G06F16/335;G06F16/35;G06F9/48;G06F9/50 |
代理公司: | 北京汇泽知识产权代理有限公司 11228 | 代理人: | 郑飞 |
地址: | 430074 湖北省武*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 支持 结构 数据 混合 查询 系统 方法 | ||
本发明属于数据检索技术领域,具体提供一种支持结构化数据和非结构数据混合查询系统及方法,其中系统包括:接入模块,用于对外暴露客户端连接的终端,负责处理客户端链接,进行用户请求的静态验证和基本的动态检查,完成向其他系统组件内组合调用获取操作结果并向客户端返回;任务调度模块,用于负责计算单元负载均衡、控制任务执行顺序、时间戳生成、数据声明及数据管理;数据存储模块,用于负责构建数据在内存和磁盘里的存储方式,记录数据的存储位置;检索引擎,用于集成MySQL和Faiss形成向量索引库,以负责对结构化数据和非结构化数据的检索。该方案可以在限定构化数据条件的前提下,快速地检索出非结构化数据特征值的相似度排名。
技术领域
本发明涉及数据检索技术领域,更具体地,涉及一种支持结构化 数据和非结构数据混合查询系统及方法。
背景技术
结构化数据是指常见int、float、string等类型数据,结构化数据也 称作行数据,是由二维表结构来逻辑表达和实现的数据,严格地遵循 数据格式与长度规范,主要通过Oracle、DB2、MySQL等关系型数据库 进行存储和管理。非结构化数据是数据结构不规则或不完整,没有预 定义的数据模型,不方便用数据库二维逻辑表来表现的数据。包括所 有格式的办公文档、文本、图片、XML,HTML、各类报表、图像和 音频/视频信息等等。这些非结构化数据出现在各特殊行业中,比如安 防中记录出现行人特征,生物医药中记录药物特征等。
随着大数据、人工智能等技术的发展,数字化进程不断加速,海 量大数据汹涌而来,我们步入了数据智能应用的时代。办公文档、邮 件、图片、研究报告、法律法规、各类报表、音频/视频信息这些非结 构化数据成为企业数据主要形态。而传统的结构化数据早已在生活中 随处可见,当下一款能支持结构化数据和非结构数据混合查询系统已 经必不可少。
发明内容
本发明需要解决的是现有技术中存在的缺乏能支持结构化数据和 非结构数据混合查询系统的技术问题。
本发明提供了一种支持结构化数据和非结构数据混合查询系统, 包括:
接入模块,用于对外暴露客户端连接的终端,负责处理客户端链 接,进行用户请求的静态验证和基本的动态检查,完成向其他系统组 件内组合调用获取操作结果并向客户端返回;
任务调度模块,用于负责计算单元负载均衡、控制任务执行顺序、 时间戳生成、数据声明及数据管理;
数据存储模块,用于负责构建数据在内存和磁盘里的存储方式, 记录数据的存储位置,使系统能检索到想要的数据;
检索引擎,用于集成MySQL和Faiss形成向量索引库,以负责对结 构化数据和非结构化数据的检索。
优选地,所述接入模块包括GRPC接口和HTTP接口。
优选地,所述任务调度模块设有硬盘源、CPU源及GPU源,各源 均包含一个任务队列、一个任务加载项Loader和一个执行项Executor, Loader负责将任务队列中的任务数据加载到当前设备上,Executor负责 执行已加载任务的搜索,所述Loader和Executor共享同一个任务队列。
优选地,所述数据存储模块用于在内存里开辟一块空间作为可写 缓冲,数据直接写入可写缓冲里,当积累到一定数据量之后,该可写 缓冲就会被标记为只读缓冲,只读缓冲被定时写入磁盘,并且会自动 开辟新的可写缓冲等待新的数据写入。
优选地,所述数据存储模块还用于将写满后形成的大小不一的磁 盘进行合并得到大文件,所述大文件的大小不小于1GB。
优选地,所述向量索引库包括FLAT索引类型、IVF索引类型及PQ 索引类型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉众智数字技术有限公司,未经武汉众智数字技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111154175.4/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置