[发明专利]数据检索方法、装置、电子设备及存储介质在审
申请号: | 202211041998.0 | 申请日: | 2022-08-29 |
公开(公告)号: | CN115391404A | 公开(公告)日: | 2022-11-25 |
发明(设计)人: | 徐思航;赵鑫;陆佳 | 申请(专利权)人: | 南京中孚信息技术有限公司 |
主分类号: | G06F16/2455 | 分类号: | G06F16/2455;G06F16/906 |
代理公司: | 北京超凡宏宇专利代理事务所(特殊普通合伙) 11463 | 代理人: | 王思楠 |
地址: | 210000 江苏省南京市浦口区江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 数据 检索 方法 装置 电子设备 存储 介质 | ||
本申请提供一种数据检索方法、装置、电子设备及存储介质,所述方法包括:根据目标向量系数,确定各原始向量到各所述目标量化中心的距离,其中,所述目标向量系数基于所述原始向量的维数以及预设的优化级别确定的;根据各原始向量到各所述目标量化中心的距离,确定各原始向量对应的目标向量,并将所述目标向量作为所述原始数据对应的向量。通过根据目标向量系数,确定各原始向量到各所述目标量化中心的距离,可以使得计算原始向量到各目标量化中心距离时使用一个通用的向量系数,使得计算过程更简单易用,减少计算的复杂度,避免每一次都需要计算原始向量的平行方向损失系数以及垂直方向损失系数。
技术领域
本申请涉及向量量化领域,具体而言,涉及一种数据检索方法、装置、电子设备及存储介质。
背景技术
最大内积检索是机器学习和深度学习中常用的一种向量检索方法,向量间的量化误差可以体现向量之间的关联程度,因此,最大内积检索常用于关联查询。
现有技术中,通过各向异性向量量化的方法计算向量间的量化误差,但是该方法计算的每一个向量都有独立的向量系数,在计算过程中,需要根据各向量的模长计算各向量对应的向量系数,再根据向量系数计算向量间的量化误差。
因此,现有技术存在计算复杂度高的问题。
发明内容
本申请的目的在于,针对上述现有技术中的不足,提供一种数据检索方法、装置、电子设备及存储介质,降低计算复杂度。
为实现上述目的,本申请实施例采用的技术方案如下:
第一方面,本申请实施例提供了一种数据检索方法,所述方法包括:
对多个原始数据分别进行向量化,得到多个原始向量,其中,所述原始数据为可供用户检索的数据;
根据所述多个原始向量,确定多个目标量化中心,各所述目标量化中心为所述多个原始向量中至少一个原始向量对应的中心向量;
根据目标向量系数,确定各原始向量到各所述目标量化中心的距离,其中,所述目标向量系数基于所述原始向量的维数以及预设的优化级别确定的;
根据各原始向量到各所述目标量化中心的距离,确定各原始向量对应的目标向量,并将所述目标向量作为所述原始数据对应的向量;
在获取到用户输入的数据检索请求后,根据所述数据检索请求中的参数信息,对所述目标向量进行检索,得到至少一个检索向量,并将各检索向量对应的原始数据作为待输出的检索结果。
可选的,根据所述多个原始向量,确定多个目标量化中心,包括:
从多个原始向量中随机筛选出多个向量作为多个初始量化中心;
根据目标向量系数确定各原始向量到各所述初始量化中心的距离;
根据各原始向量到各所述初始量化中心的距离将各原始向量进行聚类,得到多个簇,各所述簇包括各初始量化中心以及与各初始量化中心关联的至少一个原始向量;
更新各所述簇的量化中心,得到多个新的初始量化中心,并重新执行所述根据目标向量系数确定各原始向量到各所述初始量化中心的距离的步骤,直至满足收敛条件,将满足收敛条件时的各新的初始量化中心作为所述目标量化中心。
可选的,所述根据目标向量系数,确定各原始向量到各所述目标量化中心的距离,包括:
将所述目标向量系数作为预设的加权距离计算公式的输入参数,通过所述加权距离计算公式确定各原始向量到各所述目标量化中心的距离。
可选的,所述加权距离计算公式为:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京中孚信息技术有限公司,未经南京中孚信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211041998.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种高抗冲蚀-空蚀-腐蚀涂层
- 下一篇:环状陶芯模具
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置