[发明专利]一种数据处理方法、装置和电子设备在审
申请号: | 202111387227.2 | 申请日: | 2021-11-22 |
公开(公告)号: | CN114218210A | 公开(公告)日: | 2022-03-22 |
发明(设计)人: | 谢超;吕曌;潘翔;易小萌 | 申请(专利权)人: | 上海赜睿信息科技有限公司 |
主分类号: | G06F16/22 | 分类号: | G06F16/22;G06F16/2455 |
代理公司: | 北京睿派知识产权代理事务所(普通合伙) 11597 | 代理人: | 刘锋;杨春晓 |
地址: | 200030 上海市*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 数据处理 方法 装置 电子设备 | ||
本发明实施例公开了一种数据处理方法、装置和电子设备。本发明实施例通过获取数据集,确定所述数据集对应的初始向量,其中,所述数据集中包括至少一个数据,所述初始向量包括所述数据集中每个数据对应的向量;根据设定算法,确定所述初始向量对应的向量索引;将所述向量索引进行聚合和降维,确定中间向量;根据预先设置的给定消息传递函数以及损失函数对所述中间向量进行编码映射,生成目标向量。通过上述方法,可以将给定数据集对应的向量映射到较低维度的同时又能保持数据集的偏序关系,提高索引精度和索引速度。
技术领域
本发明涉及计算机技术领域,具体涉及一种数据处理方法、装置和电子设备。
背景技术
在向量存储数据库中,给定的数据集的来源不能确定,不同的数据集具有不同的表示空间,数据集对应的向量在向量数据库中进行检索时所述数据集对应的向量映射之后生成的向量维度越低,检索速度越快,检索精度也越高,但是由于检索的本质在于寻找向量之间的排序从而找到相似向量,因此数据集对应的向量在降维之后,需要保持原有的偏序关系。
现有技术中,通过主成分分析(Principal Component Analysis,PCA)、奇异值分解(Singular Value Decomposition,SVD)和编码器(encoder)等方式获取数据的内在结构,上述方式对类似于数据合并等任务是比较友好的,但是对于向量检索来说,上述方式不能保证在进行向量映射之后保持原有的偏序关系,进而影响向量检索的精度。
因此,如何将给定数据集对应的向量映射到较低维度的同时又能保持数据集的偏序关系,进而提高索引精度和索引速度是目前需要解决的问题。
发明内容
有鉴于此,本发明实施例提供了一种数据处理方法、装置和电子设备,可以将给定数据集对应的向量映射到较低维度的同时又能保持数据集的偏序关系,提高索引精度和索引速度。
第一方面,本发明实施例提供了一种数据处理方法,该方法包括:
获取数据集,确定所述数据集对应的初始向量,其中,所述数据集中包括至少一个数据,所述初始向量包括所述数据集中每个数据对应的向量;
根据设定算法,确定所述初始向量对应的向量索引;
将所述向量索引进行聚合和降维,确定中间向量;
根据预先设置的给定消息传递函数以及损失函数对所述中间向量进行编码映射,生成目标向量。
可选的,所述方法还包括:
根据所述目标向量作为向量数据库的输入,对所述向量数据库进行参数调节,获取新的向量数据库。
可选的,所述根据设定算法,确定所述初始向量对应的向量索引,具体包括:
根据邻近算法,确定所述初始向量对应的向量索引。
可选的,所述根据邻近算法,确定所述初始向量对应的向量索引,具体包括:
根据邻近算法确定所述初始向量对应的邻近算法的邻近图,根所述邻近图确定所述初始向量对应的向量索引。
可选的,所述将所述向量索引进行聚合和降维,确定中间向量,具体包括:
根据聚合函数和降维函数对所述向量索引进行聚合和降维,确定中间向量。
第二方面,本发明实施例提供了一种数据处理装置,该方法包括:
获取单元,用于获取数据集,确定所述数据集对应的初始向量;
确定单元,用于根据设定算法,确定所述初始向量对应的向量索引;
处理单元,用于将所述向量索引进行聚合和降维,确定中间向量;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海赜睿信息科技有限公司,未经上海赜睿信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111387227.2/2.html,转载请声明来源钻瓜专利网。