[发明专利]一种分布式并行向量比对计算方法及系统在审
| 申请号: | 202211381338.7 | 申请日: | 2022-11-04 |
| 公开(公告)号: | CN115618184A | 公开(公告)日: | 2023-01-17 |
| 发明(设计)人: | 刘鹏;张真;刘子扬 | 申请(专利权)人: | 南京云创大数据科技股份有限公司 |
| 主分类号: | G06F17/16 | 分类号: | G06F17/16;G06F9/50;G06F16/23;G06F16/2457;G06F16/27;G06F18/22 |
| 代理公司: | 南京中盟科创知识产权代理事务所(特殊普通合伙) 32279 | 代理人: | 孙丽君 |
| 地址: | 210000 江苏省南京市秦淮区永*** | 国省代码: | 江苏;32 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 分布式 并行 向量 计算方法 系统 | ||
1.一种分布式并行向量比对计算方法,其特征在于,该方法包括以下步骤:
S1、主控单元基于分布式资源调度将向量数据库中内容均衡分发至若干计算单元,形成比对向量集;
S2、所述主控单元接收计算指令,将待计算的向量数据集发送至各个计算单元;
S3、所述计算单元将向量数据集与所述比对向量集进行对比计算;
S4、将计算结果按照相关性进行排序;
S5、将前十个相关性最高的比对结果反馈至主控单元;
S6、主控单元接收结果再次按照相关性进行排序,将前十个相关性最高比对结果作为输出并展示。
2.根据权利要求1所述的一种分布式并行向量比对计算方法,其特征在于,所述主控单元将向量数据库中内容均衡分发至若干计算单元,分别形成比对向量集,包括以下步骤:
S11、主控单元连接大数据平台获取向量数据库并实时更新;
S11、建立所述主控单元与计算单元之间用于分布式数据匹配的通信连接;
S12、所述计算单元建立基于海杜普的分布式存储;
S13、建立数据分发数学模型并进行数据分发算法;
S14、基于数据分发算法将向量数据库内容随机且均衡分发至若干计算单元中;
S15、所述计算单元接收向量数据进行分布式存储形成比对向量集。
3.根据权利要求2所述的一种分布式并行向量比对计算方法,其特征在于,所述建立数据分发数学模型并进行数据分发算法包括以下步骤:
S131、定义并初始化变量;
S132、计算任务与文件对应关系矩阵,定义任务序号变量,并计算理论上每个节点的平均任务量;
S133、为混合整数线性规划一般形式的参数进行值设置;
S134、计算任务分配结果矩阵。
4.根据权利要求1所述的一种分布式并行向量比对计算方法,其特征在于,所述计算单元将向量数据与所述比对向量集进行对比计算包括以下步骤:
S31、获取待计算的向量数据集并计算均值向量,计算公式为:
式中,μ表示向量数据集的均值向量,N表示向量数据集中向量的数量,i取值为(0,1,2,3,…,N),x表示向量数据集中的单个向量;
S32、利用数学模型依次计算所述均值向量与所述比对向量集的相似度;
其中,所述数学模型包括相似度计算数学模型与欧氏距离数学模型。
5.根据权利要求4所述的一种分布式并行向量比对计算方法,其特征在于,所述相似度计算数学模型的公式为:
式中,S(Xi)表示向量数据集的相似度,即均值向量与比对向量集的相似度,cos(Ym,μ)表示对比数据集与向量数据集的均值向量之间的余弦值,D表示向量所在的维度,j表示维度的层数取值为(1,2,…,D),μ表示向量数据集的均值向量,μj表示均值向量在第j维的值,Ym表示比对向量集,ymj表示比对向量集内的向量第j维的值。
6.根据权利要求5所述的一种分布式并行向量比对计算方法及系统,其特征在于,所述欧氏距离数学模型的公式为:
式中,ρ表示欧氏距离,即均值向量与比对向量集的相似度,(X1,Y1,Z1)表示均值向量的坐标值,(X2,Y2,Z2)表示比对向量集内向量的坐标值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京云创大数据科技股份有限公司,未经南京云创大数据科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211381338.7/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种智能化农业喷洒装置
- 下一篇:基于医防融合的糖尿病高危人群数据提取方法





