[发明专利]向量获取方法、装置、电子设备以及计算机可读存储介质有效
| 申请号: | 201811475065.6 | 申请日: | 2018-12-04 |
| 公开(公告)号: | CN111274796B | 公开(公告)日: | 2023-04-07 |
| 发明(设计)人: | 林宇澄;杨晓庆 | 申请(专利权)人: | 北京嘀嘀无限科技发展有限公司 |
| 主分类号: | G06F40/253 | 分类号: | G06F40/253;G06F40/58;G06F18/214 |
| 代理公司: | 北京超成律师事务所 11646 | 代理人: | 邓超 |
| 地址: | 100193 北京*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 向量 获取 方法 装置 电子设备 以及 计算机 可读 存储 介质 | ||
本申请提供了一种向量获取方法、装置、电子设备以及计算机可读存储介质,该方法包括:获取初始向量,初始向量包括初始主语向量、初始宾语向量和初始关系向量,初始主语向量的数目与初始宾语向量的数目之间的差值大于预设数目阈值,其中,初始主语向量存储于弹性分布式数据集RDD,初始宾语向量、初始关系向量是通过Spark架构的广播变量获取的;根据初始数据,对初始向量进行训练,得到目标特征训练向量,初始数据包括多个主谓宾SPO三元组,目标特征训练向量包括:特征主语向量、特征宾语向量和特征关系向量。通过广播变量获取初始宾语向量和初始关系向量,避免了由于主语实体的数目和宾语实体的数目不均衡无法训练向量的情况。
技术领域
本申请涉及计算机技术领域,具体而言,涉及一种向量获取方法、装置、电子设备以及计算机可读存储介质。
背景技术
随着大数据技术的不断发展,用户可以根据获取的大量数据对主语实体、宾语实体和SPO(Subject-Predicate-Object,主语-谓语-宾语)三元组进行提取分析,从而确定各个主语实体和各个宾语实体之间的关系。
相关技术中,可以通过TransE(基于翻译模型的关系学习算法)技术,将大量的主语实体、宾语实体以及主语实体和宾语实体之间的关系输入预先设置的数据模型,通过数据模型对主语实体、宾语实体以及主语实体和宾语实体之间的关系进行分析训练,得到主语向量、宾语向量和关系向量。
但是,若主语实体的数量远大于宾语实体的数量,会造成数据量不均衡,导致报错中断的情况,无法训练得到主语向量、宾语向量和关系向量。
发明内容
有鉴于此,本申请实施例的目的在于提供一种向量获取方法、装置、电子设备及计算机可读存储介质,能够通过从RDD获取初始向量中的初始主语向量,并通过Spark架构的广播变量获取初始向量中的初始宾语向量和初始关系向量,并根据包括多个SPO三元组的初始数据,对初始向量进行训练,得到目标特征训练向量,避免了由于主语实体的数目和宾语实体的数目不均衡无法训练向量的情况,提高了训练包括特征主语向量、特征宾语向量和特征关系向量的目标特征训练向量的灵活性。
第一方面,本申请实施例提供了一种向量获取方法,应用于斯帕克Spark架构中的计算节点,所述Spark架构包括:服务器、管理节点、工作节点和所述计算节点,所述管理节点分别与所述服务器和所述工作节点连接,所述工作节点包括至少一个计算节点;所述方法包括:
获取初始向量,所述初始向量包括初始主语向量、初始宾语向量和初始关系向量,所述初始主语向量的数目与所述初始宾语向量的数目之间的差值大于预设数目阈值,其中,所述初始主语向量存储于RDD(ResilientDistributed Datasets,弹性分布式数据集),所述初始宾语向量、所述初始关系向量是通过所述Spark架构的广播变量获取的;
根据初始数据,对所述初始向量进行训练,得到目标特征训练向量,所述初始数据包括多个SPO三元组,所述目标特征训练向量包括:特征主语向量、特征宾语向量和特征关系向量。
可选的,所述根据初始数据,对所述初始向量进行训练,包括:
根据所述初始数据,对所述初始向量进行训练,得到第一训练向量;
若所述第一训练向量的损失函数值不小于所述预设函数阈值,根据所述初始数据对所述第一训练向量进行训练,得到第二训练向量,直至训练得到的目标特征训练向量的损失函数值小于所述预设函数阈值。
可选的,所述根据初始数据,对所述初始向量进行训练,包括:
根据SPO三元组正样本,生成SPO三元组负样本;
根据所述SPO三元组正样本和所述SPO三元组负样本,对所述初始向量进行训练。
可选的,所述根据所述SPO三元组正样本和所述SPO三元组负样本,对所述初始向量进行训练之前,还包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京嘀嘀无限科技发展有限公司,未经北京嘀嘀无限科技发展有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811475065.6/2.html,转载请声明来源钻瓜专利网。





