[发明专利]一种数据处理方法和相关装置在审
申请号: | 202110181822.4 | 申请日: | 2021-02-08 |
公开(公告)号: | CN113568984A | 公开(公告)日: | 2021-10-29 |
发明(设计)人: | 向玥佳;林镇溪;张子恒;陈曦 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | G06F16/28 | 分类号: | G06F16/28 |
代理公司: | 深圳市深佳知识产权代理事务所(普通合伙) 44285 | 代理人: | 王兆林 |
地址: | 518057 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 数据处理 方法 相关 装置 | ||
1.一种数据处理方法,其特征在于,所述方法包括:
获取样本图谱节点对集合,所述样本图谱节点对标注有对应的匹配结果,所述匹配结果用于体现所述样本图谱节点对中包括的多个样本图谱节点是否对应于同一对象,所述样本图谱节点具有对应的节点信息类型;
根据所述样本图谱节点对所包括样本图谱节点对应的节点信息以及节点信息类型,确定所述样本图谱节点对对应的样本输入数据;
将所述样本图谱节点对对应的样本输入数据作为训练样本,所述样本图谱节点对对应的匹配结果作为训练标签,对节点匹配模型进行训练;
获取待识别图谱节点对;
根据所述待识别图谱节点对所包括图谱节点对应的节点信息以及节点信息类型,确定所述待识别图谱节点对对应的输入数据;
根据所述输入数据和训练后的节点匹配模型,确定所述待识别图谱节点对对应的匹配结果。
2.根据权利要求1所述的方法,其特征在于,所述匹配结果包括匹配置信度,所述匹配置信度用于标识所述匹配结果的正确率,所述方法还包括:
获取匹配置信度大于预设阈值的目标待识别图谱节点对;
将所述目标待识别图谱节点对确定为所述样本图谱节点对,重复执行所述根据所述样本图谱节点对所包括样本图谱节点对应的节点信息以及节点信息类型,确定所述样本图谱节点对对应的样本输入数据的步骤。
3.根据权利要求2所述的方法,其特征在于,所述将所述目标待识别图谱节点对确定为所述样本图谱节点对,重复执行所述根据所述样本图谱节点对所包括样本图谱节点对应的节点信息以及节点信息类型,确定所述样本图谱节点对对应的样本输入数据的步骤,包括:
若所述目标待识别图谱节点对对应的匹配结果为所包括图谱节点对应同一对象,确定所述目标待识别图谱节点对所包括图谱节点对应的目标节点信息类型;
若确定所述目标节点信息类型中不包括冲突的节点信息类型,将所述目标待识别图谱节点对确定为所述样本图谱节点对,重复执行所述根据所述样本图谱节点对所包括样本图谱节点对应的节点信息以及节点信息类型,确定所述样本图谱节点对对应的样本输入数据的步骤。
4.根据权利要求1所述的方法,其特征在于,所述根据所述样本图谱节点对所包括样本图谱节点对应的节点信息以及节点信息类型,确定所述样本图谱节点对对应的样本输入数据,包括:
根据所述样本图谱节点对应的节点信息确定第一节点信息向量;
根据所述样本图谱节点对应的节点信息类型确定第一信息类型向量;
通过拼接所述第一节点信息向量和所述第一信息类型向量,生成所述样本图谱节点对应的第一节点特征向量;
将所述样本图谱节点对所包括样本图谱节点对应的第一节点特征向量确定为所述样本图谱节点对对应的样本输入数据。
5.根据权利要求4所述的方法,其特征在于,所述根据所述待识别图谱节点对所包括图谱节点对应的节点信息以及节点信息类型,确定所述待识别图谱节点对对应的输入数据,包括:
根据所述图谱节点对应的节点信息确定第二节点信息向量;
根据所述图谱节点对应的节点信息类型确定第二信息类型向量;
通过拼接所述第二节点信息向量和所述第二信息类型向量,生成所述图谱节点对应的第二节点特征向量;
将所述待识别图谱节点对所包括图谱节点对应的第二节点特征向量确定为所述待识别图谱节点对对应的输入数据。
6.根据权利要求1所述的方法,其特征在于,所述节点信息类型是通过信息分类模型确定的,所述信息分类模型用于基于节点信息确定对应的节点信息类型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110181822.4/1.html,转载请声明来源钻瓜专利网。