[发明专利]一种数据处理方法和相关装置在审
申请号: | 202110181822.4 | 申请日: | 2021-02-08 |
公开(公告)号: | CN113568984A | 公开(公告)日: | 2021-10-29 |
发明(设计)人: | 向玥佳;林镇溪;张子恒;陈曦 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | G06F16/28 | 分类号: | G06F16/28 |
代理公司: | 深圳市深佳知识产权代理事务所(普通合伙) 44285 | 代理人: | 王兆林 |
地址: | 518057 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 数据处理 方法 相关 装置 | ||
本申请实施例公开了一种数据处理方法,处理设备可以在图谱节点所具备的节点信息的基础上,进一步添加图谱节点对应的节点信息类型作为判断图谱节点是否匹配的依据,丰富了进行模型训练以及进行匹配应用时输入数据的丰富度,进而提高了节点匹配的准确度,使训练得到的节点匹配模型更加适用于执行图谱对齐任务。
技术领域
本申请涉及数据处理技术领域,特别是涉及一种数据处理方法和相关装置。
背景技术
知识图谱是当下进行信息记录的热门方式,一个有效的知识图谱可以通过多个图谱节点存储对应多种对象的节点信息,并通过图谱节点之间的连接关系存储这些节点信息之间的关联关系。由于存在着多种多样的知识图谱,而不同的知识图谱中可能会存在存储有对应同一对象节点信息的图谱节点,因此,通过图谱对齐将这些对应同一对象的图谱节点进行整理有助于提高知识图谱的信息丰富度。
相关技术中,图谱对齐任务通常是通过训练得到的模型来进行的,然而相关技术中训练得到的模型准确度较低,难以高效的实现图谱对齐任务。
发明内容
为了解决上述技术问题,本申请提供了一种数据处理方法,处理设备可以在图谱节点所具备的节点信息的基础上,进一步添加图谱节点对应的节点信息类型作为判断图谱节点是否匹配的依据,丰富了进行模型训练以及进行匹配应用时输入数据的丰富度,进而提高了节点匹配的准确度,使训练得到的节点匹配模型更加适用于执行图谱对齐任务。
本申请实施例公开了如下技术方案:
第一方面,本申请实施例提供了一种数据处理方法,所述方法包括:
获取样本图谱节点对集合,所述样本图谱节点对标注有对应的匹配结果,所述匹配结果用于体现所述样本图谱节点对中包括的多个样本图谱节点是否对应于同一对象,所述样本图谱节点具有对应的节点信息类型;
根据所述样本图谱节点对所包括样本图谱节点对应的节点信息以及节点信息类型,确定所述样本图谱节点对对应的样本输入数据;
将所述样本图谱节点对对应的样本输入数据作为训练样本,所述样本图谱节点对对应的匹配结果作为训练标签,对节点匹配模型进行训练;
获取待识别图谱节点对;
根据所述待识别图谱节点对所包括图谱节点对应的节点信息以及节点信息类型,确定所述待识别图谱节点对对应的输入数据;
根据所述输入数据和训练后的节点匹配模型,确定所述待识别图谱节点对对应的匹配结果。
第二方面,本申请实施例提供了一种数据处理装置,所述装置包括第一获取单元、第一确定单元、训练单元、第二获取单元、第二确定单元和第三确定单元:
所述第一获取单元,用于获取样本图谱节点对集合,所述样本图谱节点对标注有对应的匹配结果,所述匹配结果用于体现所述样本图谱节点对中包括的多个样本图谱节点是否对应于同一对象,所述样本图谱节点具有对应的节点信息类型;
所述第一确定单元,用于根据所述样本图谱节点对所包括样本图谱节点对应的节点信息以及节点信息类型,确定所述样本图谱节点对对应的样本输入数据;
所述训练单元,用于将所述样本图谱节点对对应的样本输入数据作为训练样本,所述样本图谱节点对对应的匹配结果作为训练标签,对节点匹配模型进行训练;
所述第二获取单元,用于获取待识别图谱节点对;
所述第二确定单元,用于根据所述待识别图谱节点对所包括图谱节点对应的节点信息以及节点信息类型,确定所述待识别图谱节点对对应的输入数据;
所述第三确定单元,用于根据所述输入数据和训练后的节点匹配模型,确定所述待识别图谱节点对对应的匹配结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110181822.4/2.html,转载请声明来源钻瓜专利网。