[发明专利]一种应用于医学知识图谱的数据融合方法及装置有效
申请号: | 202111026237.3 | 申请日: | 2021-09-02 |
公开(公告)号: | CN113535986B | 公开(公告)日: | 2023-05-05 |
发明(设计)人: | 胡佳慧;娄培;赵琬清;方安 | 申请(专利权)人: | 中国医学科学院医学信息研究所 |
主分类号: | G06F16/36 | 分类号: | G06F16/36;G06F40/30;G06F18/22;G06F18/241;G16H10/00 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 张影 |
地址: | 100020*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 应用于 医学知识 图谱 数据 融合 方法 装置 | ||
本发明公开了一种应用于医学知识图谱的数据融合方法及装置,包括:获取不同数据来源的初始三元组,所述三元组包括头实体、尾实体和关系;计算所述初始三元组中各个尾实体的相似度;基于所述各个尾实体的相似度计算结果,对各个尾实体进行融合;利用融合后的数据计算各个头实体的相似度;基于头实体的相似度计算结果,对头实体进行融合,得到目标三元组。本发明通过尾实体和头实体的分步计算实现了全部数据的融合,保证了知识图谱中数据的准确性。
技术领域
本发明涉及信息处理技术领域,特别是涉及一种应用于医学知识图谱的数据融合方法及装置。
背景技术
在构建医疗知识图谱的过程中,数据来源较多,其中,数据可能来源于医学网站、文献、电子病历、临床指南等。在医学网站中包含大量俗语、习惯用语;电子病历中句子语法结构残缺,包含较多缩略语和大量英文缩写,且由于中文医学术语中多词一义现象突出,数据质量良莠不齐,可能存在重复数据、孤立数据、数据粒度不一致等问题。
因此,对多源异构的知识源中的重复、冗余数据进行实体对齐操作是保证知识图谱中数据准确性的关键操作,但是,现有的实体对齐操作并不能准确地对知识图谱中的数据进行有效融合,降低了医学知识图谱的准确性。
发明内容
针对于上述问题,本发明提供一种应用于医学知识图谱的数据融合方法及装置,提升了数据融合的准确性,保证了知识图谱中数据的准确性。
为了实现上述目的,本发明提供了如下技术方案:
一种应用于医学知识图谱的数据融合方法,包括:
获取不同数据来源的初始三元组,所述三元组包括头实体、尾实体和关系;
计算所述初始三元组中各个尾实体的相似度,获得各个尾实体的相似度计算结果;
基于所述各个尾实体的相似度计算结果,对各个尾实体进行融合;
利用尾实体融合后的数据,计算各个头实体的相似度;
基于各个头实体的相似度计算结果,对各个头实体进行融合,得到目标三元组。
可选地,所述计算所述初始三元组中各个尾实体的相似度,获得各个尾实体的相似度计算结果,包括:
获取各个尾实体的语义相似度特征、结构相似度特征和字符相似度特征;
将所述语义相似度特征、结构相似度特征和字符相似度特征输入到尾实体融合模型,得到各个尾实体的融合结果;
将所述各个尾实体的相似度计算结果,确定为各个尾实体的融合结果。
可选地,所述方法还包括:
计算各个尾实体的语义相似度特征,包括:
将各个尾实体转换为词向量;
计算各个词向量之间的距离,并基于所述距离确定各个尾实体的语义相似度,获得语义相似度特征。
可选地,所述方法还包括:
计算各个尾实体的结构相似度,包括:
将所述初始三元组确定为正例,并获取与所述正例对应的负例,所述负例为随机替换所述初始三元组中头实体或尾实体得到的;
通过映射矩阵分别对所述正例和所述负例进行映射,获得第一映射结果和第二映射结果;
基于所述第一映射结果和第二映射结果,利用余弦公式计算得到各个尾实体间的结构相似度特征。
可选地,所述方法还包括:
计算字符相似度特征,包括:
获取各个尾实体的字符信息;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国医学科学院医学信息研究所,未经中国医学科学院医学信息研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111026237.3/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置