[发明专利]基于知识图谱的科研实体链接方法及装置有效

专利信息
申请号: 202010074094.2 申请日: 2020-01-22
公开(公告)号: CN111259166B 公开(公告)日: 2023-02-03
发明(设计)人: 唐杰;邵洲;刘德兵 申请(专利权)人: 清华大学
主分类号: G06F16/36 分类号: G06F16/36;G06F16/903;G06F16/2458
代理公司: 北京清亦华知识产权代理事务所(普通合伙) 11201 代理人: 王艳斌
地址: 10008*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 知识 图谱 科研 实体 链接 方法 装置
【说明书】:

发明公开了一种基于知识图谱的科研实体链接方法及装置,其中,该方法包括:获取隶属信息集合,对隶属信息集合中的每一个科研成果中学者的隶属进行预处理生成字符串;将字符串进行分割,生成词集合,对词集合中每个词通过知识图谱的模糊查询进行匹配,找到每个词可能表达的实体集合,将实体集合作为候选集加入候选集合中;通过候选集实体选择模型在候选集合中选取每一个科研成果中学者的隶属对应的最终结果;将最终结果构造为与隶属信息集合一一对应的知识图谱实体集合,对知识图谱实体集合进行输出。该方法利用多重分割的字符串相似性扩充科研实体的候选集,并通过一个相似度模型来匹配最可能的实体。

技术领域

本发明涉及信息检索技术领域,特别涉及一种基于知识图谱的科研实体链接方法及装置。

背景技术

科研成果中学者的隶属(即affiliation)展现了科研机构参与该科研创新的情况。但是该表示方式存在着歧义性和模糊性,如果将科研成果中的学者的隶属映射到现实社会中的科研实体上,则能够很好的避免其带来的歧义性和模糊性。

科研成果中科研实体是以学者的隶属所存在的,即现实世界中所指的科研机构。由于一系列的原因导致该表达存在着较大的歧义性和模糊性。主要的影响因素有:英文名翻译方法的不同、机构合并与更名、拼写错误、顶级机构与下级本门难以区分、不同的书写方式、印刷错误或OCR错误、机构简写、翻译错误、信息的遗漏、机构同名等。单从语义、语法等角度很难消除其歧义性和模糊性。

该问题很早就引起了大家的重视,主要采用基于规则的方法和基于知识的方法来实现。基于规则的方法中,代表性的工作有:Jonnalagadda等人提出的基于多字典的多层规则匹配、Jiang等人提出的一种基于标准化压缩距离的聚类方法、Huang等人提出了一种基于规则的算法等。基于知识的方法中,代表性的工作有:Aumueller等人提出基于网络搜索结果url的从属关系的相似性判断方法、Morillo等人提出了一种新的半自动方法编码方法、等人使用Nooj进行机构标准化的方法等。传统基于规则或者基于知识的方法,很容易受限于预定义好的知识和框架,在数据量不断增长、时间跨度很长、数据量较大等真实环境下效果较差。

发明内容

本发明旨在至少在一定程度上解决相关技术中的技术问题之一。

为此,本发明的一个目的在于提出一种基于知识图谱的科研实体链接方法,该方法利用多重分割的字符串相似性扩充科研实体的候选集,并通过一个相似度模型来匹配最可能的实体。

本发明的另一个目的在于提出一种基于知识图谱的科研实体链接装置。

为达到上述目的,本发明一方面实施例提出了一种基于知识图谱的科研实体链接方法,包括:

S1,获取隶属信息集合,对所述隶属信息集合中的每一个科研成果中学者的隶属进行预处理生成字符串;

S2,将所述字符串进行分割,生成词集合,对所述词集合中每个词通过知识图谱的模糊查询进行匹配,找到每个词可能表达的实体集合,将所述实体集合作为候选集加入候选集合中;

S3,通过候选集实体选择模型在所述候选集合中选取每一个科研成果中学者的隶属对应的最终结果;

S4,将所述最终结果构造为与所述隶属信息集合一一对应的知识图谱实体集合,对知识图谱实体集合进行输出。

本发明实施例的基于知识图谱的科研实体链接方法,通过利用多重分割的字符串相似性扩充科研实体的候选集,并通过一个相似度模型来匹配最可能的实体,可以应用到多种应用中,例如构建基于科研实体的知识图谱、科研实体合作网络、学者跨机构流动、科研成果管理等。

另外,根据本发明上述实施例的基于知识图谱的科研实体链接方法还可以具有以下附加的技术特征:

进一步地,在本发明的一个实施例中,所述S1进一步包括:

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学,未经清华大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202010074094.2/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top