[发明专利]知识图谱架构的构建与应用方法、系统及介质在审
| 申请号: | 202010124150.9 | 申请日: | 2020-02-27 |
| 公开(公告)号: | CN111444348A | 公开(公告)日: | 2020-07-24 |
| 发明(设计)人: | 亓杰星;李琦;傅洛伊;王新兵;陈贵海 | 申请(专利权)人: | 上海交通大学 |
| 主分类号: | G06F16/36 | 分类号: | G06F16/36;G06K9/62 |
| 代理公司: | 上海汉声知识产权代理有限公司 31236 | 代理人: | 胡晶 |
| 地址: | 200240 *** | 国省代码: | 上海;31 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 知识 图谱 架构 构建 应用 方法 系统 介质 | ||
本发明提供了一种知识图谱架构的构建与应用方法、系统及介质,包括:步骤1:通过对学术领域的实体进行定义与学术知识图谱的本体构建来完成知识建模;步骤2:进行实体对齐,即对于异构数据源知识库中的各个实体,找出属于现实世界中的同一实体;步骤3:利用基于规则的知识图谱推理方法来丰富知识图谱;步骤4:评估知识图谱架构‑‑AceKG嵌入知识的几种最先进的方法;步骤5:评估知识图谱架构—AceKG网络表示学习的几种最先进的方法。本发明不仅提供纯净的学术信息,还为研究人员提供了一个大规模的基准数据集,为评估知识嵌入和网络表示学习方法提供了基础,为了丰富提出的知识图谱架构。
技术领域
本发明涉及学术数据挖掘技术领域,具体地,涉及一种知识图谱架构的构建与应用方法、系统及介质。尤其地,涉及一种用于学术数据挖掘的大规模知识图谱—AceKg。
背景技术
知识图谱是结构化的语义知识库,用于以符号形式描述物理世界中的概念及其相互关系。其基本组成单位是“实体-关系-实体”三元组,以及实体及其相关属性值对,实体间通过关系相互联结,构成网状的知识结构。
20世纪中叶,普莱斯等人提出使用引文网络来研究当代科学发展的脉络的方法,首次提出了知识图谱的概念。1977年,知识工程的概念在第五届国际人工智能大会上被提出,以专家系统为代表的知识库系统开始被广泛研究和应用,直到20世纪90年代,机构知识库的概念被提出,自此关于知识表示、知识组织的研究工作开始深入开展起来。机构知识库系统被广泛应用于各科研机构和单位内部的资料整合以及对外宣传工作。2012年11月Google公司率先提出知识图谱(Knowledge Graph,KG)的概念,表示将在其搜索结果中加入知识图谱的功能。其初衷是为了提高搜索引擎的能力,增强用户的搜索质量以及搜索体验。据2015年1月统计的数据,Google构建的KG已经拥有5亿个实体,约35亿条实体关系信息,已经被广泛应用于提高搜索引擎的搜索质量。
虽然知识图谱(Knowledge Graph)的概念较新,但它并非是一个全新的研究领域,早在2006年,Berners Lee就提出了数据链接(linked data)的思想,呼吁推广和完善相关的技术标准如URI(Uniform resource identifier),RDF(resource discriptionframework),OWL(Web ontology language),为迎接语义网络的到来做好准备。随后掀起了一场语义网络研究的热潮,知识图谱技术正是建立在相关的研究成果之上的,是对现有语义网络技术的一次扬弃和升华。
知识图谱已经成为支持许多人工智能相关应用的重要资源,如图分析、问答系统、web搜索等。知识图谱以三元组的形式描述和存储实体,是一种多关系图,由实体作为节点,关系作为不同类型的边组成。现在,许多公司和研究团队都在尝试将其领域内的知识组织成机器可读的知识图谱。尽管这些大规模的知识图谱收集了大量关于世界的事实信息,但仍有许多领域有待研究。
学术网络数据挖掘利用论文、学者、机构、会议地点、研究领域等有用实体的信息,发现隐藏的关系,发现基于语义的信息。利用结构化的学术数据,多个学术数据库或知识图谱已经被构建出来。公共学术知识图谱可以为学者提供令人信服的学术信息,为研究者进行数据挖掘项目提供大规模的基准数据集。
然而,现有数据库或知识图谱存在一些限制。首先,现有的成果中大多提供同质的学术图谱,而不同类型实体之间的关系仍处于丢失状态。其次,一些数据库只专注于一个特定的研究领域,限制了旨在发现跨领域知识的项目。第三,同义词和歧义也是知识挖掘的限制。为实体分配惟一的id是必要的解决方案,但是有些数据库直接使用实体的名称作为它们的id。
针对现有技术中的缺陷,本发明的目的是提供一种用于学术数据挖掘的大规模知识图谱架构--AceKg用于给广大研究人员提供纯净的学术信息和一个大规模的基准数据集,用于开展具有挑战性的数据挖掘项目,包括链接预测,社区检测和学者分类。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海交通大学,未经上海交通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010124150.9/2.html,转载请声明来源钻瓜专利网。





