[发明专利]面向知识图谱表示学习的数据增广方法有效
| 申请号: | 202011319011.8 | 申请日: | 2020-11-23 |
| 公开(公告)号: | CN112417171B | 公开(公告)日: | 2023-10-03 |
| 发明(设计)人: | 胡伟;李光耀;孙泽群 | 申请(专利权)人: | 南京大学 |
| 主分类号: | G06F16/36 | 分类号: | G06F16/36 |
| 代理公司: | 苏州威世朋知识产权代理事务所(普通合伙) 32235 | 代理人: | 秦蕾 |
| 地址: | 210093 江*** | 国省代码: | 江苏;32 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 面向 知识 图谱 表示 学习 数据 增广 方法 | ||
本发明公开了一种面向知识图谱表示学习的数据增广方法,包括以下步骤:给定一个知识图谱,首先将当前知识图谱中的三元组作为已观测到的事实,并从中挖掘逻辑规则。接下来,通过规则实例化步骤,利用当前观测到的事实推导出含有部分噪声的潜在事实,将其作为用于增广的候选三元组。由于表示学习模型对三元组存在一定辨别能力,本发明基于当前观测到的事实训练得到一个知识图谱嵌入模型。最后,通过结合嵌入模型,对候选三元组进行验证,过滤出噪声,得到增广三元组并补充进当前知识图谱中。重复上述步骤直到达到迭代最大次数。应用本发明能够对知识图谱进行用户可理解的数据增广,并提升知识图谱表示学习的效果。
技术领域
本发明涉及知识图谱技术领域,尤其涉及一种面向知识图谱表示学习的数据增广方法。
背景技术
2012年,Google公司首次提出了一个新的概念——知识图谱,其通过引入知识图谱来结构化关于搜索目标的信息,以此提高搜索的质量。从内容上看,知识图谱主要由相互连接的实体和他们的属性构成;而本质上,其可被视作基于语义网络构建的知识库,其中每条知识可以由一条三元组表示。例如(法国,首都,巴黎),刻画了真实世界中的一条知识(事实):法国的首都是巴黎。由于真实世界很多场景都适用于用知识图谱进行表示,近年来,关于知识图谱的构建以及应用工作成为一个新的研究热点。当前,一大批优质的知识图谱在业界涌现,例如Freebase等,其被广泛应用于真实世界应用中。由于知识图谱是基于符号的结构化数据,其不易直接应用于其他任务中,因此如何处理这种符号表示成为一个重要挑战。
该研究问题被称为知识图谱的表示学习(或知识图谱的嵌入)。知识图谱表示学习的目的是希望通过将整个知识图谱中的元素向量化,来辅助真实世界中的下游任务。该问题被建模成从符号表示到向量表示的映射,同时要求在向量空间的新表示能尽可能蕴含原来符号空间中的结构信息。研究表明,表示学习这个过程通常依赖大量的三元组来捕捉潜在的语义模式。然而,知识图谱天然是不完备的,其蕴含的知识通常是受限的,这一特点导致模型学出来的嵌入表示通常表达能力不强。直觉上,为知识图谱进行数据增广,丰富知识图谱表示学习所需的数据资料,该策略是一种可行的解决方案。
在计算机视觉领域,数据增广已被证明是一种简单、有效的技巧,并得到广泛使用。由于图片自身具有的特点,平移、旋转、缩放等方式是非常自然的数据增广方式。然而在知识图谱中,一条结构化的知识,只要变动一点点,该三元组表达的含义可能就会发生巨大的变化,这导致知识图谱领域中的数据增广操作并不平凡。注意到,在知识图谱中,通常使用逻辑规则来进行知识推理,而逻辑规则本身就蕴含了某种泛化的背景信息,这使得利用逻辑规则来进行数据增广成为了一种可行的方案。
在上述过程中,利用逻辑规则进行数据增广的一个关键在于如何保证增广数据的质量。尽管逻辑规则通常比较准确,但仍然很难保证其推理出的新知识的质量。由于增广的数据用户很难辨别,使得通过人工方式进行过滤这种方式具有很大的成本。基于此,设计一种自动化的处理方式来保证增广数据的质量显得非常必要。同时,由于很难保证增广数据的完全准确性,处理中还需要提供一种潜在机制保证对于用户而言增广数据是可理解的,从而使得整个增广过程是用户可控的。
现有方法鲜有关注于对知识图谱进行数据增广,尽管一些方法通过种种策略来生成新三元组,但这种生成过程是用户不可理解的,且生成三元组的质量没有得到细致考虑。
发明内容
发明目的:针对上述现有技术存在的问题和不足,本发明的目的是提供一种面向知识图谱表示学习的数据增广方法,该方法可以利用逻辑规则蕴含的丰富背景信息,不断为知识图谱补充用户可理解的、高质量的增广三元组。本发明能在丰富原始知识图谱信息的同时,保证增广数据的质量,提升表示学习的效果,并为用户提供增广数据的直观解释。
技术方案:为实现上述发明目的,本发明采用的技术方案为一种面向知识图谱表示学习的数据增广方法,包括以下步骤:
(1.1)对于当前给定的知识图谱,用关联规则挖掘算法从中挖掘出逻辑规则;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京大学,未经南京大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011319011.8/2.html,转载请声明来源钻瓜专利网。





