[发明专利]一种基于模板库的对象关系抽取系统和抽取方法有效
| 申请号: | 201910583405.5 | 申请日: | 2019-06-28 |
| 公开(公告)号: | CN110390099B | 公开(公告)日: | 2023-01-31 |
| 发明(设计)人: | 冯钧;柳菁铧 | 申请(专利权)人: | 河海大学 |
| 主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/289;G06F40/295 |
| 代理公司: | 南京苏高专利商标事务所(普通合伙) 32204 | 代理人: | 李凤娇 |
| 地址: | 210024 *** | 国省代码: | 江苏;32 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 模板 对象 关系 抽取 系统 方法 | ||
本发明公开了一种基于模板库的对象关系抽取系统和抽取方法,该系统包括信息框抽取模块,属性名合并模块和对象关系抽取模块。其中,信息框抽取模块实现各语料库信息框的三元组抽取;然后属性名合并模块利用同义词表合并相似属性名以解决属性名的一义多词现象;最后对象关系抽取模块根据信息框抽取得到的三元组构建模板库实现在文本中抽取对象关系三元组。本发明通过已经过处理的信息框三元组作为关系种子,并且通过特征聚类和编辑距离对模板进行泛化,最终构建得到关系模板库,提高了关系抽取的效果。
技术领域
本发明涉及一种信息技术处理技术,特别是一种基于模板库的对象关系抽取系统和抽取方法。
背景技术
近年来,我国水利行业不断蓬勃发展,各种监测工具与通信技术的应用带来了大量的水利数据,海量的数据成为推动水利信息化的重要基础。另一方面,互联网的迅速发展也积攒下了大量的信息,这些信息中蕴含了宝贵的水利知识,但是这些水利知识来源广、结构复杂,很难直接有效地在实际当中得到应用。只有依靠科学有效的方法,才能将这些水利数据组织起来,然后加以利用。而现有的水利领域知识图谱是利用已有的水利数据库,通过映射构建得到的,还存在以下问题:(1)受限于数据库的库表设计,映射得到的实体间关系单一。(2)知识具有深度但缺乏广度。(3)知识更新相对较慢。因此需要从互联网中抽取知识以丰富本地知识库。
通过进一步分析各语料库的内容和本地知识库的结构,在关系抽取和实体链接的过程中存在以下问题:首先,如果用常规的半结构化方法抽取各语料库的信息框信息,会出现一义多词、属性值不规整的问题。所谓的一义多词是指在编写条目页面时,由于不同的编写人员有不同的表达方式,同一个属性会有不同的属性名称,如对于同一个属性“位置”,可能存在“地方”、“位于”等属性名。属性值不规整是指,有一些属性值是由文本或多个值组成。这些初步得到的抽取结果质量并不高,无法将它们添加到本地知识库中。其次,各语料库信息框中的信息是分布不平衡的,有的条目页面的信息框有大量信息,有的条目页面的信息框信息匮乏,甚至有的条目页面根本没有信息框。如果仅仅采用半结构化的抽取方法抽取信息框中的信息,将无法最大化地获取各语料库中的知识。
发明内容
发明目的:针对现有技术中存在的问题与不足,本发明提供一种基于模板库的对象关系抽取系统和抽取方法。该抽取系统通过信息框抽取模块和属性名合并模块得到较高质量三元组;通过对象关系抽取模块构建关系模板库,实现新关系实例的抽取;该抽取方法能够建立关系模板,从而较为准确的提取出关系实例。
技术方案:本发明公开了一种基于模板库的对象关系抽取系统,包括信息框抽取模块、属性名合并模块、对象关系抽取模块;所述信息框抽取模块用于条目语料库信息框的关系三元组抽取;所述属性名合并模块用于合并所述信息框抽取模块关系三元组中的相似属性名得到种子关系三元组;所述对象关系抽取模块根据种子关系三元组构建模板库实现在文本中抽取对象关系三元组。
具体的,信息框抽取模块从语料库信息框中抽取条目的关系三元组;所述语料库信息框是对条目的概要描述,从语料库信息框中可以抽取出该条目的关系三元组。
具体的,属性名合并模块合并信息框抽取模块得到的关系三元组中的相似属性名得到种子关系三元组;属性名合并模块首先通过句法分析得到属性名的核心词,然后利用同义词表计算属性名间的相似性,从而合并相似属性名。
具体的,对象关系抽取模块用以实现构建模板库并抽取对象关系三元组;对象关系抽取模块预处理条目对应的正文文本得到训练语料和测试语料,然后通过种子关系三元组在训练语料中抽取句子实例,并构建特征向量;最后通过特征聚类和编辑距离对所有句子实例进行泛化构建出关系模板库;通过关系模板库可以在测试语料中抽取出新关系实例。
本发明还公开了一种利用上述基于模板库的对象关系抽取系统的对象关系抽取方法,包括以下步骤:
步骤1)信息框抽取模块从语料库信息框中抽取所需条目的关系三元组;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于河海大学,未经河海大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910583405.5/2.html,转载请声明来源钻瓜专利网。





