[发明专利]基于全层级注意力的关系抽取模型建立方法及其应用有效
| 申请号: | 202110730796.6 | 申请日: | 2021-06-30 |
| 公开(公告)号: | CN113434698B | 公开(公告)日: | 2022-08-02 |
| 发明(设计)人: | 李玉华;陈昊;李瑞轩;辜希武 | 申请(专利权)人: | 华中科技大学 |
| 主分类号: | G06F16/36 | 分类号: | G06F16/36;G06F16/35;G06F40/216;G06N3/04;G06N3/08 |
| 代理公司: | 华中科技大学专利中心 42201 | 代理人: | 夏倩;李智 |
| 地址: | 430074 湖北*** | 国省代码: | 湖北;42 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 层级 注意力 关系 抽取 模型 建立 方法 及其 应用 | ||
本发明公开了一种基于全层级注意力的关系抽取模型建立方法及其应用,属于自然语言处理领域,包括:获取数据集中的各关系类型的层级结构,并对各关系层级编码;建立包含句子编码网络、袋编码网络以及分类器深度学习模型;句子编码网络以包含若干头、尾实体相同的句子的袋为输入,用于获得袋中的各句子的向量表示;袋编码网络用于基于注意力机制获取各句子在每一个关系层级的注意力权重后,对句子向量进行加权求和,得到袋在该层级的向量表示,并拼接得到袋向量;分类器用于计算袋中句子的关系类型的概率分布;将数据集划分为训练集、测试集和验证集,依次对模型进行训练、测试和验证后,得到关系抽取模型。本发明能够提高句子关系抽取的准确率。
技术领域
本发明属于自然语言处理领域,更具体地,涉及一种基于全层级注意力的关系抽取模型建立方法及其应用。
背景技术
在互联网时代,用户大量的活动如购物、阅读、游戏、社交等都从线下转移到了线上,数据量也因此在以指数的速度上涨。这些数据的形式十分丰富,有视频、文本、音频、图像等等,目前,文本所占的比例最高。文本中含有丰富的信息,其中会包含实体以及实体之间的关系,例如,在“Kobe was born in Philadelphia,USA”这个句子中,“Kobe”和“Philadelphia”就是两个实体,并且两个实体间的关系为“placeofbirth”。人当然可以轻松获取到这些信息,但是从如此大量的数据中获取信息是项费事费力的工作,通过计算机技术能够从这些文本中高效的提取有价值的信息,这些实体间的关系对于构建类似FreeBase一样的知识图谱、智能检索等具有重要意义。但是随着数据量的迅速攀升,如何能够高效、快速的提取文本关系类型也给研究人员带来了不小的挑战。
关系抽取任务最早在1998年在MUC-7会议上被首次提出,当时抽取的关系类型主要有:location_of、employee_of、manufacture_of三大类,通过人工构建关系模板的方式进行关系抽取。此后,ACE会议认为对实体关系进行抽取前,应该首先判定该关系属于哪一类,因此对关系类型进行了分类,定义了整体-部分、成员、位置、机构、人-社会五大关系类型。并且抽取的方法也升级为机器学习,包括有监督和半监督的方法,而且提供了一定规模的有标记的数据集供大家研究,这为后续的研究提供了便利。发展到现在,基于深度学习进行关系提取逐渐成为主流,通过利用WordNet、FreeBase、HotNet等知识库采取远程监督的方法也一定程度上解决了大规模语料获取难的问题,并且与传统的人工标注语料相比,基于知识库的涵盖的关系类型更丰富、数据量更大、语料涉及的领域也更广。
基于有监督的方法在关系抽取任务中取得了不错的进展,但这种方法非常依赖人工的标注,而获得大量人工标注的数据集是十分费事费力的。于是为了解决这一问题,研究人员提出了远程监督的方法。远程监督的核心思想在于一个非常重要的假设,即对于一个已有的知识图谱(如Freebase等)中的一个三元组(由一对实体和一个关系构成),假设外部文档库中任何包含这对实体的句子,在一定程度上都反映了这种关系,从而能够给外部文档库中的句子标注关系标签。远程监督解决了人工依赖的问题,但是其中存在噪音数据、长尾关系的问题,并且在关系抽取的过程中忽略了关系层级之间丰富的信息,训练集和测试集之间也存在关系分布不均问题,这些问题影响了关系抽取的准确率。
发明内容
针对现有技术的缺陷和改进需求,本发明提供了一种基于全层级注意力的关系抽取模型建立方法及其应用,其目的在于,提高句子关系抽取的准确率。
为实现上述目的,按照本发明的一个方面,提供了一种基于全层级注意力的关系抽取模型建立方法,包括:
初始化步骤:获取数据集中的所有关系类型的层级结构,并将每一层级均编码为向量;数据集中,每一个样本为关系类型已知的句子;层级结构中,关系类型的分类结果与层级相关,且层级越高,对应的分类粒度越粗;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华中科技大学,未经华中科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110730796.6/2.html,转载请声明来源钻瓜专利网。





