[发明专利]一种基于多层次注意力机制的多种人物关系抽取方法有效

申请号：	201911362557.9	申请日：	2019-12-26
公开（公告）号：	CN111125367B	公开（公告）日：	2023-05-23
发明（设计）人：	蔡毅;刘宸铄	申请（专利权）人：	华南理工大学
主分类号：	G06F16/35	分类号：	G06F16/35;G06F40/295;G06N3/0442;G06N3/045;G06N3/047;G06N3/048
代理公司：	广州市华学知识产权代理有限公司 44245	代理人：	裴磊磊
地址：	510640 广***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于多层次注意力机制多种人物关系抽取方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种基于多层次注意力机制的多种人物关系抽取方法，包括步骤：对采集的文本进行预处理；采用远程监督技术对原始人物命名实体的对齐标注，得到包含实体的文本以及实体描述信息；对得到包含实体的文本进行中文词向量训练；构建包含两个级别的注意力机制双向长短时记忆网络，对构建的模型进行训练，得到用于多种人物关系抽取的多分类模型；输入预处理后的文本，得到文本关系抽取的结果。本发明解决了目前多种人物关系文本的关系抽取的部分不足之处，提升了多种人物关系文本的关系抽取实验结果。

技术领域

本发明涉及自然语言处理领域，尤其涉及一种基于多层次注意力机制的多种人物关系抽取方法。

背景技术

随着在互联网技术的高速发展，网络中的文本信息数据呈指数型增长，但往往文本信息数据是非结构化信息。信息抽取是自然语言处理的一项任务，目的即为从非结构化文本中提取结构化的结构化信息。信息抽取包括两个方面：命名实体识别任务和关系抽取任务，前者用于发现文本中存在的实体，后者判断已发现实体之间的关系，即对指定文本获得实体对e₁和e₂，以及二者之间的关系r组成的三元组(e₁，r，e₂)。关系抽取任务已经广泛地用于知识图谱、信息检索等领域。

用于关系抽取的传统非深度学习方法通常是有监督学习，可以分为基于特征的方法和基于内核的方法，这两种方法都使用现存的NLP工具，会导致下游的错误累积。进入深度学习时代，避免了手工获取特征方式，但是有监督的深度学习需要大量训练数据来学习特征。而训练数据的标注是会花费大量的时间和精力的，同时也会偏向于某一固定领域。Mintz等人于2009年提出了远程监督方法，强假设知识库中的实体关系即为文本中的实体关系，通过将知识库与文本对齐的方式来产生大量数据。

然而远程监督的强假设并不一定成立，文本中存在的实体关系不一定与知识库中的实体关系相同。为了减轻这个缺点，Riedel使用了多示例学习。Lin在2016年首次使用分段卷积神经网络和句子级别的注意力机制，引入深度学习和注意力机制的使用使关系抽取得到了更好的效果。

目前为止大部分的关系抽取任务都是对于英文文本的，而对于中文文本，特别是含有多种人物关系的中文文本，亟待研究如何使用深度学习融合注意力机制，实现较好的中文文本的多种人物关系抽取方法。

发明内容

本发明的目的在于克服现有技术的不足，提供一种基于多层次注意力机制的多种人物关系抽取方法。本发明通过采用双向长短时记忆网络和词级别的注意力机制来获得文本的全局特征表示，词级别的注意力机制用于加强对于关系抽取更重要的词汇的权重，然后采用多实例学习的方式，句子级别的注意力机制获得了多个句子表示组成的包表示，并加入了命名实体的描述信息来加强包表示的结果。本发明在远程监督关系抽取数据集上取得了较好的实验结果。

本发明的能够通过以下技术方案实现：

一种基于多层次注意力机制的多种人物关系抽取方法，包括步骤：

对采集的文本进行预处理；

采用远程监督技术对原始人物命名实体的对齐标注，得到包含实体的文本以及实体描述信息；

对得到包含实体的文本进行中文词向量训练；

构建包含两个级别的注意力机制双向长短时记忆网络，对构建的模型进行训练，得到用于多种人物关系抽取的多分类模型；

输入预处理后的文本，得到文本关系抽取的结果。

具体地，所述预处理包括：

去除文本中的英文数据；

去除文本中的表情符号和超链接；

根据中文停用词表去除文本中的停用词；

对经过上述处理的文本进行中文分词。