[发明专利]一种基于有序结构编码指针网络解码的实体关系抽取方法在审
申请号: | 202110338079.9 | 申请日: | 2021-03-30 |
公开(公告)号: | CN113553850A | 公开(公告)日: | 2021-10-26 |
发明(设计)人: | 贾海涛;邢增传;张博阳;黄超;耿昊天;曾靓;刘桐;李嘉豪 | 申请(专利权)人: | 电子科技大学 |
主分类号: | G06F40/295 | 分类号: | G06F40/295;G06F40/253;G06F40/211;G06F40/30;G06N3/04;G06N3/08 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 611731 四川省成*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 有序 结构 编码 指针 网络 解码 实体 关系 抽取 方法 | ||
本发明提出一种基于有序结构编码指针网络解码的实体关系抽取方法,该方法包括:在输入层利用BERT预训练模型训练词向量进行Word Embedding,然后加入对抗训练生成句子向量表示的负例,构建句子初始向量;在编码层使用Bi‑OnLSTM捕获文本的全局语义信息;在解码层使用指针网络的解码思想,分别进行头实体抽取、尾实体和关系抽取,使用Sigmoid代替Softmax预测输入,完成实体关系三元组抽取任务。由于解码层采用了指针网络的解码方式,可以很好地解决实体关系重叠问题和句子包含三元组个数较多的有效提取的问题,从而提高实抽取实体和关系的准确率。
技术领域
本发明属于自然语言处理领域。
背景技术
计算机的诞生和其技术不断革新和突破以及互联网在世界范围内的普及,都使得人们的生活学习、住食交通得到了前所未有的改善。与此同时,每天有大量的文本数据通过新闻期刊文章、博客、问答社区论坛和社交媒体等形式产生。很多重要的信息被隐藏在这些文档文本数据中,人们要获取其中的重要信息需要通过大量繁琐的筛选和阅读。因此,为了能够真正获取有效信息的同时去掉冗余数据,减少人工阅读量,信息抽取技术应运而生。抽取技术提取出来的这些信息可以帮助我们获取和管理大型文本语料库中的隐含知识,并且可以用于构建问答系统,检索和推荐系统。信息抽取技术不同于人工筛选数据给你返回一系列文档数据,它可以针对给定的一个句子、一段话、一篇文档、甚至一批数据,从中抽取出包含的事件事实信息,而这些信息又是由实体和关系信息构成的,通常被称为三元组数据。实体类型比如人、组织、机构等是最基本的信息单元,一个句子中出现的实体可以通过“出生于”、“位于”等明确的关系联系起来。实体和关系提取任务(RE)就是自动识别这些实体和实体之间的关系。通过信息抽取技术,人们可以不用逐字阅读数据,就可以做到获取到信息中的有效内容。针对信息抽取技术尤其是实体关系抽取技术的研究,直至今日,仍是人工智能领域的一大热点之一。
信息抽取技术(Information Extraction,IE)是自然语言中的一个新的子领域,发展到现在有二十年,其前身是文本理解,已有几十年的发展历史。80年代,在美国政府支持下成立的消息理解讨论会(MUC)一直致力于推动信息抽取技术的发展。MUC通过举办信息抽取比赛来吸引世界各地公司实验室和学术研究机构的参与,每一个参赛团队都可以通过官方发布的数据集以及信息抽取技术的三大指标来构建自己的模型,然后官方对这些模型使用测试集进行评测,得此信息抽取技术不断得到发展和提高。
目前自然语言处理最顶层的任务就是构建知识图谱(Knowledge Graph,KG),KG是一种可以用于各种领域的大规模信息表示方法。最常见的表示KG的方法是遵循资源描述框架方法(Resource Description Framework,RDF)即使用节点表示实体,使用两两节点之间的边表示实体间的关系。每条边和边的两个端点之间就构成了一组三元组(头实体,关系,尾实体)的事实信息,比如:(周杰伦,出生于,台湾省新北市),就表示周杰伦的出生地是在台湾省新北市。 KG是一个异质图网络,其中包含大量的不同类型的实体节点和关系,甚至可以有句子节点。通过这样表示,我们就能从中发现实体的各种属性,实体之间的高层次关系,以及关系之间的关联。因此,实体关系抽取技术作为构建知识图谱基石的底层就显得无比重要。
实体关系抽取任务是信息抽取任务中的第一阶段子任务,其主要任务又可以分为2个子任务:首先是命名实体识别,即识别出一个句子中包含的头实体(也称主实体subject),然后识别出尾实体(也称客实体object);其次是关系抽取,即识别出上面所说的头实体和尾实体之间蕴含的关系(predicate)。而这对实体和关系整合到一起就是一个三元组形式(S,P,O),例如(周杰伦,出生于,台湾省)。但实体关系抽取任务目前存在两类问题,总结如下:
第一类,传统Pipeline管道方法由于是先进行命名实体识别,即识别出一个句子中存在的两个实体,再送入关系分类模型,识别出这两个实体之间的关系。本质就是将关系抽取任务分为2个子任务,实体识别任务模型的输出结果作为关系分类模型的输入。但这就产生了几个问题:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于电子科技大学,未经电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110338079.9/2.html,转载请声明来源钻瓜专利网。