[发明专利]基于用户辅助修正下的实体对特定关系抽取方法在审
申请号: | 201911235530.3 | 申请日: | 2019-12-05 |
公开(公告)号: | CN111026815A | 公开(公告)日: | 2020-04-17 |
发明(设计)人: | 韩伟红;王志超;陈雷霆;母国才;邱彪 | 申请(专利权)人: | 电子科技大学广东电子信息工程研究院 |
主分类号: | G06F16/28 | 分类号: | G06F16/28;G06F16/31;G06F16/35;G06F16/36 |
代理公司: | 天津市北洋有限责任专利代理事务所 12201 | 代理人: | 潘俊达;郭宝煊 |
地址: | 523000 广东省东莞市*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 用户 辅助 修正 实体 特定 关系 抽取 方法 | ||
本发明属于信息抽取技术领域,具体涉及基于用户辅助修正下的实体对特定关系抽取方法,包括以下步骤:a、设置人工标注模块,该模块用于按需导入数据,并进行人工标注;b、构建基于深度学习的模型训练模块,其包含多个深度学习模型,训练数据经过不同的深度学习模型找出最优模型并替换抽取模型;c、对人工标注数据及校正数据进行整合以及对特定的过滤清理,并依据分词结果进行数据的预处理;d、构建关系校正模块供用户进行辅助修正,由用户判断抽取是否正确。本发明在保证用户能动性的前提下,让用户对相应数据进行标注,纠正计算机的错误,教会计算机如何产出想要的结果,通过伴随用户的辅助修正不断提高了特定关系抽取的准确率。
技术领域
本发明属于信息抽取技术领域,具体涉及基于用户辅助修正下的实体对特定关系抽取方法。
背景技术
知识图谱的构建,是要将所需领域的实体的相关信息以及关联关系等各类信息,以RDF三元组的形式存储到一个具有存储、高效检索的图数据库中,并根据需求能够实现特定路径的一个过程。对于知识图谱的构建,相应领域的信息抽取是重中之重。知识抽取主要讲的是实体属性和关系的抽取,通常情况下是一个句子级别的抽取过程。在互联网上,大部分句子是无法抽出相应属性和关系的。比如KBP(Knowledge Base Population)比赛中定义的属性槽一共有33种,包括别名、年龄、出生时间、出生地点等这种属性槽。而一个文本种表达这种信息的句子很少。因此,为了提高自由文本的利用率,需要考虑两方面的优化:第一,将不能映射成属性和关系,但是涉及实体的特定信息保存下来;第二根据已有需求,能够快速的构造一个特定关系的抽取器。
2016年,KBP中的slot-filling任务中定义了26种与人物和机构相关的关系槽,同时提供了一份标注语料用于训练和验证。而在不同领域的自然语言抽取系统,核心都是面向特定实体类别、特定实体间关系的抽取系统,只能使用特定的语料训练出的模型,才可以应用在相应系统中。
因此,有必要提出一种应用于不同抽取系统的基于用户辅助修正来不断优化提高抽取模型效果的关系抽取方法。
发明内容
本发明的目的在于:针对现有技术的不足,而提供的基于用户辅助修正下的实体对特定关系抽取方法,该方法能在保证用户能动性的前提下,让用户对相应数据进行标注,纠正计算机的错误,提高了特定关系抽取的准确率。
为实现上述目的,本发明采用如下技术方案:
基于用户辅助修正下的实体对特定关系抽取方法,包括以下步骤:
a、设置人工标注模块,通过该人工标注模块用于按需导入数据,并通过web页面进行人工标注;
b、使用tensorflow工具构建基于深度学习的模型训练模块,其中,所述基于深度学习的模型训练模块中包含多个适用于自然语言处理关系分类的深度学习模型,训练数据经过不同的深度学习模型找出当前批数据中最优模型,并替换掉特定关系抽取模块中的抽取模型;该步骤主要用于在通过不同的分类器训练得到不同的模型与择优的过程,将实体对特定关系的抽取问题转换为实体对特定关系的二分类问题。
c、对人工标注数据及校正数据进行整合以及对特定的过滤清理,并依据分词结果进行数据的预处理,预处理数据作为模型标准输入得出分类结果,并对抽取结果进行汇总验证;
d、构建关系校正模块供用户进行辅助修正,通过前端展示的形式由用户判断抽取是否正确。
需要说明的是,tensorflow是由google公司推出的AI学习系统,目前已经发展到了第二代,其内置了多种神经网络的实现框架。
作为对本发明中所述的基于用户辅助修正下的实体对特定关系抽取方法的改进,所述步骤a具体包括以下步骤:
a1、设置网页,对网页的数据表进行预设;
a2、通过该网页进行人工标注,生成初始标注数据。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于电子科技大学广东电子信息工程研究院,未经电子科技大学广东电子信息工程研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911235530.3/2.html,转载请声明来源钻瓜专利网。