[发明专利]实体关系抽取方法及装置有效
申请号: | 201910692845.4 | 申请日: | 2019-07-30 |
公开(公告)号: | CN110427624B | 公开(公告)日: | 2023-04-25 |
发明(设计)人: | 晋小玲;郭方园 | 申请(专利权)人: | 北京百度网讯科技有限公司 |
主分类号: | G06F16/36 | 分类号: | G06F16/36;G06N5/025;G06N3/045;G06N3/0442;G06N3/0464;G06N3/047;G06N3/0895 |
代理公司: | 北京同立钧成知识产权代理有限公司 11205 | 代理人: | 朱颖;刘芳 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 实体 关系 抽取 方法 装置 | ||
本发明提供一种实体关系抽取方法及装置。该方法包括:根据人工标注的训练样本集合Xsubgt;0/subgt;和实体关系对集合ERsubgt;0/subgt;,对SE‑LSTM初始化网络进行训练,得到神经网络模型NNsubgt;0/subgt;,实体关系对集合ERsubgt;0/subgt;为将训练样本集合Xsubgt;0/subgt;输入到SE‑LSTM网络得到的输出;获取训练样本集合Xsubgt;i/subgt;;根据实体关系对集合ERsubgt;0/subgt;和关系集合获取实体关系对集合ERsubgt;i/subgt;,关系集合根据训练样本集合Xsubgt;0/subgt;构建,关系集合中的元素为互为重叠的实体关系;根据训练样本集合Xsubgt;i/subgt;和实体关系对集合ERsubgt;i/subgt;,对SE‑LSTM初始化网络进行轮流训练,得到神经网络模型NNsubgt;i/subgt;,并得到由神经网络模型NNsubgt;0/subgt;和神经网络模型NNsubgt;i/subgt;组成的神经网络模型集合;根据神经网络模型集合进行实体关系抽取。从而,解决了重叠实体关系的抽取问题。
技术领域
本发明涉及数据处理和数据挖掘技术领域,尤其涉及一种实体关系抽取方法及装置。
背景技术
信息抽取是指从一段自然语言文本中抽取实体、事件、关系等类型的信息,形成结构化数据存入数据库中以供用户查询和使用的过程。实体关系抽取作为信息抽取、自然语言理解、信息检索等领域的核心任务和重要环节,能够从文本中识别实体并抽取实体之间的语义关系。信息抽取技术主要应用于机器学习和自然语言处理任务之,包括知识图谱的构建及补全、信息检索以及问答系统等。
实体关系为一对实体之间的一个语义关系,重叠实体关系是指一对实体存在一个以上的语义关系,例如马云即是阿里巴巴的创建者,也是阿里巴巴的首席执行官。现有的实体关系抽取方法中,主要是根据人工标注的训练数据进行训练得到模型,根据该模型进行实体关系抽取,其中人工标注的训练数据由文本和文本对应的实体关系组成。
现有技术中只能抽取实体关系,不能抽取重叠实体关系。
发明内容
本发明提供一种实体关系抽取方法及装置,以解决重叠实体关系的抽取问题。
第一方面,本发明提供一种实体关系抽取方法,包括:
根据人工标注的训练样本集合X0和实体关系对集合ER0,对句子嵌入-长短期记忆网络SE-LSTM初始化网络进行第一次训练,得到神经网络模型NN0,其中,所述实体关系对集合ER0为将所述训练样本集合X0输入到所述SE-LSTM网络得到的输出,实体关系对包括一个实体对和实体关系;
获取训练样本集合Xi,i=1…n,所述训练样本集合Xi的元素为训练样本集合Xi-1的文本中置信度小于第一预设阈值的文本;
根据所述实体关系对集合ER0和关系集合获取实体关系对集合ERi,i=1…m,所述关系集合根据所述训练样本集合X0构建,所述关系集合中的元素为互为重叠的实体关系;
根据训练样本集合Xi和实体关系对集合ERi,对SE-LSTM初始化网络进行轮流训练,得到神经网络模型NNi,i=1…m,并得到由所述神经网络模型NN0和神经网络模型NNi组成的神经网络模型集合;
根据所述神经网络模型集合进行实体关系抽取。
可选的,所述获取训练样本集合Xi,包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司,未经北京百度网讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910692845.4/2.html,转载请声明来源钻瓜专利网。