[发明专利]实体关系抽取方法及装置有效
| 申请号: | 201910692845.4 | 申请日: | 2019-07-30 |
| 公开(公告)号: | CN110427624B | 公开(公告)日: | 2023-04-25 |
| 发明(设计)人: | 晋小玲;郭方园 | 申请(专利权)人: | 北京百度网讯科技有限公司 |
| 主分类号: | G06F16/36 | 分类号: | G06F16/36;G06N5/025;G06N3/045;G06N3/0442;G06N3/0464;G06N3/047;G06N3/0895 |
| 代理公司: | 北京同立钧成知识产权代理有限公司 11205 | 代理人: | 朱颖;刘芳 |
| 地址: | 100085 北京市*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 实体 关系 抽取 方法 装置 | ||
1.一种实体关系抽取方法,其特征在于,包括:
根据人工标注的训练样本集合X0和实体关系对集合ER0,对句子嵌入-长短期记忆网络SE-LSTM初始化网络进行第一次训练,得到神经网络模型NN0,其中,所述实体关系对集合ER0为将所述训练样本集合X0输入到所述SE-LSTM网络得到的输出,实体关系对包括一个实体对和实体关系;
获取训练样本集合Xi,i=1…n,所述训练样本集合Xi的元素为通过神经网络模型NNi-1获取的训练样本集合Xi-1的文本中置信度小于第一预设阈值的文本;
根据所述实体关系对集合ER0至ERi-1、以及关系集合获取实体关系对集合ERi,i=1…m,所述关系集合根据所述训练样本集合X0构建,所述关系集合中的元素为互为重叠的实体关系;所述ERi是将实体关系对集合ER0中的实体关系对的实体关系替换为所述关系集合中的目标实体关系后得到的,所述目标实体关系与实体关系对集合ER0至ERi-1中的实体关系不同;
根据训练样本集合Xi和实体关系对集合ERi,对SE-LSTM初始化网络进行轮流训练,得到神经网络模型NNi,i=1…m,并得到由所述神经网络模型NN0和神经网络模型NNi组成的神经网络模型集合;
根据所述神经网络模型集合进行实体关系抽取。
2.根据权利要求1所述的方法,其特征在于,所述根据所述实体关系对集合ER0和关系集合获取实体关系对集合ERi,包括:
将实体关系对集合ER0中的实体关系对的实体关系替换为所述关系集合中除所述实体关系对集合ER0中的实体关系之外的一个实体关系,得到实体关系对集合ER1;
若所述关系集合中还有未替换过的元素,则将实体关系对集合ER0中的实体关系对的实体关系替换为所述关系集合中除所述实体关系对集合ER 0和ER 1中的实体关系之外的一个实体关系,得到实体关系对集合ER2;
继续上述替换过程,直到将所述关系集合中的元素替换完。
3.根据权利要求1或2所述的方法,其特征在于,所述方法还包括:
将待处理文本输入到所述神经网络模型集合中,得到多个实体关系抽取结果;
根据多个实体关系抽取结果获取所述待处理文本对应于每一个神经网络模型的置信度,并获取置信度最高的神经网络模型;
若最高置信度大于第二预设阈值,则将所述待处理文本加入所述训练样本集合X0,得到新的训练样本集合,根据新的训练样本集合重新训练置信度最高的神经网络模型并替换神经网络模型集合中的元素,得到新的神经网络模型集合。
4.根据权利要求3所述的方法,其特征在于,所述方法还包括:
若最高置信度小于所述第二预设阈值,舍弃所述待处理文本。
5.根据权利要求3所述的方法,其特征在于,所述方法还包括:
将所述待处理文本输入到新的神经网络模型集合中,得到多个实体关系抽取结果;
根据多个实体关系抽取结果获取待处理文本对应于新的神经网络模型集合中每一个神经网络模型的置信度,确定出置信度最高的神经网络模型对应的实体关系抽取结果;
若置信度最高的神经网络模型对应的实体关系抽取结果的准确率大于预设值,则将置信度最高的神经网络模型对应的实体关系抽取结果作为最终的输出,并结束训练。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司,未经北京百度网讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910692845.4/1.html,转载请声明来源钻瓜专利网。





