[发明专利]远程监督关系抽取方法及装置有效
| 申请号: | 201910411697.4 | 申请日: | 2019-05-17 |
| 公开(公告)号: | CN110209836B | 公开(公告)日: | 2022-04-26 |
| 发明(设计)人: | 鄂海红;宋美娜;周筱松;陈忠富;牛佩晴;张文静 | 申请(专利权)人: | 北京邮电大学 |
| 主分类号: | G06F16/36 | 分类号: | G06F16/36;G06F16/33;G06F16/35;G06F40/279;G06F40/30;G06N3/04 |
| 代理公司: | 北京清亦华知识产权代理事务所(普通合伙) 11201 | 代理人: | 张润 |
| 地址: | 100876 北京市海淀区西*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 远程 监督 关系 抽取 方法 装置 | ||
1.一种远程监督关系抽取方法,其特征在于,包括以下步骤:
通过bootstrapping算法生成实体识别训练数据集,通过crf++工具对句子的实体进行识别,其中,所述通过bootstrapping算法生成实体识别训练数据集,包括:使用预先标注的数据集,应用选择的分类方法训练分类器,以标注未标注数据集中的标注分类;使用所述分类器对标注的数据集进行标注分类,以从所述标注的数据集中获取到标注的数据;从所述标注的数据中选择置信度满足预设条件的数据作为标注数据,并加入到标注数据集,直至满足预设迭代结束条件;
通过远程监督方法生成实体关系抽取训练数据集,通过关系知识库和自然语言语料生成实体关系抽取数据集,所述自然语言语料包含实体对和实体对对应的关系的知识库,其中,所述通过远程监督方法生成实体关系抽取训练数据集,包括:通过所述远程监督方法标注训练样本,利用所述知识库中的两个entity以及对应的relation,在自然语言语料中进行回标,其中,若任意一个句子中同时包含所述两个entity,确定所述任意一个句子包含所述relation,得到所述标注数据;以及
通过基于循环分段卷积神经网络和sentence embedding模块对所述句子的实体进行实体关系抽取,其中,在进行实体关系抽取的过程中,通过词嵌入与双向循环神经网络和注意力与句向量抽取所述句子中实体的实体关系。
2.一种远程监督关系抽取装置,其特征在于,包括:
实体识别模块,用于通过bootstrapping算法生成实体识别训练数据集,通过crf++工具对句子的实体进行识别,其中,所述实体识别模块进一步用于使用预先标注的数据集,应用选择的分类方法训练分类器,以标注未标注数据集中的标注分类,并使用所述分类器对标注的数据集进行标注分类,以从所述标注的数据集中获取到标注的数据,从所述标注的数据中选择置信度满足预设条件的数据作为标注数据,并加入到标注数据集,直至满足预设迭代结束条件;
数据获取模块,用于通过远程监督方法生成实体关系抽取训练数据集,通过关系知识库和自然语言语料生成实体关系抽取数据集,其中,所述自然语言语料包含实体对和实体对对应的关系的知识库,其中,所述数据获取模块进一步用于通过所述远程监督方法标注训练样本,利用所述知识库中的两个entity以及对应的relation,在自然语言语料中进行回标,其中,若任意一个句子中同时包含所述两个entity,确定所述任意一个句子包含所述relation,得到所述标注数据;以及
关系抽取模块,用于通过基于循环分段卷积神经网络和sentence embedding模块对所述句子的实体进行实体关系抽取,其中,所述关系抽取模块进一步用于在进行实体关系抽取的过程中,通过词嵌入与双向循环神经网络和注意力与句向量抽取所述句子中实体的实体关系。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京邮电大学,未经北京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910411697.4/1.html,转载请声明来源钻瓜专利网。





