[发明专利]一种实体与关系联合抽取的方法有效
申请号: | 202110643930.9 | 申请日: | 2021-06-09 |
公开(公告)号: | CN113283243B | 公开(公告)日: | 2022-07-26 |
发明(设计)人: | 程良伦;林锐明;王涛;王卓薇;邓健峰;周佳乐 | 申请(专利权)人: | 广东工业大学 |
主分类号: | G06F40/295 | 分类号: | G06F40/295;G06N3/04 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 黄忠 |
地址: | 510060 广东省*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 实体 关系 联合 抽取 方法 | ||
本申请公开了一种实体与关系联合抽取的方法,包括:将文本转化为低维稠密的向量,得到第二文本;提取其上下文特征;分析其依存关系并建立依存树;将依存树作为邻接矩阵,提取其图的第一节点特征并转化成标签序列,搜索标签序列,预测第一阶段命名实体结果;提取第二文本的深度文本特征;将命名实体结果与深度文本特征进行拼接,预测其关系;将命名实体结果与关系预测结果转化成图结构;将图结构作为邻接矩阵,提取其第二节点特征;将更新后的文本特征转化成标签序列,搜索标签序列,预测文本特征的第二阶段的命名实体结果;并将其嵌入到深度文本特征,预测嵌入结果的关系。本申请考虑子任务之间的关系,解决一类实体涉及多类实体关系的问题。
技术领域
本申请涉及自然语言处理技术领域,尤其涉及一种实体与关系联合抽取的方法。
背景技术
供应链管理作为一种综合的管理方法,是大型企业的研究热点。当前国内的供应链管理方法主要依靠于人工管理,但往往由于任务量过多、管理知识过于繁重,导致供应链管理效率低下。由于大量的供应链管理知识存在于非结构化数据中,如新闻、文献等等。综合地利用深度学习、NLP等人工智能的技术处理面向供应链的大数据尤其是非结构化数据,实现供应链大规模语义知识库的自动化构建技术。构建语义知识库的关键技术在于如何从复杂、分散、冗余的海量数据,尤其是非结构化数据中抽取特定信息,这个过程称之为信息抽取。信息抽取包括命名实体识别与关系抽取两个子任务,现有的联合抽取方法主要存在以下缺点:①没有完全利用两个子任务的联系;②供应链管理领域一类实体涉及多类实体关系。
发明内容
本申请实施例提供了一种实体与关系联合抽取的方法,使得考虑两个子任务之间的关系,从而提高关系抽取的准确率与召回率,解决一类实体涉及多类实体关系的问题。
有鉴于此,本申请第一方面提供了一种实体与关系联合抽取的方法,所述方法包括:
将第一文本输入至Bert模型,将所述第一文本转化为低维稠密的向量,得到第二文本;
使用单层Bi-LSTM提取所述第二文本的上下文特征;
使用依存器分析所述上下文特征的依存关系,建立依存树;
将所述依存树作为Bi-GCN的邻接矩阵,采用Bi-GCN提取所述邻接矩阵构成的图的第一节点特征;
将所述第一节点特征转化成标签序列,经过条件随机场解码后,采用Veterbi算法搜索标签序列,预测得到第一阶段的命名实体结果,并得到第一阶段的第一损失值;
采用堆叠Bi-LSTM提取所述第二文本的深度文本特征;
将所述第一阶段的命名实体结果与所述深度文本特征进行拼接,将拼接结果进行关系预测,并得到关系预测过程的第二损失值;
将所述第一阶段的所述命名实体结果与关系预测结果转化成图结构;
将所述图结构作为Bi-GCN的邻接矩阵,采用Bi-GCN提取所述图结构的第二节点特征;
采用所述第二节点特征构建文本特征更新公式;
将更新后的文本特征转化成标签序列,经过条件随机场解码后,采用Veterbi算法搜索标签序列,预测所述文本特征的第二阶段的命名实体结果,并得到第二阶段的第三损失值;
将所述第二阶段的命名实体结果嵌入到所述深度文本特征,对嵌入结果进行关系预测,并得到关系预测结果的第四损失值,则实体与关系联合抽取模型的目标函数
J(θ)=eloss1p+rloss1p+eloss2p+rloss2p
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广东工业大学,未经广东工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110643930.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种考虑高温强度衰减的油管柱校核方法
- 下一篇:一种轮履式移动机器人