[发明专利]一种基于深度学习的知识抽取方法与装置有效

专利信息
申请号: 202010563907.4 申请日: 2020-06-19
公开(公告)号: CN111709243B 公开(公告)日: 2023-07-07
发明(设计)人: 杨鹏;杨浩然;李文翰 申请(专利权)人: 南京优慧信安科技有限公司
主分类号: G06F40/295 分类号: G06F40/295;G06F40/216;G06F16/35;G06F16/332;G06F18/22;G06N3/0464;G06N3/045;G06N3/08
代理公司: 南京苏高专利商标事务所(普通合伙) 32204 代理人: 孟红梅
地址: 210012 江*** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 深度 学习 知识 抽取 方法 装置
【说明书】:

发明公开了一种基于深度学习的知识抽取方法与装置。首先,本发明使用BERT+CNN模型抽取百科文本中存在的多种关系,该模型改进了CNN基本结构并增加Attention机制,进而提高抽取精度。接着,枚举抽取的多种关系,根据关系类型识别文本对应的头实体和尾实体,并使用基于概率的实体对筛选方法筛选实体对。最后,基于文本相似度的实体消歧算法实现筛选实体对中实体的消岐,该算法解决实体消歧可参照信息量少的问题。本发明在减少知识抽取计算量的同时,可以准确、全面地从百科文本中抽取三元组知识。

技术领域

本发明涉及一种基于深度学习的知识抽取方法与装置,该方法使用深度学习技术对百科文本进行知识抽取,属于自然语言处理技术领域。

背景技术

随着电子技术、计算机技术、互联网络技术等方面科学技术的不断发展与进步,互联网已经成为人们获取信息和资源最主要途径。百度百科、互动百科、维基百科网站等一些网络百科项目,是人们欢迎、使用广泛的参考工具书。例如,许多网民将维基百科视为一个重要信息来源。然而,百科文本内容纷繁杂乱,包含大量描述性语句。用户需要阅读大段的描述性语句才能获取自己想要的信息。知识抽取技术可以屏蔽原始数据的繁琐细节,从原始数据中提炼出简洁的知识。使用知识抽取技术从百科文本中抽取知识,有助于用户快速理解文本内容。

当前知识抽取主流方法分为实体识别、关系抽取和实体消歧三个步骤。实体识别,又称命名实体识别(Named Entity Recognition),目标是抽取出文本中存在的多个实体,主流的方法包括基于规则的方法和基于机器学习的方法。实体识别后,穷举所有实体对,使用关系抽取技术抽取实体可能存在的关系。实体消歧可以在一定的上下文语境中,确定给定命名实体指称真正指向的实体概念。当前的知识抽取技术应用到百科文本中还存在以下问题:首先,百科文本通常一句话包含有多个实体。如果采用先实体识别再关系抽取的顺序,穷举多个实体对会大大增加知识抽取的计算量;其次,百科文本会出现包含多种关系和多个三元组的情况,从而导致准确率过低;最后,单个文本中抽取的实体相关描述信息量很少,难以利用少量的信息实现实体消歧。

发明内容

发明目的:针对现有技术中存在的问题与不足,本发明提出了一种基于深度学习的知识抽取方法与装置,在减少知识抽取计算量的同时,可以准确、全面地从百科文本中抽取三元组知识。

技术方案:为实现上述发明目的,本发明所述的一种基于深度学习的知识抽取方法,首先使用BERT+CNN模型抽取百科文本中存在的多种关系;然后枚举存在的关系,根据关系识别文本中对应的头尾实体节点,并基于概率筛选实体对;最后根据相似度计算对识别出的实体进行实体消歧。该方法主要包括四个步骤,具体如下:

(1)使用BERT+CNN模型抽取百科文本中存在的实体间的关系,所述BERT+CNN模型通过BERT模型生成句子嵌入向量,并通过CNN模型抽取语义特征,CNN模型中增加Attention机制以加强特征抽取能力;

(2)对步骤(1)中抽取的每个关系,将其余对应的百科文本同时输入BERT模型,识别每个关系对应的头尾实体节点,针对每个文本序列,输出头实体的起始概率和结束概率,以及,尾实体的起始概率和结束概率;

(3)根据步骤(2)输出的概率,去除重复实体,并根据就近原则筛选实体对;

(4)计算筛选的实体与百科中的实体之间的相似度,并根据相似度找到百科中对应的实体,完成实体消歧过程。

作为优选,所述步骤(1)中在CNN模型卷积核结构基础上加入残差,设第l层卷积层输入序列为其中n为序列长度,为长度d的向量,卷积宽度为k,卷积核参数为W∈R2d×kd,bw∈R2d,卷积核计算方式如下:

其中张量大小为R2d,函数υ将该张量分为两部分,其中一个张量通过一个Sigmoid激活函数,再与另一个张量点积。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京优慧信安科技有限公司,未经南京优慧信安科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202010563907.4/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top