[发明专利]一种基于实体类型信息的医疗实体关系联合抽取方法在审

专利信息
申请号: 202110846235.2 申请日: 2021-07-26
公开(公告)号: CN113486667A 公开(公告)日: 2021-10-08
发明(设计)人: 王星;唐楠楠;陈吉;蹇木伟 申请(专利权)人: 辽宁工程技术大学;临沂大学
主分类号: G06F40/295 分类号: G06F40/295;G06F40/284;G06F40/211;G06K9/62;G16H10/60
代理公司: 北京华夏正合知识产权代理事务所(普通合伙) 11017 代理人: 韩登营
地址: 123000 辽*** 国省代码: 辽宁;21
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 实体 类型 信息 医疗 关系 联合 抽取 方法
【说明书】:

发明提供了一种基于实体类型信息的医疗实体关系联合抽取方法,包括对医疗文本数据集进行预处理;将训练数据句子中的每一个词转化成对应的词向量,构建词嵌入层;根据医疗文本的词向量表示,获取具有特征信息的文本特征向量表示;通过分层的指针标注方法,并融合实体类型信息,抽取出医学文本中的关系三元组。本发明将实体类型信息加入到医疗实体关系联合抽取训练模型中,实体类型信息与上下文信息对于关系抽取模型同样重要,融合了实体类型信息的模型使得实体与关系之间的依赖性更强,联系更为紧密,增强了实体关系抽取模型的性能;基于分层的指针网络模型,将关系建模为主语到宾语的映射,较好的处理医疗文本数据中存在的实体关系重叠问题。

技术领域

本发明涉及自然语言处理的技术领域,尤其涉及一种基于实体类型信息的医疗实体关系联合抽取方法。

背景技术

随着医疗信息化建设的高速发展,电子病历数据不断累积。如何从大量非结构化电子医疗病例中获取有价值的信息以推动医疗事业的发展,受到医学界的广泛关注。实体关系抽取是获取结构化信息的关键步骤,对于医疗问答系统、医疗信息检索等任务以及医疗知识图谱的构建有重要意义。

目前,实体关系抽取方法根据抽取顺序分为流水线方法和联合抽取方法。流水线方法将实体识别和关系抽取视为两个独立的任务依次进行,虽然操作灵活,但忽略了两个任务的内在联系,容易产生误差累计。联合抽取的方法将实体识别和关系分别进行联合建模,能够更好地整合两个子任务之间的联系,获得较好的抽取效果。因而现有的医疗实体关系抽取多数采用联合抽取的方法。

尽管目前的关系抽取模型已经取得了较大的进展,但对于医疗领域实体关系抽取来说抽取效果仍有较大提升空间,主要原因包括以下几点:

1、实体关系发生重叠的现象普遍存在,尤其在医学文本中更为常见。重叠情况包括实体对重叠和单一实体重叠,比如句子“慢性淋巴细胞白血病会导致溶血和继发性贫血”中包括(慢性淋巴细胞白血病,并发症,溶血)和(慢性淋巴细胞白血病,并发症,继发性贫血)两个关系三元组,属于单一实体重叠情况。然而,多数现有的抽取模型无法完整抽取出重叠的三元组,因为这些模型将关系视为实体对上的离散函数,无法较好的解决句子中包含相互重叠的多个三元组的问题。

2、相关研究表明文本语境和实体提及(主要为实体类型)都为关系抽取提供了关键信息,但多数现有的关系抽取方法仅仅利用上下文信息而忽略实体类型信息的重要性,不利用实体类型信息会导致模型中实体和关系缺乏内在的交互,从而限制实体关系抽取模型的性能。

3、现有的关系抽取模型多数采用Bi-LSTM网络编码来获取上下文信息,该网络虽然可以捕获长距离依赖信息,但是无法挖掘出句子中的重点词汇,从而导致从文本中获取的语义特征信息不够准确。特别地,在医疗领域关系抽取中,区分词的重要程度对于文本信息的理解更为重要。

因此,需要一种基于实体类型信息的医疗实体关系联合抽取方法,以解决现有关系抽取技术存在的问题。

发明内容

针对上述技术问题,本发明的目的在于提供一种基于实体类型信息的医疗实体关系联合抽取方法,基于分层的指针标注框架,将实体类型信息加入到模型训练中,以解决相关技术中医疗实体关系发生重叠难以抽取的问题,并通过实体提及信息来提高模型性能。

为实现上述目的,本发明提供了一种基于实体类型信息的医疗实体关系联合抽取方法,包括如下步骤:

S1:对医疗文本数据集进行预处理;

S2:将训练数据句子中的每一个词转化成对应的词向量,构建词嵌入层;

S3:根据医疗文本的词向量表示,获取具有特征信息的文本特征向量表示;

S4:通过分层的指针标注方法,并融合实体类型信息,抽取出医学文本中的关系三元组。

可选的,所述步骤S1的步骤如下:

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于辽宁工程技术大学;临沂大学,未经辽宁工程技术大学;临沂大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110846235.2/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top