[发明专利]一种基于实体类型信息的医疗实体关系联合抽取方法在审

专利信息
申请号: 202110846235.2 申请日: 2021-07-26
公开(公告)号: CN113486667A 公开(公告)日: 2021-10-08
发明(设计)人: 王星;唐楠楠;陈吉;蹇木伟 申请(专利权)人: 辽宁工程技术大学;临沂大学
主分类号: G06F40/295 分类号: G06F40/295;G06F40/284;G06F40/211;G06K9/62;G16H10/60
代理公司: 北京华夏正合知识产权代理事务所(普通合伙) 11017 代理人: 韩登营
地址: 123000 辽*** 国省代码: 辽宁;21
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 实体 类型 信息 医疗 关系 联合 抽取 方法
【权利要求书】:

1.一种基于实体类型信息的医疗实体关系联合抽取方法,其特征在于,包括如下步骤:

S1:对医疗文本数据集进行预处理;

S2:将训练数据句子中的每一个词转化成对应的词向量,构建词嵌入层;

S3:根据医疗文本的词向量表示,获取具有特征信息的文本特征向量表示;

S4:通过分层的指针标注方法,并融合实体类型信息,抽取出医学文本中的关系三元组。

2.根据权利要求1所述的基于实体类型信息的医疗实体关系联合抽取方法,其特征在于,所述步骤S1的步骤如下:

步骤1.1:对医疗电子病历数据集进行清洗;

步骤1.2:根据医疗领域词典进行分词,得到训练语料。

3.根据权利要求1所述的基于实体类型信息的医疗实体关系联合抽取方法,其特征在于,所述步骤S2中,通过预训练语言模型BERT动态的训练医疗文本词向量。

4.根据权利要求1所述的基于实体类型信息的医疗实体关系联合抽取方法,其特征在于,所述步骤S3中,通过多头注意力机制学习医疗文本句子的内部结构信息,注意力机制通过计算每两个词之间的相似度,挖掘出句子中的重点词汇。

5.根据权利要求1所述的基于实体类型信息的医疗实体关系联合抽取方法,其特征在于,所述步骤S4的步骤如下:

S4.1:采用单层的指针标注对句子进行主语的标记,将步骤S3中获取的医疗文本特征向量输入到两个相同的Sigmoid指针标注器中,两个指针分别代表开始和结束,通过Sigmoid函数预测该位置为主语开始位置或结束位置的概率,给定一个阈值,如果该位置的概率大于给定阈值,则标记该位置为1,表示是边界位置,否则标记为0,由此判断出主语;

S4.2:将开始指针和结束指针标记出的主语的首尾位置间的特征向量进行连接,获取主语的特征向量,通过SoftMax对主语向量进行预测,判断主语的实体类型信息;

S4.3:依次取句子中的每一个主语,将主语的实体类型信息与主语向量进行连接,再将连接好的特征向量通过层归一化的方式融合到医疗文本的特征向量中,作为抽取宾语模型的输入;

S4.4:在每一种预定义的关系条件下,采用分层的指针标注,针对每一个主语标记其对应的宾语,具体操作表示为将步骤S4.3中获取的特征向量分别输入到N对二进制指针标注器中,预测宾语的头尾位置;

S4.5:判断宾语的实体类型,将实体对信息和实体类型信息作为约束条件,抽取出医疗文本中的三元组。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于辽宁工程技术大学;临沂大学,未经辽宁工程技术大学;临沂大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110846235.2/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top