[发明专利]一种基于实体类型信息的医疗实体关系联合抽取方法在审
申请号: | 202110846235.2 | 申请日: | 2021-07-26 |
公开(公告)号: | CN113486667A | 公开(公告)日: | 2021-10-08 |
发明(设计)人: | 王星;唐楠楠;陈吉;蹇木伟 | 申请(专利权)人: | 辽宁工程技术大学;临沂大学 |
主分类号: | G06F40/295 | 分类号: | G06F40/295;G06F40/284;G06F40/211;G06K9/62;G16H10/60 |
代理公司: | 北京华夏正合知识产权代理事务所(普通合伙) 11017 | 代理人: | 韩登营 |
地址: | 123000 辽*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 实体 类型 信息 医疗 关系 联合 抽取 方法 | ||
1.一种基于实体类型信息的医疗实体关系联合抽取方法,其特征在于,包括如下步骤:
S1:对医疗文本数据集进行预处理;
S2:将训练数据句子中的每一个词转化成对应的词向量,构建词嵌入层;
S3:根据医疗文本的词向量表示,获取具有特征信息的文本特征向量表示;
S4:通过分层的指针标注方法,并融合实体类型信息,抽取出医学文本中的关系三元组。
2.根据权利要求1所述的基于实体类型信息的医疗实体关系联合抽取方法,其特征在于,所述步骤S1的步骤如下:
步骤1.1:对医疗电子病历数据集进行清洗;
步骤1.2:根据医疗领域词典进行分词,得到训练语料。
3.根据权利要求1所述的基于实体类型信息的医疗实体关系联合抽取方法,其特征在于,所述步骤S2中,通过预训练语言模型BERT动态的训练医疗文本词向量。
4.根据权利要求1所述的基于实体类型信息的医疗实体关系联合抽取方法,其特征在于,所述步骤S3中,通过多头注意力机制学习医疗文本句子的内部结构信息,注意力机制通过计算每两个词之间的相似度,挖掘出句子中的重点词汇。
5.根据权利要求1所述的基于实体类型信息的医疗实体关系联合抽取方法,其特征在于,所述步骤S4的步骤如下:
S4.1:采用单层的指针标注对句子进行主语的标记,将步骤S3中获取的医疗文本特征向量输入到两个相同的Sigmoid指针标注器中,两个指针分别代表开始和结束,通过Sigmoid函数预测该位置为主语开始位置或结束位置的概率,给定一个阈值,如果该位置的概率大于给定阈值,则标记该位置为1,表示是边界位置,否则标记为0,由此判断出主语;
S4.2:将开始指针和结束指针标记出的主语的首尾位置间的特征向量进行连接,获取主语的特征向量,通过SoftMax对主语向量进行预测,判断主语的实体类型信息;
S4.3:依次取句子中的每一个主语,将主语的实体类型信息与主语向量进行连接,再将连接好的特征向量通过层归一化的方式融合到医疗文本的特征向量中,作为抽取宾语模型的输入;
S4.4:在每一种预定义的关系条件下,采用分层的指针标注,针对每一个主语标记其对应的宾语,具体操作表示为将步骤S4.3中获取的特征向量分别输入到N对二进制指针标注器中,预测宾语的头尾位置;
S4.5:判断宾语的实体类型,将实体对信息和实体类型信息作为约束条件,抽取出医疗文本中的三元组。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于辽宁工程技术大学;临沂大学,未经辽宁工程技术大学;临沂大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110846235.2/1.html,转载请声明来源钻瓜专利网。
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置