[发明专利]一种基于文本分割的再入院预测方法在审
| 申请号: | 202110503150.4 | 申请日: | 2021-05-10 |
| 公开(公告)号: | CN113192630A | 公开(公告)日: | 2021-07-30 |
| 发明(设计)人: | 刘叶;段俊文 | 申请(专利权)人: | 中南大学 |
| 主分类号: | G16H50/20 | 分类号: | G16H50/20;G16H50/70;G06F16/33;G06F16/35;G06F40/211;G06F40/216;G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 暂无信息 | 代理人: | 暂无信息 |
| 地址: | 410083 湖南*** | 国省代码: | 湖南;43 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 文本 分割 再入 预测 方法 | ||
1.一种基于文本分割的再入院预测方法,其特征在于包括下列步骤:
步骤1:与传统处理长文本的方法不同,本发明根据MIMIC-Ⅲ出院摘要的数据的结构和具体内容,首先利用文本分割方法或者正则匹配得到文本每个关键字所对应部分的文本内容。
步骤2:表示学习模块目标是学习到每个部分的向量表示,本发明使用了ClinicalBERT进行这一步。模型中每一部分的表示都是由ClinicalBERT独立建模得到对应向量表示,能够应对医疗文本过长的难点。
步骤3:得到每个部分的向量表示之后,本章方法采用了Attention机制凸显某个部分的特殊作用,也使用了带温度的softmax方法提升效果。根据重要程度赋予权值,Attention值越大表示这一部分对于整体预测重要越大。
步骤4:在Attention阶段,对比了诊断编码的影响,本发明额外对比了使用诊断编码向量的方式,利用诊断信息衡量每一个文本段落的重要性。ClinicalBERT预训练模型也一样在此用来学习文本的特征表示。
步骤5:通过Attention机制赋值之后,每一个文本段对应的句序列表示都有对应的权值,利用句序列表示根据权值相加后产生全新的句嵌入。线性层和sigmoid转换被用来计算最后阶段的再入院可能性,其中分类阈值为0.5。训练好模型后,在测试集中对模型进行再入院可能性预测,得到当前预测性能。
2.根据权利要求1所述的基于文本分割的再入院预测方法,其特征为所述步骤1中对于MIMIC-Ⅲ数据来说,在文本中有着明显字段标识,通过正则表达式匹配的方法可以获得每个部分,根据统计数据选取出现频率最高的几个字段,每一个病人的出院摘要都有对应的多个文本段。
3.根据权利要求1所述的基于文本分割的再入院预测方法,其特征为所述步骤2中由于利用通用语料进行预训练的特点,BERT模型在专业语料上向量表示的效果一般,所以本文采用了基于ClinicalBERT的向量表示。ClinicalBERT起源于BERT,是通过在PubMed等医疗相关语料库上进行预训练之后学习到的深度表示。
4.根据权利要求1所述的基于文本分割的再入院预测方法,其特征为所述步骤3中为了获得每个部分的重要性,本文在模型中使用了Attention机制。Attention机制的作用就是计算出所有文本块的重要性,并赋予相应的权值。大小不一的权值反映了对应文本块在预测时起到的作用。计算方式为α(μ)=υT·tanh(Wμμ)、c=μ·softmax(α(μ)),其中μ代指了句嵌入的组合,c是句嵌入与对应权值相乘得到最后隐层的值。
5.根据权利要求1所述的基于文本分割的再入院预测方法,其特征为所述步骤4中额外使用了诊断编码作为影响权值的因素使用。相应地,权重计算方式为α(μ,ν)=υT·tanh(Wμμ+Wνν),ν即med2vec所表示的诊断编码,Wν即ν对应的矩阵,在训练时也会不断更新。
6.根据权利要求1所述的基于文本分割的再入院预测方法,其特征为所述步骤5中对于所有文本段的特征表示通过加权组合得到最终的句嵌入是整体特征的集中表示,即每个样例的分类向量,分类向量最终通过sigmoid函数进行0,1划分。训练好模型后,在测试集中对模型进行测试,评估模型各项性能。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中南大学,未经中南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110503150.4/1.html,转载请声明来源钻瓜专利网。





