[发明专利]一种基于电子病历文本的可迁移语言模型在审
| 申请号: | 202110683036.4 | 申请日: | 2021-06-18 |
| 公开(公告)号: | CN113408277A | 公开(公告)日: | 2021-09-17 |
| 发明(设计)人: | 薛魁;柳俊;王奕;黄宗浩;叶琪 | 申请(专利权)人: | 华东理工大学 |
| 主分类号: | G06F40/289 | 分类号: | G06F40/289;G06F40/253;G16H15/00 |
| 代理公司: | 暂无信息 | 代理人: | 暂无信息 |
| 地址: | 200237 *** | 国省代码: | 上海;31 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 电子 病历 文本 迁移 语言 模型 | ||
本发明提出了一种基于电子病历文本的可迁移语言模型,该模型通过医学知识库将电子病历文本分离成模板与术语两大部分,先利用Pattern Attention对自然语言模板单独建模,再利用KG Cross Attention融合对应的医疗术语,使得模型能够利用医学知识库分离病历文本进行建模,从而完成跨专科的信息抽取。为了让模型更加适应于电子病历文本,本发明设计了三种预训练任务,通过这种方法对模型进行预训练后,可以大幅降低模型在相近专科内的迁移难度。
技术领域
本发明涉及一种语言模型,尤其涉及面向于电子病历的可迁移语言模型方法。
背景技术
电子病历的文本包含了病人的症状,检查结果,以及医生根据症状、理化指标等基础数据做出的诊断和治疗过程的描述,这些重要的信息保存在非结构化信息中,不能被计算机所理解和处理。
由于医疗数据的保密性与医疗术语的专业性,研究人员需要尽可能的减少语料的标注,然而现有的模型通常只能同时用于一个领域,切换领域需要重新标注数据,费时费力。同时病历文本本身也具有一定的特殊性,通常采用“模板+术语”的构成方式,例如胃癌手术过程文本:“探查:肝、胆、胰、脾,大小肠未见异常,病灶位于胃小弯前壁”,可以分解为模板:“探查[身体器官][异常情况],病灶位于[身体器官]”与术语:“肝”、“胆”、“胰”、“脾”,“大小肠”,“胃小弯前壁”以及“未见异常”的组合;并且在相近专科中,模板几乎一致,仅是其中的术语发生了替换,例如肠癌手术过程文本:“探查见:肝胆胰脾未见明显异常,腹腔内小肠广泛粘连”,如果能建立一种将模板与专业术语分离建模的信息抽取模型,即可大幅降低模型在相近专科内的迁移难度。
发明内容
针对现有语言模型中所存在的不足,本发明提供了一种基于电子病历文本的可迁移语言模型,将电子病历文本分离成模板与术语两大部分,使得模型能够利用医学知识库分离病历文本进行建模,从而完成跨专科的信息抽取。同时采用无监督的方式进行预训练,减少了对人工标注数据的需要,使得模型能够在面对不同专科的电子病历文本时降低迁移难度。
本发明采用以下技术方案:
1.基于电子病历文本的可迁移语言模型,其主要思路包括如下步骤:
S1:模板术语分离器,以医学知识库为字典,从医学文本S中匹配出对应的术语部分,将匹配的术语进行替换,生成文本模板与专业术语集合。
S2:模板术语编码器,输入文本模板与专业术语,输出融合后的向量表征。
S3:预训练下游任务层,本发明使用了模板挖词填空、术语还原、否定考量三个方法进行预训练。预训练阶段的输出为下游任务的损失,微调阶段的输出为融合后的向量表征El+1。
2.具体的,所述步骤S1中,模板术语分离器的方法包括如下步骤:
S11:输入为病历文本SDoc、字段名Skey,输出入为字段值Svalue,根据字段类型确定不同的处理方式。具体的,任务可分为如下三类:
S12:利用字典树匹配算法,以医学知识库KG为字典,从医学文本S中匹配出对应的术语部分,再对其进行替换,生成文本模板Spattern与专业术语集合SKG。
3.具体的步骤S2中,模板术语编码器的方法包括如下步骤:
S21:模板术语编码器使用Patten Attention、KG Cross Attention依次捕捉模板的上下文语义信息,模板与知识库之间的关联信息
S22:使用FNN层对其进行一次非线性变换,得融合后的向量表征El+1。其具体公式如下,层数l∈{x|1≤x≤12}。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华东理工大学,未经华东理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110683036.4/2.html,转载请声明来源钻瓜专利网。





