[发明专利]一种基于电子病历文本的可迁移语言模型在审

专利信息
申请号: 202110683036.4 申请日: 2021-06-18
公开(公告)号: CN113408277A 公开(公告)日: 2021-09-17
发明(设计)人: 薛魁;柳俊;王奕;黄宗浩;叶琪 申请(专利权)人: 华东理工大学
主分类号: G06F40/289 分类号: G06F40/289;G06F40/253;G16H15/00
代理公司: 暂无信息 代理人: 暂无信息
地址: 200237 *** 国省代码: 上海;31
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 电子 病历 文本 迁移 语言 模型
【权利要求书】:

1.一种基于电子病历文本的可迁移语言模型,其特征在于,包括如下步骤:

S1:模板术语分离器,以医学知识库为字典,从医学文本S中匹配出对应的术语部分,将匹配的术语进行替换,生成文本模板与专业术语集合;

S2:模板术语编码器,将文本模板与专业术语进行编码,得到文本与术语融合后的向量表征El+1

S3:预训练下游任务层,将利用模板挖词填空、术语还原、否定考量三个任务进行预训练,输出为下游任务的损失,进行模型训练与优化。

2.如权利要求1所述的基于电子病历文本的可迁移语言模型,其特征在于,所述步骤S1中,模板术语分离器包括如下步骤:

S11:输入为病历文本SDoc、字段名Skey,输出入为字段值Svalue,根据字段类型确定不同的处理方式;

S12:利用字典树匹配算法,以医学知识库KG为字典,从医学文本S中匹配出对应的术语部分,再对其进行替换,生成文本模板Spattern与专业术语集合SKG

3.如权利要求1所述的一种基于电子病历文本的可迁移语言模型,其特征在于:所述步骤S2中,模板术语编码器包括如下步骤:

S21:模板术语编码器使用Patten Attention、KG Cross Attention依次捕捉模板的上下文语义信息,建立文本模板与知识库之间的关联信息,具体公式如下;

SelfAttention(X)=ln(mult_headh=12(X,X,X,MASK)+X)

KGCrossAttention(X,K)=ln(mult_headh=12(X,K,K,MASK)+X)

S22:使用FNN层对S21中捕获到的信息进行一次非线性变换,得到融合后的向量表征El+1,具体公式如下。

El+1=FFN(KGCrossAttention(SelfAttention(El),K,MASK))

E1=layer_normal(add([xi]s-max,[pi]s_max))

4.如权利要求1所述的一种基于电子病历文本的可迁移语言模型,其特征在于:所述步骤S3中,预训练下游任务层包括如下步骤:

S31:模板挖词填空任务,用于学习模板中每个字的上下文有关表示,具体做法为,从模板中随机选择15%的正常字符,按照80%概率替换为[MASK],10%替换为词表中的其他字符,10%保持不动,再通过下游任务层将这个字符还原,具体计算公式如下:

Hmlm=ln(relu(WmlmDl+1+bmlm))

S32:术语还原任务,用于学习模板中的槽与所填术语之间的联系,具体做法为,从术语集中随机选择10%的术语,按照80%概率替换为[MASK],10%替换为知识库中的其他术语,10%保持不动,再通过下游任务层将这些术语还原,计算公式如下:

Htmlm=ln(relu(WtmlmDl+1+btmlm))

S33:语义倾向判断任务,具体做法为:从语料中利用预定义的规则匹配包含否定含义的段落作为负例,随机挑选一些其他段落作为正例,其中限制正例的最大采样个数等于负例个数,再通过下游任务层预测该段落的倾向,具体计算公式如下:

P(para is positive|Hp)=sigmod(WnegHp′’+bneg)

S34:使用上述三个任务联合预训练模型。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华东理工大学,未经华东理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110683036.4/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top