[发明专利]基于预训练模型和微调技术的医疗文本命名实体识别方法在审
申请号: | 201910520186.6 | 申请日: | 2019-06-17 |
公开(公告)号: | CN110348008A | 公开(公告)日: | 2019-10-18 |
发明(设计)人: | 陈涛;杨开漠 | 申请(专利权)人: | 五邑大学 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F16/35;G06N3/04;G16H10/00 |
代理公司: | 广州市红荔专利代理有限公司 44214 | 代理人: | 吴伟文 |
地址: | 529020 广*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 训练模型 命名实体 文本 微调 卷积神经网络 语义信息 医疗 堆叠 捕获 神经网络模型 并行计算 电子病历 非结构化 模型训练 医疗领域 语义表示 自动识别 迁移 | ||
1.基于预训练模型和微调技术的医疗文本命名实体识别方法,其特征在于,包括以下步骤:
S1)、利用文本数据挖掘的相关技术对医疗文本进行预处理;
S2)、利用BERT预训练模型对大规模非结构化的无标注的医疗文本进行预训练,训练出包含医疗领域语义表示信息的预训练模型;
S3)、利用堆叠扩张卷积神经网络IDCNN对步骤S2)所训练出的预训练模型进行微调,训练出能够识别医疗文本中所包含的相关医疗命名实体的深度神经网络模型;
S4)、将训练好的深度神经网络模型用于医疗文本的命名实体识别任务中,以识别更多有价值的命名实体。
2.根据权利要求1所述的基于预训练模型和微调技术的医疗文本命名实体识别方法,其特征在于:步骤S1)中,利用文本数据挖掘的相关技术对医疗文本进行预处理,主要包含以下步骤:
S101)、对医疗文本进行分词处理;
S102)、删除已分词句子中的停用词;
S103)、利用BIO序列标记法标注医疗文本中所存在的解剖部位、独立症状、症状描述、手术、药物相关的临床医疗命名实体;其中,B表示医疗命名实体的开始词;I表示医疗命名实体的中间词或结尾词;O表示非医疗命名实体。
3.根据权利要求1所述的基于预训练模型和微调技术的医疗文本命名实体识别方法,其特征在于:步骤S2)中,对大规模非结构化的无标注医疗文本进行预训练,以获得文本中所包含的丰富语义表示信息。
4.根据权利要求1所述的基于预训练模型和微调技术的医疗文本命名实体识别方法,其特征在于:步骤S3)中,将堆叠扩张卷积神经网络与BERT预训练模型进行结合,对步骤S2)所产生的预训练模型进行微调,得到进行医疗文本命名实体识别的深度神经网络模型。
5.根据权利要求1所述的基于预训练模型和微调技术的医疗文本命名实体识别方法,其特征在于:步骤S4)中,通过将未进行命名实体标注的医疗文本输入到步骤S3)中利用预训练模型和微调技术训练出的深度神经网络模型中,得到该输入文本对应的医疗命名实体BIO标记,将上述标记利用可视化方法呈现给用户,使该系统的使用者能够方便的获取输入的医疗文本中被自动识别出的医疗命名实体信息。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于五邑大学,未经五邑大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910520186.6/1.html,转载请声明来源钻瓜专利网。