[发明专利]基于功能结构的中文电子病历命名实体识别方法及系统在审
| 申请号: | 202110212911.0 | 申请日: | 2021-02-25 |
| 公开(公告)号: | CN112949308A | 公开(公告)日: | 2021-06-11 |
| 发明(设计)人: | 胡吉明;钱玮;吕晓光;付文麟;吕浩 | 申请(专利权)人: | 武汉大学 |
| 主分类号: | G06F40/295 | 分类号: | G06F40/295;G16H10/60;G06N3/04 |
| 代理公司: | 湖北武汉永嘉专利代理有限公司 42102 | 代理人: | 唐万荣 |
| 地址: | 430072 湖*** | 国省代码: | 湖北;42 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 功能 结构 中文 电子 病历 命名 实体 识别 方法 系统 | ||
本发明公开了一种基于功能结构的中文电子病历命名实体识别方法及系统,该方法包括以下步骤:获取电子病历数据,对电子病历数据进行结构化处理;依据功能结构,对结构化的数据进行内容抽取;对抽取的各功能结构内容进行人工标注,并分为训练集和测试集;利用各功能结构下的训练集训练BiLSTM‑CRF模型;通过测试集验证各模型效果并对模型进行调优,最后利用模型对未标注文本进行命名实体识别。本发明将中文电子病历文本的内容结构及其功能内涵作为医疗命名实体标注和识别的基本依据,创新了医疗实体标注策略,结合深度神经网络和统计机器学习方法实现了医疗命名实体识别,提高医疗命名实体识别的准确度,为电子病历术语规范化和后续文本挖掘工作提供参考。
技术领域
本发明属于自然语言处理技术领域,具体涉及一种基于功能结构的中文电子病历命名实体识别方法及系统。
背景技术
电子病历作为患者人口统计学信息诊断、实验室测试结果、药物处方和临床记录的重要载体,蕴含着丰富的医疗信息与专家知识,日益成为文本挖掘领域的研究热点。而进行中文电子病历文本研究,首要解决的基础性工作就是医疗实体识别。医疗实体是医疗文本中用于描述患者详细病情、症状、用药和治疗情况等的概念;医疗实体识别,即自动识别和分类病例中的医疗实体,为分词、向量化等后续文本处理工作打下基础。
已有的命名实体识别方法主要包括基于规则的方法、基于词典的方法、统计机器学习方法和深度学习方法。其中基于BiLSTM-CRF的深度学习模型是应用于电子病历命名实体识别的主流模型,该模型依靠BiLSTM层实现上下文特征提取,再由CRF层从所有可能的标记路径解码出最优预测集。该方法考虑了上下文语境,从而有效提升了命名实体识别准确度。但值得注意的是,区别于一般性中文文本,电子病历具有一定的结构化或模块化特征,语言模式化也较强,不同模块内的同一词汇、术语或实体代表了不同的语义内涵或功能作用。而已有的实体识别方法大多忽略了上述特征,降低了命名实体识别的语义准确性,因此需要针对中文电子病历的特点对命名实体识别方法加以改进与应用。
发明内容
本发明的目的在于,提供一种基于功能结构的中文电子病历命名实体识别方法及系统,从电子病历的内容模块、功能结构入手,改进医疗实体标注的策略与框架,弥补当前电子病历命名实体识别研究中对电子病历领域特性考虑不足的问题,有效保留实体蕴含的功能结构信息,进一步提升面向临床电子病历的命名实体识别模型的效果。
本发明提供一种基于功能结构的中文电子病历命名实体识别方法,包括以下步骤:
S1、获取电子病历数据,对电子病历数据进行结构化处理;
S2、依据功能结构,对结构化的数据进行内容抽取;
S3、对抽取的各功能结构内容进行人工标注,并分为训练集和测试集;
S4、利用各功能结构下的训练集训练BiLSTM-CRF模型;
S5、通过测试集验证各模型效果并对模型进行调优,最后利用模型对未标注文本进行命名实体识别。
进一步地,电子病历数据为电子病历中的临床住院记录,包括入院情况、入院诊断、治疗经过、出院情况和出院诊断。
进一步地,步骤S2包括:
S21、确定功能结构,包括入院情况、入院诊断、治疗经过、出院情况和出院诊断五个模块;
S22、根据模块对结构化的电子病历数据进行内容抽取。
进一步地,步骤S3中,采用YEDDA标注工具进行人工标注,将实体类型信息和实体边界信息组合形成完整的标注体系,将识别任务转化为字粒度的标记。
进一步地,实体类型包括:症状(SYMPTOM)、身体部位(BODY)、化验和检查(TEST
EXAMINATION)、疾病(DISEASE)、体征(SIGN)、治疗(TREATMENT)、药物(DRUG)。
进一步地,实体边界界定采用BIO标注模式,其定义如下:B表示实体首部字,I表示实体内部字,O表示非实体构成字。
进一步地,步骤S4包括:
S41、加载字向量表,获得语料中每个字符的字向量表示,生成训练用的字向量矩阵;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉大学,未经武汉大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110212911.0/2.html,转载请声明来源钻瓜专利网。





