[发明专利]一种基于ernie模型的电子病历数据组解析方法及系统有效
| 申请号: | 202010118524.6 | 申请日: | 2020-02-26 | 
| 公开(公告)号: | CN111341404B | 公开(公告)日: | 2023-07-14 | 
| 发明(设计)人: | 刘文丽 | 申请(专利权)人: | 山东浪潮智慧医疗科技有限公司 | 
| 主分类号: | G16H10/60 | 分类号: | G16H10/60;G16H50/70;G06F16/33;G06F16/35;G06F40/30 | 
| 代理公司: | 济南信达专利事务所有限公司 37100 | 代理人: | 孙园园 | 
| 地址: | 250100 山东省济南市中国(山东)自由贸易试验*** | 国省代码: | 山东;37 | 
| 权利要求书: | 查看更多 | 说明书: | 查看更多 | 
| 摘要: | |||
| 搜索关键词: | 一种 基于 ernie 模型 电子 病历 数据 解析 方法 系统 | ||
本发明公开了一种基于ernie模型的电子病历数据组解析方法及系统,属于自然语言处理领域,本发明要解决的技术问题为如何克服电子病历数据组提取过程对关键字及规则的依赖而导致的提取规则反复更新、无法解析无关键字文本,采用的技术方案为:该方法是根据电子病历中每句话的含义进行数据组判别,克服电子病历解析过程中对关键字及规则的依赖;具体如下:S1、确定不同类别文本数据组:根据不同类型电子病历确定提取数据组;S2、提取及标记数据组样本:在确定不同类型文档所要提取的电子病历数据组后,采集并标注样本构建样本集;S3、基于ernie预训练模型的文本分类模型再训练;S4、提取数据组内容:使用步骤S3中训练的模型将相应数据组的内容提取出来。
技术领域
本发明涉及自然语言处理领域,具体地说是一种基于ernie模型的电子病历数据组解析方法及系统。
背景技术
电子病历是一个人在医疗机构历次就诊过程中产生和被记录的完整、详细的临床信息资源,是目前医疗数据主要的组成部分。但是目前电子病历多以文本形式为主,并不能直接用于分析研究。因此,如何将电子病历准确有效解析,并提取出数据组内容用于分析研究是医疗数据治理中亟待解决的问题。
目前,常用的数据组解析的方法是关键字提取、正则表达式匹配的方法,该方法具体如下:
首先,根据电子病历中的关键字,确定提取数据组的位置;
然后,使用正则表达式等规则匹配方式,将数据组内容提取出来。
例如,从入院记录文本中提取主诉信息:首先,根据“主诉”二字,确定入院记录文本中这组数据组的位置;然后,根据回车符、句号等分隔符将主诉内容提取出来。
虽然,通过这种方法可以快速的进行电子病历数据组解析,但由于电子病历为半结构化内容,大量段落为自由填写。且不同医院不同厂家的电子病历模板也不尽相同。因此,存在如下问题:
①、在确定关键字、制定提取规则时,需要根据不同厂家、不同类型的病历逐一制定,通用性较差;
②、在提取过程中,需要根据实际内容,反复打磨规则,准确率较低;
③、一旦系统出现升级或更换厂家,需重新确定关键字及提取规则,故通用性较差;
④、通过该方法无法解析文本中关键字缺失的情况,对关键字依赖性太强。
综上所述,如何克服电子病历数据组提取过程对关键字及规则的依赖而导致的提取规则反复更新、无法解析无关键字文本,有效降低解析成本是目前医疗数据治理中亟待解决的问题。
发明内容
本发明的技术任务是提供一种基于ernie模型的电子病历数据组解析方法及系统,来解如何克服电子病历数据组提取过程对关键字及规则的依赖而导致的提取规则反复更新、无法解析无关键字文本,有效降低解析成本的问题。
本发明的技术任务是按以下方式实现的,一种基ernie模型的电子病历数据组解析方法,该方法是根据电子病历中每句话的含义进行数据组判别,克服电子病历解析过程中对关键字及规则的依赖;具体如下:
S1、确定不同类别文本数据组:根据不同类型电子病历确定提取数据组,再根据不同厂家电子病历文本的情况进行数据组映射或微调;
S2、提取及标记数据组样本:在确定不同类型文档所要提取的电子病历数据组后,采集并标注样本构建样本集;
S3、基于ernie预训练模型的文本分类模型再训练:对样本集中M个子样本集分别进行模型训练;
S4、提取数据组内容:使用步骤S3中训练的模型将相应数据组的内容提取出来。
作为优选,所述步骤S2中提取及标记数据组样本具体如下:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山东浪潮智慧医疗科技有限公司,未经山东浪潮智慧医疗科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010118524.6/2.html,转载请声明来源钻瓜专利网。





