[发明专利]中文电子病历的分词方法及系统在审
| 申请号: | 202110303360.9 | 申请日: | 2021-03-22 |
| 公开(公告)号: | CN113095074A | 公开(公告)日: | 2021-07-09 |
| 发明(设计)人: | 杜金莲;密伟;苏航;金雪云 | 申请(专利权)人: | 北京工业大学 |
| 主分类号: | G06F40/289 | 分类号: | G06F40/289;G06F40/284;G06F40/237;G06N3/04;G06N3/08 |
| 代理公司: | 北京思海天达知识产权代理有限公司 11203 | 代理人: | 沈波 |
| 地址: | 100124 *** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 中文 电子 病历 分词 方法 系统 | ||
1.中文电子病历的分词方法,其特征在于:该方法的主体为基于GNN-BiLSTM-CRF的中文电子病历分词模型,包含步骤如下:
步骤1,数据集的构建及数据的处理;
将来源于合作医院的中文电子病历数据进行人工标注,完成中文电子病历分词数据集的构建;将构建好的数据集中的数据转为CoNLL格式;
步骤2,训练中文电子病历分词模型;
步骤2.1,提取步骤1中处理完毕后的部分数据,生成训练集,将训练集和词典输入到嵌入单元中,使用Word2vec进行嵌入将字和词转化为对应的向量输入到模型的下一层图神经网络GNN单元进行计算;
步骤2.2,通过嵌入后的字和词的向量来构建图,其中字作为图中的节点,词作为图中的边,然后通过基于多头注意力机制和门控机制的迭代聚合更新这种信息传递机制来学习医学领域术语构词规律等局部特征;每次迭代中图的节点特征和边的特征都会得到更新,将其最后一次迭代后的图中每个节点的特征向量输入到模型的下一层;
步骤2.3,将图中的每个节点特征输入到双向长短期记忆网络LSTM单元中,以对每个字的上下文信息进行建模捕获序列信息和远程依赖特征来挖掘中文电子病历语料文本信息特征;
步骤2.4,对LSTM的输出使用条件随机场CRF单元来联合解码预测最佳标签序列,最终输出模型对每个字的预测标签;
步骤2.5,使用负对数似然函数作为损失函数来评价模型的预测值和真实值的差异程度,通过最小化损失函数来进行训练,得到中文电子病历分词模型。
2.利用权利要求1所述方法设计的中文电子病历的分词系统,其特征在于:基于该模型构建了基于B/S架构的中文电子病历分词在线图形化系统,该系统的主要功能模块如下:
前端界面模块,可以通过浏览器访问本系统的前端界面;通过界面中对应的输入文本框或上传文件功能将原始的中文电子病历的数据进行输入;通过界面中的分词功能将输入数据传递到系统的数据处理模块进行分词预处理;在界面中显示分词后的结果并提供下载功能;
数据处理模块,将前端输入的数据转成符合中文电子病历分词模块所需的输入的CoNLL格式,输入到中文电子病历分词模块;按照中文电子病历分词模块输出的每个字的预测标签对原始输入的中文电子病历文本进行分词,并将分词结果返回到前端界面;
中文电子病历分词模块,将数据处理模块处理后的数据输入到训练好的中文电子病历分词模型中,并依次通过其中的嵌入单元、图神经网络单元、双向长短期记忆网络单元、条件随机场单元进行运算,最终输出每个字的预测标签,然后将结果返回到数据处理模块。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京工业大学,未经北京工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110303360.9/1.html,转载请声明来源钻瓜专利网。





