[发明专利]病历文本数据结构化的文本分词解析方法及系统在审
申请号: | 202110223444.1 | 申请日: | 2021-03-01 |
公开(公告)号: | CN112949303A | 公开(公告)日: | 2021-06-11 |
发明(设计)人: | 钟信真;左霖 | 申请(专利权)人: | 山东健康医疗大数据有限公司 |
主分类号: | G06F40/289 | 分类号: | G06F40/289;G06F40/216;G06F40/242;G16H10/60 |
代理公司: | 济南信达专利事务所有限公司 37100 | 代理人: | 潘悦梅 |
地址: | 250117 山东省济南市槐*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 病历 文本 数据结构 分词 解析 方法 系统 | ||
本发明公开了病历文本数据结构化的文本分词解析方法及系统,属于病历数据挖掘技术领域,要解决的技术问题为如何解决传统病历数据中存在的挖掘效率低、精确性差以及不满足病例实体映射关系的缺陷。包括如下步骤:基于医疗文本数据构建医学词库;基于词库词典生成待分词医疗文本数据的所有成词,并基于上述所有成词构建有向无环图;基于上述医学词库和有向无环图,通过动态规划查找最大归零路径查找语句词频的最大切分组合,得到带有前后文顺序和词性的词语集合;通过三元关系模型对上述词语集合进行解析,得到三元映射关系数据组;对上述三元映射关系数据组进行标准化处理,得二元映射关系数据组。
技术领域
本发明涉及病历数据挖掘技术领域,具体地说是病历文本数据结构化的文本分词解析方法及系统。
背景技术
医学领域数据具有其特殊性,主要包括诊断、疾病、药物、治疗等类别,癌症专病数据在这些类别基础上,更加关注于和疾病相关的并发症数据、病理及免疫组化数据,和治疗相关的手术、放疗、化疗、靶向治疗、中医治疗数据,和病人相关的家族史、疾病史数据等,这些数据大多为非结构化或者半结构化的文本数据存储于患者病历数据中。
数据挖掘主要是利用算法进行相关信息抽取,将非结构化的文本数据转化为计算机可以识别、处理的结构化数据。
传统专病数据挖掘,由于数据源少、数据量小的原因,一般由人为手工识别处理,存在效率低、不满足组大数据情况下专病数据治理挖掘的缺点。
基于上述分析,如何解决传统病历数据中存在的挖掘效率低、精确性差以及不满足病例实体映射关系的缺陷,是需要解决的技术问题。
发明内容
本发明的技术任务是针对以上不足,提供病历文本数据结构化的文本分词解析方法及系统,来解决如何解决传统病历数据中存在的挖掘效率低、精确性差以及不满足病例实体映射关系的缺陷的技术问题。
第一方面,本发明提供一种病历文本数据结构化的文本分词解析方法,包括如下步骤:
基于医疗文本数据构建医学词库,所述医学词库包括医学词语、权重和词性,所述词性包括词语传统词性和词语医学词性;
基于词库词典生成待分词医疗文本数据的所有成词,并基于上述所有成词构建有向无环图;
基于上述医学词库和有向无环图,通过动态规划查找最大归零路径查找语句词频的最大切分组合,得到带有前后文顺序和词性的词语集合;
基于词语所处位置、词语原本词性以及词语医学词性三个维度构建三元结构数据以及三元结构数据之间的映射关系组成三元关系模型,并通过上述三元关系模型对上述词语集合进行解析,得到三元映射关系数据组;
对上述三元映射关系数据组进行标准化处理,得二元映射关系数据组,所述二元映射关系数据组匹配标准医疗词典。
作为优选,所述词语传统词性包括名词、动词、副词和标点;
所述词语医学词性包括诊断、疾病、药品、化疗方案、放疗方案以及称谓。
作为优选,基于医疗文本数据构建医学词库,包括如下步骤:
获取医疗文本数据,通过词库对医疗文本数据进行分词,得到分词结果数据集;
通过TF-IDF算法模型对分词结果数据集进行关键医学词汇抽词,得到抽词结果数据集;
添加医学词汇相关的权重和词性,得到包括医学词语、权重和词性的医学词库。
作为优选,对抽词结果数据集中连续多个单字进行医学词汇组合拼接后,添加医学词汇相关的权重和词性,得到包括医学词语、权重和词性的医学词库。
作为优选,对于医学词库中未登录的医疗文本数据,通过基于汉字成词的HMM模型进行分词。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山东健康医疗大数据有限公司,未经山东健康医疗大数据有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110223444.1/2.html,转载请声明来源钻瓜专利网。