[发明专利]病历文本数据结构化的文本分词解析方法及系统在审
申请号: | 202110223444.1 | 申请日: | 2021-03-01 |
公开(公告)号: | CN112949303A | 公开(公告)日: | 2021-06-11 |
发明(设计)人: | 钟信真;左霖 | 申请(专利权)人: | 山东健康医疗大数据有限公司 |
主分类号: | G06F40/289 | 分类号: | G06F40/289;G06F40/216;G06F40/242;G16H10/60 |
代理公司: | 济南信达专利事务所有限公司 37100 | 代理人: | 潘悦梅 |
地址: | 250117 山东省济南市槐*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 病历 文本 数据结构 分词 解析 方法 系统 | ||
1.病历文本数据结构化的文本分词解析方法,其特征在于包括如下步骤:
基于医疗文本数据构建医学词库,所述医学词库包括医学词语、权重和词性,所述词性包括词语传统词性和词语医学词性;
基于词库词典生成待分词医疗文本数据的所有成词,并基于上述所有成词构建有向无环图;
基于上述医学词库和有向无环图,通过动态规划查找最大归零路径查找语句词频的最大切分组合,得到带有前后文顺序和词性的词语集合;
基于词语所处位置、词语原本词性以及词语医学词性三个维度构建三元结构数据以及三元结构数据之间的映射关系组成三元关系模型,并通过上述三元关系模型对上述词语集合进行解析,得到三元映射关系数据组;
对上述三元映射关系数据组进行标准化处理,得二元映射关系数据组,所述二元映射关系数据组匹配标准医疗词典。
2.根据权利要求1所述的病历文本数据结构化的文本分词解析方法,其特征在于所述词语传统词性包括名词、动词、副词和标点;
所述词语医学词性包括诊断、疾病、药品、化疗方案、放疗方案以及称谓。
3.根据权利要求1或2所述的病历文本数据结构化的文本分词解析方法,其特征在于基于医疗文本数据构建医学词库,包括如下步骤:
获取医疗文本数据,通过词库对医疗文本数据进行分词,得到分词结果数据集;
通过TF-IDF算法模型对分词结果数据集进行关键医学词汇抽词,得到抽词结果数据集;
添加医学词汇相关的权重和词性,得到包括医学词语、权重和词性的医学词库。
4.根据权利要求3所述的病历文本数据结构化的文本分词解析方法,其特征在于对抽词结果数据集中连续多个单字进行医学词汇组合拼接后,添加医学词汇相关的权重和词性,得到包括医学词语、权重和词性的医学词库。
5.根据权利要求3所述的病历文本数据结构化的文本分词解析方法,其特征在于对于医学词库中未登录的医疗文本数据,通过基于汉字成词的HMM模型进行分词。
6.病历文本数据结构化的文本分词解析系统,其特征在于通过如权利要求1-5任一项所述的病历文本数据结构化的文本分词解析方法对病历文本数据进行结构化的分词和解析,所述系统包括:
医学词库构建模块,所述医学词库构建模块用于基于医疗文本数据构建医学词库,所述医学词库包括医学词语、权重和词性,所述词性包括词语传统词性和词语医学词性;
分词模型构建模块,所述分词模型构建模块用于基于词库词典生成待分词医疗文本数据的所有成词,并基于上述所有成词构建有向无环图;
分词模块,所述分词模块用于基于上述医学词库和有向无环图,通过动态规划查找最大归零路径查找语句词频的最大切分组合,得到带有前后文顺序和词性的词语集合;
三元解析模块,所述三元解析模块用于基于词语所处位置、词语原本词性以及词语医学词性三个维度构建三元结构数据以及三元结构数据之间的映射关系组成三元关系模型,并通过上述三元关系模型对上述词语集合进行解析,得到三元映射关系数据组;
标准化模块,所述标准化模块用于对上述三元映射关系数据组进行标准化处理,得二元映射关系数据组,所述二元映射关系数据组匹配标准医疗词典。
7.根据权利要求6所述的病历文本数据结构化的文本分词解析系统,其特征在于所述词语传统词性包括名词、动词、副词和标点;
所述词语医学词性包括诊断、疾病、药品、化疗方案、放疗方案以及称谓。
8.根据权利要求7所述的病历文本数据结构化的文本分词解析系统,其特征在于医学词库构建模块用于通过如下步骤基于医疗文本数据构建医学词库:
获取医疗文本数据,通过词库对医疗文本数据进行分词,得到分词结果数据集;
通过TF-IDF算法模型对分词结果数据集进行关键医学词汇抽词,得到抽词结果数据集;
对抽词结果数据集中连续多个单字进行医学词汇组合拼接;
添加医学词汇相关的权重和词性,得到包括医学词语、权重和词性的医学词库。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山东健康医疗大数据有限公司,未经山东健康医疗大数据有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110223444.1/1.html,转载请声明来源钻瓜专利网。