[发明专利]病历数据结构化分析处理方法有效

申请号：	201810594098.6	申请日：	2018-06-11
公开（公告）号：	CN109003677B	公开（公告）日：	2021-11-05
发明（设计）人：	张学工;林子坤;闾海荣	申请（专利权）人：	清华大学
主分类号：	G16H50/70	分类号：	G16H50/70;G06F40/289;G06F16/35;G06K9/62
代理公司：	北京鸿元知识产权代理有限公司 11327	代理人：	曹素云;董永辉
地址：	100084 北京市海淀区1***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	病历数据结构化分处理方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种病历数据结构化分析处理方法。该方法包括以下步骤：对原始病历文本进行预处理，得到诊断结果和不含诊断结果的文本；对不含诊断结果的文本进行关键词识别；提取关键词特征向量，进行机器学习、空间可视化与分类分析；根据分析结果计算不同关键词与诊断结果的相关程度。本发明方法能够最大限度地减小病历格式差异对于分析造成的影响，具有普遍适用性，能够广泛运用于各种格式病历的分析；能够在训练数据的引导下对于不同科室的病历进行分类分析；能够为今后病历结构化文本构建基础信息，及病历相关性分析提供参考。

技术领域

本发明涉及病历数据处理技术领域，特别是涉及一种病历数据结构化分析处理方法。更具体地涉及一种基于自然语言处理对病历数据结构化进行分析处理的方法。

背景技术

自然语言处理(NLP)是近年来机器学习领域的一大应用。它的研究目的是探索计算机如何对基于人类自然语言的文字和语音理解并运用。从事自然语言处理的研究目标，一是通过对人类理解语言的方式的分析，设计出一种类似人类的机器算法；二是使用近年来较为流行的深度学习工具，对自然语言的文本进行直接分析。

病历数据包含了丰富的文本与数字信息。在病历电子化潮流兴起的现在，对病历文本进行分析也成为了自然语言处理的新课题。无论是对于医疗数据归档工作，还是对于病人与医生的病情分析，病历结构化都将带来极大的便利。由于目前自然语言处理与医疗结合并不紧密，因此现有技术存在一定缺陷与不足：一是尽管目前病历已经尽量保证在输入时的格式化，但是不同医院之间的病历之间的格式还是存在差异，过往的陈旧病历格式更是千差万别，不利于医疗研究的进一步开展；二是目前对中文病历进行相关信息序列分析的技术较少，无法为医学研究人员探究发病规律提供便利。

发明内容

基于上述缺陷与不足，本发明的目的在于提供一种病历数据结构化分析处理方法，该方法能够最大限度地减小病历格式差异对于分析造成的影响，具有普遍适用性，能够广泛运用于各种格式病历的分析；能够为中文病历带来结构化分析的模块，能够在训练数据的引导下对于不同科室的病历进行分类分析。

上述目的是通过以下技术方案实现的：

一种病历数据结构化分析处理方法，包括以下步骤：

S1，对原始病历文本进行预处理，得到诊断结果和不含诊断结果的文本；

S2，对不含诊断结果的文本进行关键词识别；

S3，提取关键词特征向量，进行空间可视化与分类分析；

S4，根据分析结果计算不同关键词与诊断结果的相关程度。

优选地，在步骤S2中，在关键词识别前，还包括对不含诊断结果的文本进行时间信息提取并整理排序步骤。

优选地，步骤S2包括以下步骤：

S21，对不含诊断结果的文本进行时间信息提取，整理出按时间顺序排列的语句序列；

S22，对整理出的语句序列进行分词与词性判别，识别出关键词序列。