[发明专利]病历数据结构化分析处理方法有效
申请号: | 201810594098.6 | 申请日: | 2018-06-11 |
公开(公告)号: | CN109003677B | 公开(公告)日: | 2021-11-05 |
发明(设计)人: | 张学工;林子坤;闾海荣 | 申请(专利权)人: | 清华大学 |
主分类号: | G16H50/70 | 分类号: | G16H50/70;G06F40/289;G06F16/35;G06K9/62 |
代理公司: | 北京鸿元知识产权代理有限公司 11327 | 代理人: | 曹素云;董永辉 |
地址: | 100084 北京市海淀区1*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 病历 数据结构 化分 处理 方法 | ||
本发明公开了一种病历数据结构化分析处理方法。该方法包括以下步骤:对原始病历文本进行预处理,得到诊断结果和不含诊断结果的文本;对不含诊断结果的文本进行关键词识别;提取关键词特征向量,进行机器学习、空间可视化与分类分析;根据分析结果计算不同关键词与诊断结果的相关程度。本发明方法能够最大限度地减小病历格式差异对于分析造成的影响,具有普遍适用性,能够广泛运用于各种格式病历的分析;能够在训练数据的引导下对于不同科室的病历进行分类分析;能够为今后病历结构化文本构建基础信息,及病历相关性分析提供参考。
技术领域
本发明涉及病历数据处理技术领域,特别是涉及一种病历数据结构化分析处理方法。更具体地涉及一种基于自然语言处理对病历数据结构化进行分析处理的方法。
背景技术
自然语言处理(NLP)是近年来机器学习领域的一大应用。它的研究目的是探索计算机如何对基于人类自然语言的文字和语音理解并运用。从事自然语言处理的研究目标,一是通过对人类理解语言的方式的分析,设计出一种类似人类的机器算法;二是使用近年来较为流行的深度学习工具,对自然语言的文本进行直接分析。
病历数据包含了丰富的文本与数字信息。在病历电子化潮流兴起的现在,对病历文本进行分析也成为了自然语言处理的新课题。无论是对于医疗数据归档工作,还是对于病人与医生的病情分析,病历结构化都将带来极大的便利。由于目前自然语言处理与医疗结合并不紧密,因此现有技术存在一定缺陷与不足:一是尽管目前病历已经尽量保证在输入时的格式化,但是不同医院之间的病历之间的格式还是存在差异,过往的陈旧病历格式更是千差万别,不利于医疗研究的进一步开展;二是目前对中文病历进行相关信息序列分析的技术较少,无法为医学研究人员探究发病规律提供便利。
发明内容
基于上述缺陷与不足,本发明的目的在于提供一种病历数据结构化分析处理方法,该方法能够最大限度地减小病历格式差异对于分析造成的影响,具有普遍适用性,能够广泛运用于各种格式病历的分析;能够为中文病历带来结构化分析的模块,能够在训练数据的引导下对于不同科室的病历进行分类分析。
上述目的是通过以下技术方案实现的:
一种病历数据结构化分析处理方法,包括以下步骤:
S1,对原始病历文本进行预处理,得到诊断结果和不含诊断结果的文本;
S2,对不含诊断结果的文本进行关键词识别;
S3,提取关键词特征向量,进行空间可视化与分类分析;
S4,根据分析结果计算不同关键词与诊断结果的相关程度。
优选地,在步骤S2中,在关键词识别前,还包括对不含诊断结果的文本进行时间信息提取并整理排序步骤。
优选地,步骤S2包括以下步骤:
S21,对不含诊断结果的文本进行时间信息提取,整理出按时间顺序排列的语句序列;
S22,对整理出的语句序列进行分词与词性判别,识别出关键词序列。
优选地,在步骤S21中,所述语句序列是通过将提取的时间信息及其作用范围内的语句信息进行组合处理,并按照时间顺序进行排序整理得到。
更优选地,每个时间信息的作用范围为自该时间信息结束位置开始,至下一时间信息开始位置之前为止。
优选地,还包括步骤S6,对步骤S21整理出的语句序列进行分词判别后,使用LDA(Latent Dirichlet Allocation)主题模型提取并分析文本中主题关键词,并对主题关键词进行加权计数,进行空间可视化与分类分析。
优选地,在步骤S22中的所述关键词序列为名词序列。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学,未经清华大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810594098.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种牙齿美学设计方法与装置
- 下一篇:一种仿真文本病历的生成方法及系统