[发明专利]一种基于深度学习的相似病历查找方法与系统有效
申请号: | 202010412253.5 | 申请日: | 2020-05-15 |
公开(公告)号: | CN111613339B | 公开(公告)日: | 2021-07-09 |
发明(设计)人: | 崔立真;姜涛;鹿旭东;郭伟 | 申请(专利权)人: | 山东大学 |
主分类号: | G16H50/70 | 分类号: | G16H50/70;G06F16/36;G06N3/08 |
代理公司: | 济南圣达知识产权代理有限公司 37221 | 代理人: | 董雪 |
地址: | 250100 山*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 深度 学习 相似 病历 查找 方法 系统 | ||
本发明公开了一种基于深度学习的相似病历查找方法及系统,包括:构建知识图谱;提取病历样本信息的主题作为病历的特征信息,并存储至数据库;对于输入的电子病历信息,提取病历特征信息;在所述知识图谱中获取包含与该电子病历相关的医疗常识的子图向量;将当前病历的特征信息、子图向量和病历信息样本数据库中病历的特征信息输入到训练好的神经网络模型中,计算当前病历和数据库中每个病历的相似度;按照相似度的大小,输出设定数量的相似病例。本发明有益效果:使用医疗领域知识图谱增强的siamese‑transformer深度学习神经网络模型自动提取病历特征,将病历映射到同一个向量空间,在这个空间中使用相似度计算,计算出两个病历的相似度。
技术领域
本发明涉及相似病例查找技术领域,尤其涉及一种基于深度学习的相似病历查找方法与系统。
背景技术
本部分的陈述仅仅是提供了与本发明相关的背景技术信息,不必然构成在先技术。
越来越多的研究者开始用自然语言处理(Natural Language Processing,简称NLP)领域的技术去解决医疗领域的问题。而在NLP领域中,文本相似性是一个比较基础的问题,目前计算文本之间的相似度这个问题仍然存在着难点。因为衡量两个句子的之间的相似度,是通过语义级别,而语义属于认知层面,这给研究带来了很大的难度。因为目前的联结主义,仅仅能解决语义表示,无法学习逻辑推理。其次,理解一句话或者一段话的语义,不是单纯靠归纳总结能力,还需要借助外部知识,就是说这句话表达了什么样的事件,这个事件可能会关联到很多实体,关系,路径。两个句子之间的关系,路径的交集一定程度上代表了语义的重合度。
现有技术中对于相似病历的检索,通常采用在一个或多个字段上进行匹配检索来实现的;而在医疗问题中去计算医疗文本相似性,比在非特定领域中,有更大的难度。这是因为医疗的专业术语是非常多的,而普通的词嵌入向量中很难学到医学的信息。这就导致了相似检索结果的不完全和不准确,影响检索效率。
发明内容
本发明目的是为了解决现有技术的不足,提出了一种基于深度学习的相似病历查找方法与系统,使用医疗领域知识图谱增强的深度学习模型自动提取病历特征,将病历映射到同一个向量空间,在这个空间中使用相似度计算,计算出两个病历的相似度;能够准确查找出相似病例。
在一些实施方式中,采用如下技术方案:
一种基于深度学习的相似病历查找方法,包括:
构建能够表示医学概念之间关系的知识图谱;
对获取的病历样本信息进行预处理后,提取病历样本信息的主题作为病历的特征信息,并存储至数据库;
对于输入的电子病历信息,提取病历特征信息;在所述知识图谱中获取包含与该电子病历相关的医疗常识的子图向量;
将当前病历的特征信息、子图向量和病历信息样本数据库中病历的特征信息输入到训练好的神经网络模型中,计算当前病历和数据库中每个病历的相似度;按照相似度的大小,输出设定数量的相似病例。
在另一些实施方式中,采用如下技术方案:
一种基于深度学习的相似病历查找系统,包括:
用于构建能够表示医学概念之间关系的知识图谱的装置;
用于对获取的病历样本信息进行预处理后,提取病历样本信息的主题作为病历的特征信息,并存储至数据库的装置;
用于对于输入的电子病历信息,提取病历特征信息;在所述知识图谱中获取包含与该电子病历相关的医疗常识的子图向量的装置;
用于将当前病历的特征信息、子图向量和病历信息样本数据库中病历的特征信息输入到训练好的神经网络模型中,计算当前病历和数据库中每个病历的相似度;按照相似度的大小,输出设定数量的相似病例的装置。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山东大学,未经山东大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010412253.5/2.html,转载请声明来源钻瓜专利网。