[发明专利]一种基于动态图序列的病历知识图谱构建方法及系统有效
申请号: | 201910489974.3 | 申请日: | 2019-06-06 |
公开(公告)号: | CN110189831B | 公开(公告)日: | 2021-03-02 |
发明(设计)人: | 王晓黎;梁佳音 | 申请(专利权)人: | 厦门大学 |
主分类号: | G16H50/70 | 分类号: | G16H50/70;G16H50/20;G16H70/20;G16H70/40 |
代理公司: | 北京高沃律师事务所 11569 | 代理人: | 程华 |
地址: | 361005 福建省厦*** | 国省代码: | 福建;35 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 动态 序列 病历 知识 图谱 构建 方法 系统 | ||
1.一种基于动态图序列的病历知识图谱构建方法,其特征在于,包括:
获取医疗病历数据;所述医疗病历数据包括电子病历以及病人的特征数据;
对所述医疗病历数据进行预处理,确定预处理后的医疗病历数据;
根据所述预处理后的医疗病历数据构建病例图;所述病例图为多个实体以及实体与实体之间的关系;所述实体包括药物、症状、疾病类别以及药物类别,所述实体与实体之间的关系包括“拥有属性”关系、“治疗”关系;采用关系挖掘算法对预处理后的医疗病历数据进行深入分析,得出实体关联标签,对于挖掘算法不能确定的实体关系,再进一步利用专家问答系统的众包原理对机器学习结果进行处理优化,从而得到准确的病例图;
关系挖掘算法使用FP-growth关联规则挖掘算法,挖掘医疗数据实体之间的关系;FP-Growth算法的具体实现过程:构建FP-tree,通过两次数据扫描,将预处理后的医疗病历数据的实体压缩到一个FP-tree树,该FP-tree类似于前缀树,相同前缀的路径共用;接着递归挖掘FP-tree,通过FP-tree找出每个实体的条件模式基,递归的挖掘条件FP-tree得到所有的频繁项集;
引入时间维度,利用所述病例图定义演化图序列模型,确定病人在不同时间点的医疗病历数据构建的病历知识图谱;构建病历知识图谱体现医疗数据的关键实体以及实体之间的关系,将医疗病历数据建模成知识图谱,通过相似图搜索得到相似病历,进而通过相似病历确定疾病的类别;当将病人的病历建模成动态图序列时,通过相似图序列搜索进行病人的健康情况预测;对于缺失疾病标签的医疗病历,通过病历知识图谱,运用机器学习方法对缺失疾病标签的医疗病历按照疾病描述进行分类,建立多个实体之间的对应关系;
所述根据所述预处理后的医疗病历数据构建病例图,具体包括:
利用逆向最大匹配分词算法,对所述预处理后的医疗病历数据进行文本分词处理,并结合医学词典确定分词结果;具体包括:
获取所述预处理后的医疗病历数据中的待切分字符串;
自所述待切分字符串的起始字符起,利用逆向最大匹配分词算法确定候选子串;
判断所述候选子串是否在所述医学词典中,得到第一判断结果;
若所述第一判断结果表示为所述候选子串在所述医学词典中,在所述待切分字符串中删除所述候选子串,确定删除后的待切分字符串,直到所述待切分字符串为空,确定分词结果;
若所述第一判断结果表示为所述候选子串不在所述医学词典中,删除所述候选子串的末尾的一个字,确定删除后的候选子串,并将所述删除后的候选子串重新与所述医学词典进行匹配,确定分词结果;
根据所述分词结果确定病例图中的实体节点;
对于未记录在所述医学词典内部的分词结果,利用医学的语义匹配技术进行处理,确定病例图中的实体节点;具体包括:
获取所述未记录在所述医学词典内部的分词结果与在所述医学词典内部的实体之间的相似度以及相关度;
利用医学的语义匹配技术,根据所述相似度以及所述相关度确定病例图中的实体节点;
语义匹配技术的处理过程:Sim(x,y)表示两个任意概念之间的相似度,Rel(x,y)表示两个任意概念之间的相关度,Sim(x,y)∈[0,1],当Sim(x,y)=1时,表示两个概念完全相似,Rel(x,y)∈[0,1],当Rel(x,y)=1时,表示两个概念完全相关,Rel(x,y)=0时,表示两个概念之间完全不相关;
Weight(i)表示连接节点x和y最短路径上边的权重值,n表示为x和y之间的边数,为可调节参数,将权重值置为1;
CProperty(x,y)表示概念x和y中共同的对象属性;DProperty(x,y)表示概念x和y中不同的对象属性;
对于未确定的分词结果,利用众包医学专家问答系统确定病例图中的实体节点。
2.根据权利要求1所述的基于动态图序列的病历知识图谱构建方法,其特征在于,所述引入时间维度,根据所述病例图定义演化图序列模型,确定病人在不同时间点的医疗病历数据构建的病历知识图谱,具体包括:
引入时间维度,根据公式定义演化图序列模型,确定病人在不同时间点的医疗病历数据构建的病历知识图谱;其中,是时间点j时的病例图,|Gi|表示图序列Gi中病例图的数量,i表示患者。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于厦门大学,未经厦门大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910489974.3/1.html,转载请声明来源钻瓜专利网。