[发明专利]疾病名称标准化方法及装置在审
| 申请号: | 202010401370.1 | 申请日: | 2020-05-13 |
| 公开(公告)号: | CN111696635A | 公开(公告)日: | 2020-09-22 |
| 发明(设计)人: | 姚海申;蒋雪涵;徐卓扬;孙行智;胡岗 | 申请(专利权)人: | 平安科技(深圳)有限公司 |
| 主分类号: | G16H10/60 | 分类号: | G16H10/60;G06F40/216;G06F40/289;G06F40/30 |
| 代理公司: | 广州三环专利商标代理有限公司 44202 | 代理人: | 熊永强 |
| 地址: | 518000 广东省深圳市福田区福*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 疾病 名称 标准化 方法 装置 | ||
1.一种疾病名称标准化方法,其特征在于,应用于服务器,包括:
获取目标词典、当前诊断文本和预设ICD标准疾病名称集,所述预设ICD标准疾病名称集包括多个预设ICD标准疾病名称;
基于所述目标词典,对所述当前诊断文本进行切词操作,得到所述当前诊断文本中包含的待标准化疾病名称;
基于所述预设ICD标准疾病名称集,构建目标字典树;
基于所述目标字典树,将所述待标准化疾病名称与所述预设ICD标准疾病名称集中的所述多个预设ICD标准疾病名称进行匹配,得到多个第一匹配度;
当所述多个第一匹配度中存在满足预设条件的目标第一匹配度时,获取所述目标第一匹配度对应的目标预设ICD标准疾病名称,将所述目标预设ICD标准疾病名称确定为所述待标准化疾病名称的转换结果。
2.根据权利要求1所述的方法,其特征在于,在所述获取目标词典之前,所述方法还包括:
从历史病情案例库中提取历史诊断文本信息;
对所述历史诊断文本信息进行数据清洗,得到历史疾病名称集;
将所述历史疾病名称集与所述预设ICD标准疾病名称集进行数据处理,得到所述目标词典。
3.根据权利要求2所述的方法,其特征在于,所述对所述历史诊断文本信息进行数据清洗,得到历史疾病名称集,包括:
获取针对多个预设疾病名称的多个预设正则表达式,其中,每一预设疾病名称对应一个预设正则表达式;
将所述历史诊断文本信息分别与所述多个预设正则表达式中的每一预设正则表达式进行匹配,得到多个第二匹配度,每一所述预设正则表达式对应一个第二匹配度;
确定所述多个第二匹配度中超过第一预设阈值的至少一个第二匹配度对应的至少一个预设疾病名称,并将所述至少一个预设疾病名称作为所述疾病名称集。
4.根据权利要求2或3所述的方法,其特征在于,所述将所述历史疾病名称集与所述预设ICD标准疾病名称集进行数据处理,得到目标词典,包括:
将所述疾病名称集与所述预设ICD标准疾病名称集进行合并,得到第一词典,所述第一词典中包括多个第一疾病名称;
对所述多个第一疾病名称进行去重,得到所述目标词典。
5.根据权利要求1所述的方法,其特征在于,所述基于所述预设ICD标准疾病名称集,构建目标字典树,包括:
基于所述预设ICD标准疾病名称集,确定所述预设ICD标准疾病名称集中多个预设ICD标准疾病名称中每一预设ICD标准疾病名称对应的第一序列,得到多个第一序列,其中,每一第一序列中包括至少一个字符;
获取预设字典树,所述预设字典树中包括多个节点;
遍历所述多个第一序列,将每一所述第一序列与所述预设字典树对应的多个节点进行匹配,得到多个第三匹配度;
计算所述多个第三匹配度的均值;
若所述均值大于第二预设阈值,则不更新所述预设字典树,将所述预设字典树作为所述目标字典树;
若所述均值小于或等于所述第二预设阈值,则更新所述预设字典树,得到所述目标字典树。
6.根据权利要求5所述的方法,其特征在于,所述更新所述预设字典树,得到目标字典树,包括:
基于所述预设字典树,确定所述预设字典树中所述多个节点对应的初始映射;
若第一序列i中对应有字符i不存在于所述初始映射中,则重新添加一个映射i,在所述映射i中保存所述字符i,其中,所述第一序列i为所述多个第一序列中任意一个,所述字符i为所述第一序列中任意一个字符,i为正整数;
基于所述映射i,更新所述预设字典树为所述目标字典树。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安科技(深圳)有限公司,未经平安科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010401370.1/1.html,转载请声明来源钻瓜专利网。





