[发明专利]疾病数据映射方法、装置、计算机设备和存储介质在审
申请号: | 201811051911.1 | 申请日: | 2018-09-10 |
公开(公告)号: | CN109448860A | 公开(公告)日: | 2019-03-08 |
发明(设计)人: | 胡帆;胡雪莹 | 申请(专利权)人: | 平安科技(深圳)有限公司 |
主分类号: | G16H70/00 | 分类号: | G16H70/00;G16H10/60;G06F16/36;G06F17/27;G06K9/62 |
代理公司: | 广州华进联合专利商标代理有限公司 44224 | 代理人: | 王宁 |
地址: | 518033 广东省深圳市福田区福*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 子节点 疾病数据 分词结果 映射 匹配 根节点 词语 计算机设备 存储介质 匹配结果 匹配路径 人工智能技术 获取目标 匹配树 分词 森林 申请 | ||
本申请涉及人工智能技术,提供一种疾病数据映射方法、装置、计算机设备和存储介质。方法包括:获取待映射的疾病数据,对待映射的疾病数据进行分词,得到分词结果;将分词结果中的词语与匹配森林中每一个匹配树的根节点进行匹配,根据根节点匹配结果选取目标根节点作为当前节点;当当前节点存在对应的下一级子节点时,将分词结果中的词语与下一级子节点进行匹配;根据子节点匹配结果选取目标子节点作为当前节点,并进入当当前节点存在对应的下一级子节点时,将分词结果中的词语与下一级子节点进行匹配的步骤;当当前节点不存在对应的下一级子节点时,确定当前节点所在的匹配路径,根据匹配路径获取目标疾病数据。
技术领域
本申请涉及疾病数据医疗技术领域,特别是涉及一种疾病数据映射方法、装置、计算机设备和存储介质。
背景技术
由于医生习惯或区域性特点导致医用术语不规范,疾病诊断名称差异性大,海量医疗数据信息无法互联互通,形成数据孤岛,无法进行有价值的医疗大数据分析研究。为了解决这一问题,需要将医生的疾病诊断数据映射为标准化的疾病名称。
传统技术中,医院中通常由专门的人负责对这些疾病名称数据进行人工映射,这种方式不仅效率低下,而且准确性并不高。
发明内容
基于此,有必要针对上述技术问题,提供一种能够提高疾病数据映射效率及准确率的疾病数据映射方法、装置、计算机设备和存储介质。
一种疾病数据映射方法,所述方法包括:
获取待映射的疾病数据,对所述待映射的疾病数据进行分词,得到分词结果;
将所述分词结果中的词语与匹配森林中每一个匹配树的根节点进行匹配,根据根节点匹配结果选取目标根节点作为当前节点;
当所述当前节点存在对应的下一级子节点时,将所述分词结果中的词语与所述下一级子节点进行匹配;
根据子节点匹配结果选取目标子节点作为当前节点,并进入当所述当前节点存在对应的下一级子节点时,将所述分词结果中的词语与所述下一级子节点进行匹配的步骤;
当所述当前节点不存在对应的下一级子节点时,确定所述当前节点所在的匹配路径,根据所述匹配路径获取目标疾病数据。
在其中一个实施例中,所述将所述分词结果中的词语与匹配森林中每一个匹配树的根节点进行匹配之前,包括:
对预先确定的基表库中每一个疾病数据进行分词,根据每一个所述疾病数据对应的分词结果得到词语集合,并获取所述词语集合中每一个词语所属的词语类型;
从所述词语集合中提取词语类型为第一预设类型的多个词语分别作为匹配树的根节点;
根据所述根节点生成多棵匹配树,得到匹配森林。
在其中一个实施例中,根据所述根节点生成多个匹配树,得到匹配森林,包括:
从所述词语集合中提取词语类型为第二预设类型的词语,得到第一子集合;
从所述第一子集合中提取所述根节点对应的共现词,得到所述匹配树对应的当前叶子节点集合;
从所述词语集合中提取词语类型为第三预设类型的词语,得到第二子集合;
从所述第二子集合中提取当前叶子节点集合的共现词,以更新所述匹配树对应的当前叶子节点集合;
从所述词语集合中提取词语类型为第四预设类型的词语,得到第三子集合;
从所述第三子集合中提取更新后的当前叶子节点集合的共现词,根据更新后的当前叶子节点集合的共现词得到所述匹配树对应的目标叶子节点集合,生成匹配树。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安科技(深圳)有限公司,未经平安科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811051911.1/2.html,转载请声明来源钻瓜专利网。