[发明专利]医疗字段映射校验方法及装置有效
申请号: | 201611027722.1 | 申请日: | 2016-11-21 |
公开(公告)号: | CN108091372B | 公开(公告)日: | 2021-06-18 |
发明(设计)人: | 郑号 | 申请(专利权)人: | 医渡云(北京)技术有限公司 |
主分类号: | G16H10/60 | 分类号: | G16H10/60;G06F40/289;G06F16/33;G06F16/36 |
代理公司: | 北京律智知识产权代理有限公司 11438 | 代理人: | 阚梓瑄;王卫忠 |
地址: | 100191 北京*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 医疗 字段 映射 校验 方法 装置 | ||
本公开提供一种医疗字段映射校验方法及装置,所述医疗字段映射校验方法包括:接收待校验字段,待校验字段具有字段名称且包括字段内容;对待校验字段的字段内容进行分词得到多个第一切分词;将各第一切分词分别表征为第一词向量;计算第一词向量的平均值得到待校验字段的中心向量;分别计算待校验字段的中心向量与多个参照字段的中心向量的相似度;结合相似度从多个参照字段中确定目标参照字段;其中,目标参照字段为与待校验字段的相似程度最高的参照字段;比较待校验字段与目标参照字段的名称,并根据比较结果确认待校验字段的字段内容与字段名称的映射关系是否正确。本公开能够提高校验结果的准确性。
技术领域
本公开涉及医疗大数据技术领域,具体而言,涉及一种医疗字段映射校验方法及医疗字段映射校验装置。
背景技术
目前,在医疗活动中,会产生大量的医疗数据,这些医疗数据通常包括包括大量的字段,这些字段一般包含患者的基本信息、就诊信息、诊断记录、检查记录和病理记录等。为了有效的管理这些医疗数据,需要把各家医院不同的医疗数据映射到统一的数据平台上,使医疗数据中的字段的字段内容和字段名称按照一定映射关系对应。
但由于各家医院的医疗数据在数据格式和数据内容上不尽相同,使得医疗数据中的字段映射过程可能出现错误,导致数据平台上出现字段内容和字段名称的映射错误。因此,需要对医疗字段映射进行校验,即判断字段名称与字段内容是否一致。
现有技术中,对医疗字段映射的校验主要根据字段长度和字段格式判断出相似的字段,然后根据相似字段的字段内容和字段名称是否相同检验映射结果的正确与否。但由于很多不同的文本在字段长度、字段格式上并没有显著差别,导致难以准确发现字段内容和字段名称的映射关系错误的,即医疗字段映射错误,因而校验结果的准确性有待提高。
需要说明的是,在上述背景技术部分公开的信息仅用于加强对本公开的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。
发明内容
本公开的目的在于提供一种医疗字段映射校验方法及医疗字段映射校验装置,进而至少在一定程度上克服由于相关技术的限制和缺陷而导致的一个或者多个问题。
根据本公开的一个方面,一种医疗字段映射校验方法,包括:
接收待校验字段,所述待校验字段具有字段名称且包括字段内容;
对所述待校验字段的字段内容进行分词得到多个第一切分词;
将各所述第一切分词分别表征为第一词向量;
计算所述第一词向量的平均值得到所述待校验字段的中心向量;
分别计算所述待校验字段的中心向量与多个参照字段的中心向量的相似度;
结合所述相似度从所述多个参照字段中确定目标参照字段;其中,所述目标参照字段为与所述待校验字段的相似程度最高的参照字段;
比较所述待校验字段与所述目标参照字段的名称,并根据比较结果确认所述待校验字段的字段内容与字段名称的映射关系是否正确。
在本公开的一种示例性实施例中,还包括计算所述参照字段的中心向量的步骤,包括:
接收所述参照字段,所述参照字段具有字段名称且包括字段内容;
对所述参照字段的字段内容进行分词得到多个第二切分词;
将各所述第二切分词分别表征为第二词向量;
计算所述第二词向量的平均值得到所述参照字段的中心向量。
在本公开的一种示例性实施例中,所述将各所述第二切分词分别表征为第二词向量包括:
对至少包含所述多个参照字段的参照语料库进行分词得到多个第三切分词;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于医渡云(北京)技术有限公司,未经医渡云(北京)技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201611027722.1/2.html,转载请声明来源钻瓜专利网。