[发明专利]医疗字段映射校验方法及装置有效
申请号: | 201611027722.1 | 申请日: | 2016-11-21 |
公开(公告)号: | CN108091372B | 公开(公告)日: | 2021-06-18 |
发明(设计)人: | 郑号 | 申请(专利权)人: | 医渡云(北京)技术有限公司 |
主分类号: | G16H10/60 | 分类号: | G16H10/60;G06F40/289;G06F16/33;G06F16/36 |
代理公司: | 北京律智知识产权代理有限公司 11438 | 代理人: | 阚梓瑄;王卫忠 |
地址: | 100191 北京*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 医疗 字段 映射 校验 方法 装置 | ||
1.一种医疗字段映射校验方法,其特征在于,包括:
接收待校验字段,所述待校验字段具有字段名称且包括字段内容;
对所述待校验字段的字段内容进行分词得到多个第一切分词;
将各所述第一切分词分别表征为第一词向量;
计算所述第一词向量的平均值得到所述待校验字段的中心向量;
分别计算所述待校验字段的中心向量与多个参照字段的中心向量的相似度;
结合所述相似度从所述多个参照字段中确定目标参照字段;其中,所述目标参照字段为与所述待校验字段的相似程度最高的参照字段;
比较所述待校验字段与所述目标参照字段的名称,并根据比较结果确认所述待校验字段的字段内容与字段名称的映射关系是否正确。
2.根据权利要求1所述的医疗字段映射校验方法,其特征在于,还包括计算所述参照字段的中心向量的步骤,包括:
接收所述参照字段,所述参照字段具有字段名称且包括字段内容;
对所述参照字段的字段内容进行分词得到多个第二切分词;
将各所述第二切分词分别表征为第二词向量;
计算所述第二词向量的平均值得到所述参照字段的中心向量。
3.根据权利要求2所述的医疗字段映射校验方法,其特征在于,所述将各所述第二切分词分别表征为第二词向量包括:
对至少包含所述多个参照字段的参照语料库进行分词得到多个第三切分词;
将各所述第三切分词分别表征为第三词向量,并构建各所述第三切分词与所述第三词向量之间的映射关系;
在所述第三切分词与第三词向量之间的映射关系中查找与所述第二切分词相同的所述第三切分词对应的所述第三词向量作为所述第二切分词的所述第二词向量。
4.根据权利要求3所述的医疗字段映射校验方法,其特征在于,所述将各所述第一切分词分别表征为第一词向量包括:
在所述第三切分词与第三词向量之间的映射关系中查找与所述第一切分词相同的所述第三切分词对应的所述第三词向量作为所述第一切分词的所述第一词向量。
5.根据权利要求4所述的医疗字段映射校验方法,其特征在于,所述结合所述相似度从所述多个参照字段中确定目标参照字段包括:
在所述多个参照字段中选取相似度最高的预定数量的参照字段作为候选参照字段;
基于所述参照语料库,根据预定模型计算出所述相似度的权重、字段平均长度的权重和字段离散度的权重,所述字段离散度为字段包含的最高频词所占的百分数;
根据所述相似度、所述字段平均长度、所述字段离散度及其各自的权重计算出各个所述候选参照字段的加权得分;
选取所述加权得分最高的候选参照字段作为所述目标参照字段。
6.根据权利要求5所述的医疗字段映射校验方法,其特征在于,所述预定模型为决策树模型。
7.根据权利要求1所述的医疗字段映射校验方法,其特征在于,所述相似度为余弦相似度。
8.一种医疗字段映射校验装置,其特征在于,包括:
接收单元,用于接收待校验字段,所述待校验字段具有字段名称且包括字段内容;
分词单元,用于对所述待校验字段的字段内容进行分词得到多个第一切分词;
表征单元,用于将各所述第一切分词分别表征为第一词向量;
第一计算单元,用于计算所述第一词向量的平均值得到所述待校验字段的中心向量;
第二计算单元,用于分别计算所述待校验字段的中心向量与多个参照字段的中心向量的相似度;
选取单元,根据所述相似度从所述多个参照字段中确定目标参照字段;其中,所述目标参照字段为与所述待校验字段的相似程度最高的参照字段;
判断单元,用于比较所述待校验字段与所述目标参照字段的名称,并根据比较结果确认所述待校验字段的字段内容与字段名称的映射关系是否正确。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于医渡云(北京)技术有限公司,未经医渡云(北京)技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201611027722.1/1.html,转载请声明来源钻瓜专利网。