[发明专利]一种基于核心信息的Jaro-Winkler算法的多源数据匹配方法在审

专利信息
申请号: 202210879239.5 申请日: 2022-07-25
公开(公告)号: CN115495487A 公开(公告)日: 2022-12-20
发明(设计)人: 胡赛玲;何笔通;曾春来;吕玲春;余璟璐 申请(专利权)人: 丽水市中心医院
主分类号: G06F16/2457 分类号: G06F16/2457;G06F16/903;G16H10/40;G16H10/60;G16H30/00
代理公司: 浙江亿创果专利代理有限公司 33339 代理人: 金方明
地址: 323000 浙*** 国省代码: 浙江;33
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 核心 信息 jaro winkler 算法 数据 匹配 方法
【权利要求书】:

1.一种基于核心信息的Jaro-Winkler算法的多源数据匹配方法,其特征在于,包括以下步骤:

预处理,将待匹配的EMR(电子病历系统)数据和慢性病监测系统中的数据进行预处理;

第一次匹配,预处理完成的数据中随机选取3000条慢性病监测数据,与所有EMR(电子病历系统)数据进行人工匹配,获得的匹配结果作为金标准;

然后对两组数据进行遍历,通过4个核心字段分别计算获得4个Jaro距离值,文本相似性中向量之间的夹角余弦值来判断向量之间的相似性大小;

根据单字段或者不同字段组合计算综合指数D值,将人工匹配的结果作为金标准绘制D值的ROC曲线,通过比较曲线下面积选择最佳字段组合方式,并获得各种组合下的D值的最佳切点;

剩余慢性病监测数据作为回代检验数据,与所有EMR(电子病历系统)数据进行遍历比较,通过4个核心字段分别计算获得4个Jaro距离值以及综合指数D值,根据D值切点进行回代检验,判断检验效果;

第二次匹配,通过随机函数将原3000条慢性病监测数据中的核心字段里的信息进行增、删、改操作,建立误差样本库;

将误差样本库再次与所有EMR(电子病历系统)数据进行遍历比较,分别计算获得4个Jaro距离值以及综合指数D′值;

将人工匹配的结果作为金标准绘制D′值的ROC曲线,通过比较曲线下面积选择最佳字段组合方式,并获得各种组合下的D′值的最佳切点;

剩余慢病监测数据作为回代检验数据,与所有EMR(电子病历系统)数据进行遍历比较,通过4个核心字段分别计算获得4个Jaro距离值以及综合指数D值,根据D′值切点进行回代检验,判断检验效果;

最后综合两种情况下的D与D′切点判别效果,确定最佳的匹配字段组合及对应D切点值;

根据结果开发适用于查漏报,去重报等防保科日常业务工作数据匹配。

2.根据权利要求1所述的基于核心信息的Jaro-Winkler算法的多源数据匹配方法,其特征在于,上述预处理,中处理过程包括核心字段(姓名、身份证号、联系电话、详细住址)筛选与保留,去除空格与换行符,数字与字母格式统一改为半角。

3.根据权利要求1所述的基于核心信息的Jaro-Winkler算法的多源数据匹配方法,其特征在于,上述对两组数据进行遍历中,所述的4个核心字段分别为姓名、身份证号、联系电话和详细住址,其所对应的Jaro距离值分别为d1、d2、d3和d4。

4.根据权利要求3所述的基于核心信息的Jaro-Winkler算法的多源数据匹配方法,其特征在于,Jaro距离值采用Jaro Distance算法,进行计算两个字符串之间相似度的方法。

5.根据权利要求4所述的基于核心信息的Jaro-Winkler算法的多源数据匹配方法,其特征在于,所述Jaro Distance算法的定义为:

首先给两个定字符串S1和和S2;

采用如下公式计算dj的值:

其中,dj是两个字符串的Jaro Distance;

m是匹配的字符数;

t是换位的数目。

6.根据权利要求5所述的基于核心信息的Jaro-Winkler算法的多源数据匹配方法,其特征在于,上述S1和S2的字符如果相距小于等于s的时候即为两个字符是相匹配的,其中

s=[max(|s1|,|s2|)/2]-1。

7.根据权利要求6所述的基于核心信息的Jaro-Winkler算法的多源数据匹配方法,其特征在于,上述Jaro距离值还可以在Jaro Distance算法的基础上采用Jaro-WinklerDistance算法,进行计算两个字符串之间相似度的方法。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于丽水市中心医院,未经丽水市中心医院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202210879239.5/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top