[发明专利]一种基于核心信息的Jaro-Winkler算法的多源数据匹配方法在审
| 申请号: | 202210879239.5 | 申请日: | 2022-07-25 |
| 公开(公告)号: | CN115495487A | 公开(公告)日: | 2022-12-20 |
| 发明(设计)人: | 胡赛玲;何笔通;曾春来;吕玲春;余璟璐 | 申请(专利权)人: | 丽水市中心医院 |
| 主分类号: | G06F16/2457 | 分类号: | G06F16/2457;G06F16/903;G16H10/40;G16H10/60;G16H30/00 |
| 代理公司: | 浙江亿创果专利代理有限公司 33339 | 代理人: | 金方明 |
| 地址: | 323000 浙*** | 国省代码: | 浙江;33 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 核心 信息 jaro winkler 算法 数据 匹配 方法 | ||
1.一种基于核心信息的Jaro-Winkler算法的多源数据匹配方法,其特征在于,包括以下步骤:
预处理,将待匹配的EMR(电子病历系统)数据和慢性病监测系统中的数据进行预处理;
第一次匹配,预处理完成的数据中随机选取3000条慢性病监测数据,与所有EMR(电子病历系统)数据进行人工匹配,获得的匹配结果作为金标准;
然后对两组数据进行遍历,通过4个核心字段分别计算获得4个Jaro距离值,文本相似性中向量之间的夹角余弦值来判断向量之间的相似性大小;
根据单字段或者不同字段组合计算综合指数D值,将人工匹配的结果作为金标准绘制D值的ROC曲线,通过比较曲线下面积选择最佳字段组合方式,并获得各种组合下的D值的最佳切点;
剩余慢性病监测数据作为回代检验数据,与所有EMR(电子病历系统)数据进行遍历比较,通过4个核心字段分别计算获得4个Jaro距离值以及综合指数D值,根据D值切点进行回代检验,判断检验效果;
第二次匹配,通过随机函数将原3000条慢性病监测数据中的核心字段里的信息进行增、删、改操作,建立误差样本库;
将误差样本库再次与所有EMR(电子病历系统)数据进行遍历比较,分别计算获得4个Jaro距离值以及综合指数D′值;
将人工匹配的结果作为金标准绘制D′值的ROC曲线,通过比较曲线下面积选择最佳字段组合方式,并获得各种组合下的D′值的最佳切点;
剩余慢病监测数据作为回代检验数据,与所有EMR(电子病历系统)数据进行遍历比较,通过4个核心字段分别计算获得4个Jaro距离值以及综合指数D值,根据D′值切点进行回代检验,判断检验效果;
最后综合两种情况下的D与D′切点判别效果,确定最佳的匹配字段组合及对应D切点值;
根据结果开发适用于查漏报,去重报等防保科日常业务工作数据匹配。
2.根据权利要求1所述的基于核心信息的Jaro-Winkler算法的多源数据匹配方法,其特征在于,上述预处理,中处理过程包括核心字段(姓名、身份证号、联系电话、详细住址)筛选与保留,去除空格与换行符,数字与字母格式统一改为半角。
3.根据权利要求1所述的基于核心信息的Jaro-Winkler算法的多源数据匹配方法,其特征在于,上述对两组数据进行遍历中,所述的4个核心字段分别为姓名、身份证号、联系电话和详细住址,其所对应的Jaro距离值分别为d1、d2、d3和d4。
4.根据权利要求3所述的基于核心信息的Jaro-Winkler算法的多源数据匹配方法,其特征在于,Jaro距离值采用Jaro Distance算法,进行计算两个字符串之间相似度的方法。
5.根据权利要求4所述的基于核心信息的Jaro-Winkler算法的多源数据匹配方法,其特征在于,所述Jaro Distance算法的定义为:
首先给两个定字符串S1和和S2;
采用如下公式计算dj的值:
其中,dj是两个字符串的Jaro Distance;
m是匹配的字符数;
t是换位的数目。
6.根据权利要求5所述的基于核心信息的Jaro-Winkler算法的多源数据匹配方法,其特征在于,上述S1和S2的字符如果相距小于等于s的时候即为两个字符是相匹配的,其中
s=[max(|s1|,|s2|)/2]-1。
7.根据权利要求6所述的基于核心信息的Jaro-Winkler算法的多源数据匹配方法,其特征在于,上述Jaro距离值还可以在Jaro Distance算法的基础上采用Jaro-WinklerDistance算法,进行计算两个字符串之间相似度的方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于丽水市中心医院,未经丽水市中心医院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210879239.5/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种烘焙食品加工用刷蛋液装置
- 下一篇:一种eSIM空中写号系统及方法
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置





