[发明专利]一种应用于数据清洗工具的数据匹配方法有效
申请号: | 201911141037.5 | 申请日: | 2019-11-20 |
公开(公告)号: | CN110908989B | 公开(公告)日: | 2023-09-15 |
发明(设计)人: | 纪峥嵘;刘军;叶庆楚;陈博文;李金炜 | 申请(专利权)人: | 无锡识凌科技有限公司 |
主分类号: | G06F16/215 | 分类号: | G06F16/215;G06F16/25;G16H10/60 |
代理公司: | 无锡市汇诚永信专利代理事务所(普通合伙) 32260 | 代理人: | 朱晓林 |
地址: | 214000 江苏省无锡市无锡新*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 应用于 数据 清洗 工具 匹配 方法 | ||
本发明涉及数据处理技术领域,公开了一种应用于数据清洗工具的数据匹配方法,包括:(1)根据输入表和输出表中的数据,导入若干差异化样本与样本生成模型参数,将模型参数配置到模型表;(2)对查询数据主键进行合法性判断;(3)对非空值进行数据类型判断并进行查询生成记录;(4)根据深度自学习算法,辨识所有记录中的数据,生成通用的匹配模型;(5)使用ETL清洗,读取模型表清洗数据。本发明通过在大数据样本基础上使用智能学习算法来实现数据抽取过程中自动匹配各个独立系统中数据的方法,可以将患者散落在各个系统中的数据完整的抽取到医院临床数据中心,相比人工判断数据规则的方法,该方法数据处理快速,节省大量时间和人力。
技术领域
本发明涉及数据处理技术领域,尤其涉及了一种应用于数据清洗工具的数据匹配方法。
背景技术
目前,随着医疗信息化的发展,医院临床数据中心的建设已经广泛开展,主要用于建立患者历次就诊档案、医生临床决策支持和医生科研决策支持。建设医院临床数据中心,目前主要是使用数据清洗工具,将医院内部分散在各个独立系统中,如:医院信息系统、电子病历系统、检验科信息系统、医学影像信息系统、护理信息系统等。由于各个系统独自建设,导致系统之间没有统一的病人标识规范。在使用数据清洗工具,抽取数据的过程中,会遇到各个独立系统中标识患者的主键规则不一致,需要投入大量的人工来配置匹配规则,费时费力。因此,使用计算机系统自动完成患者匹配十分重要。
发明内容
本发明针对现有技术中人工精力不足、数据配置繁琐的缺点,提供了一种应用于数据清洗工具的数据匹配方法。
为了解决上述技术问题,本发明通过下述技术方案得以解决。
一种应用于数据清洗工具的数据匹配方法,包括:
(1)根据输入表和输出表中的数据,导入若干差异化样本与样本生成模型参数,将模型参数配置到模型表;
(2)对查询数据主键进行合法性判断;
(3)对非空值进行数据类型判断并进行查询生成记录;
(4)根据深度自学习算法,辨识所有记录中的数据,生成通用的匹配模型;
(5)使用ETL清洗,读取模型表清洗数据。
作为优选,步骤(2)对查询数据主键进行合法性判断中,合法性判断为对数据主键是否为规则规定内的数值进行判断,如为合法格式,则判定为非空值,进入步骤(3);如为非法格式,则判定为空值返回记录无法匹配后跳出。
作为优选,步骤(3)对非空值进行数据类型判断中,包括对内容主键的判断和时间主键的判断。
作为优选,内容主键的判断包括:
①对主键数据进行拆分判断,如存在分隔符,则用拆分后的数字分别对目标数据库进行匹配;如拆分后判断为文字与数字的组合,则对拆分后根据的文字进行查询表,根据数字座位主键对表进行查询;
②在目标数据库里查询数据后并返回数据。
作为优选,时间主键的判断包括:
①如数据主键中包含分隔符,则根据分隔符拆分形成日期字符串,进入下一步;如数据主键中包含文字,则根据汉字包含的日期关键字进行分隔形成日期字符串,进入下一步;
②对字符串数据进行长度、数值型合法判断,如和预设的模型相同,则判定合法;如和预设的模型不相同,则判断不合法,返回记录无法匹配后跳出。
作为优选,步骤(4)中,还包括校验匹配模型数据,设置匹配成功率的阈值,如小于阈值,则判定匹配模型不理想,增加差异化样本,循环步骤(1)~(4),直到满足阈值。
作为优选,步骤(4)中,模型生成公式为:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于无锡识凌科技有限公司,未经无锡识凌科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911141037.5/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置