[发明专利]数据归一方法及装置、计算机可读存储介质、电子设备在审
申请号: | 201911410132.0 | 申请日: | 2019-12-31 |
公开(公告)号: | CN111159158A | 公开(公告)日: | 2020-05-15 |
发明(设计)人: | 张黎 | 申请(专利权)人: | 北京懿医云科技有限公司 |
主分类号: | G06F16/21 | 分类号: | G06F16/21;G06F16/28 |
代理公司: | 北京律智知识产权代理有限公司 11438 | 代理人: | 王辉;阚梓瑄 |
地址: | 100195 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 数据 方法 装置 计算机 可读 存储 介质 电子设备 | ||
本公开属于计算机技术领域,涉及一种数据归一方法及装置、计算机可读存储介质、电子设备。该方法包括:获取标准数据,并根据标准数据的分类标签建立结构化数据实体;根据分类标签对结构化数据实体进行划分,并根据划分结果确定粗粒度规则和细粒度规则;获取待处理数据,并根据待处理数据确定满足粗粒度规则和细粒度规则的标准数据为归一数据。本公开一方面,采用粗粒度规则和细粒度规则替换人工标注,提高了归一数据的准确率和处理效率,易于复用;另一方面,确定出最优的归一数据,避免了大量人工规则的设计、维护和校准等工作,降低维护成本,节约使用成本。
技术领域
本公开涉及计算机技术领域,尤其涉及一种数据归一方法与数据归一装置、计算机可读存储介质及电子设备。
背景技术
在医院的医嘱药品数据中往往包含药品名称、剂型、规格以及生产厂商等多种混合数据,但多种混合数据没有明确的文本模板。在药品用药统计、分析、展示和挖掘等诸多应用场景中,杂乱无章的数据给各种应用造成极大不便,因此,各业务场景对医嘱药品数据提出了包括清洗、标准化和填充等技术需求。
在对医嘱药品数据的标准化处理过程中,主要采用人工标注词典匹配的方式,实现数据的清洗和标准化处理。但是这种方式依赖人工标注,速度慢且成本高,准确率也无法得到有效保证。除此之外,还可以对数据字典和正则表达式进行清洗,剔除医嘱药品数据中的无用信息,并对正则表达式的多个关键词进行匹配映射处理,实现医嘱药品数据的标准化。但是正则表达式的规则设计十分复杂,相互之间容易出现冲突,维护成本较高。
鉴于此,本领域亟需开发一种新的数据归一方法及装置。
需要说明的是,在上述背景技术部分公开的信息仅用于加强对本公开的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。
发明内容
本公开的目的在于提供一种数据归一方法、数据归一装置、计算机可读存储介质及电子设备,进而至少在一定程度上克服由于相关技术的限制而导致的准确率低和成本高等问题。
本公开的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本公开的实践而习得。
根据本公开的一个方面,提供一种数据归一方法,所述方法包括:获取标准数据,并根据所述标准数据的分类标签建立结构化数据实体;根据所述分类标签对所述结构化数据实体进行划分,并根据划分结果确定粗粒度规则和细粒度规则;获取所述待处理数据,并根据所述待处理数据确定满足所述粗粒度规则和所述细粒度规则的所述标准数据为归一数据。
在本公开的一种示例性实施例中,所述所述根据所述标准数据的分类标签建立结构化数据实体,包括:获取与所述标准数据对应的分类标签,并确定所述标准数据的数据标识;对所述分类标签与所述数据标识建立映射关系,并根据所述映射关系建立结构化数据实体。
在本公开的一种示例性实施例中,根据划分结果确定粗粒度规则和细粒度规则,包括:对所述分类标签进行划分,以在所述分类标签中确定粗粒度标签和细粒度标签;将所述粗粒度标签下的所述标准数据进行划分,并将与划分后的所述标准数据对应的规则确定为粗粒度规则;将所述细粒度标签下的所述标准数据进行划分,并将与划分后的所述标准数据对应的规则确定为细粒度规则。
在本公开的一种示例性实施例中,所述根据所述待处理数据确定满足所述粗粒度规则和所述细粒度规则的所述标准数据为归一数据,包括:基于所述粗粒度规则,若在所述结构化数据实体中查询到与所述待处理数据对应的所述标准数据,确定所述待处理数据为目标待处理数据;基于所述细粒度规则,若在所述结构化数据实体中查询到与所述待处理数据对应的所述标准数据,确定所述目标待处理数据为待归一数据;将所述待归一数据对应的所述标准数据确定为归一数据。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京懿医云科技有限公司,未经北京懿医云科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911410132.0/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置