[发明专利]一种数据识别方法、装置、计算机设备及存储介质在审
申请号: | 201910970250.0 | 申请日: | 2019-10-12 |
公开(公告)号: | CN110781173A | 公开(公告)日: | 2020-02-11 |
发明(设计)人: | 孟庆丰;李敏;马文豪;董晓强 | 申请(专利权)人: | 杭州城市大数据运营有限公司;湖州市大数据运营有限公司;杭州中云数据科技有限公司 |
主分类号: | G06F16/215 | 分类号: | G06F16/215;G06F16/22;G06N20/00 |
代理公司: | 43210 长沙新裕知识产权代理有限公司 | 代理人: | 黄勇 |
地址: | 310000 浙江*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 抽样数据 数据识别 表结构信息 数据类型 标准结果 预设 计算机技术领域 机器学习模型 计算机设备 抽样规则 存储介质 工作效率 人力成本 随机抽样 专业知识 预测 准确率 数据库 门槛 应用 保证 | ||
本发明适用计算机技术领域,提供一种数据识别方法、装置、计算机设备及存储介质;所述数据识别方法包括:获取待识别数据;通过预设机器学习模型对待识别数据进行识别,获得标准结果;获取待识别数据所在数据库的表结构信息,并根据表结构信息以及预设抽样规则对待识别数据进行随机抽样,获得抽样数据;根据表结构信息,确定抽样数据的数据类型;基于抽样数据的数据类型,采用与数据类型对应的预先通过训练生成的数据识别模型对抽样数据进行识别,获得预测识别结果;根据预测识别结果以及标准结果,确定数据识别结果。该方法在保证准确率的同时,降低了人力成本,提高了工作效率,而且降低了工作人员对相关领域的专业知识要求,降低了应用门槛。
技术领域
本发明属于计算机技术领域,尤其涉及一种数据识别方法、装置、计算机设备及存储介质。
背景技术
各个行业在业务开展过程中,对行业内的相似或相同业务,不同企业通常根据其独有的业务特性自定义产生业务数据并最终落库,可能会导致同一行业不同企业间相似或相同的业务在数据层面很难通过人工观察部分数据去识别异同。
传统判断来自行业内不同企业的数据的字段含义是否相同或相似的数据识别方法只要是通过人工逐个判断,虽然准确率较高,但一方面效率低下,另一方面对工作人员要求很高,需要其熟悉当前的业务以及掌握相关领域的专业知识;而现有利用程序进行数据识别的方法,对于同行业的相似数据均需要借助其他技术辅助识别,如字段的相似性,其容易因字段描述缺失而导致识别精确度低的问题;另外,无法跨行业应用,对不同类型的业务数据需要用到不同的识别方法,计算量较大,计算速度缓慢。
由此可见,现有的数据识别方法存在着工作效率低下、数据识别精确度较低以及应用门槛高的技术问题。
发明内容
本发明实施例的目的在于提供一种数据识别方法,旨在解决现有的数据识别方法存在着工作效率低下、数据识别精确度较低以及应用门槛高的技术问题。
本发明实施例是这样实现的,一种数据识别方法,包括:
获取待识别数据;
通过预设机器学习模型对所述待识别数据进行识别,获得标准结果;
获取所述待识别数据所在数据库的表结构信息,并根据所述表结构信息以及预设抽样规则对所述待识别数据进行随机抽样,获得抽样数据;
根据所述表结构信息,确定所述抽样数据的数据类型;
基于所述抽样数据的数据类型,采用与所述数据类型对应的预先通过训练生成的数据识别模型对所述抽样数据进行识别,获得预测识别结果;
根据所述预测识别结果以及标准结果,确定数据识别结果。
本发明实施例的另一目的在于一种数据识别装置,包括:
获取单元,用于获取待识别数据;
第一识别单元,用于通过预设机器学习模型对所述待识别数据进行识别,获得标准结果;
抽样单元,用于获取所述待识别数据所在数据库的表结构信息,并根据所述表结构信息以及预设抽样规则对所述待识别数据进行随机抽样,获得抽样数据;
数据类型确定单元,用于根据所述表结构信息,确定所述抽样数据的数据类型;
第二识别单元,用于基于所述抽样数据的数据类型,采用与所述数据类型对应的预先通过训练生成的数据识别模型对所述抽样数据进行识别,获得预测识别结果;以及
确定单元,用于根据所述预测识别结果以及标准结果,确定数据识别结果。
本发明实施例的另一目的在于一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行所述数据识别方法的步骤。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州城市大数据运营有限公司;湖州市大数据运营有限公司;杭州中云数据科技有限公司,未经杭州城市大数据运营有限公司;湖州市大数据运营有限公司;杭州中云数据科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910970250.0/2.html,转载请声明来源钻瓜专利网。