[发明专利]一种数据处理的方法及装置有效
申请号: | 201711489494.4 | 申请日: | 2017-12-29 |
公开(公告)号: | CN110019169B | 公开(公告)日: | 2021-04-13 |
发明(设计)人: | 王晓春;马军 | 申请(专利权)人: | 中国移动通信集团陕西有限公司;中国移动通信集团公司 |
主分类号: | G06F16/215 | 分类号: | G06F16/215;G06F16/22 |
代理公司: | 北京同达信恒知识产权代理有限公司 11291 | 代理人: | 郭润湘 |
地址: | 710075*** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 数据处理 方法 装置 | ||
本申请公开了一种数据处理的方法及装置,其中方法包括:获取待处理数据;所述待处理数据按行排列;识别所述待处理数据的每个数据字段的属性及位置;按照数据字段在行内的位置,确定所述数据字段所属的列位置;根据同一列中的各数据字段的属性,确定该列的属性;对属性与所在列的属性不同的数据字段进行修正处理。
技术领域
本申请涉及数据处理领域,尤其涉及一种数据处理的方法及装置。
背景技术
大数据环境下,以数据仓库为例,数据仓库建设过程中,为避免得到错误结论,数据的准确性至关重要。数据在输入、获得、集成传输过程中,由于数据的来源不同,可能会出现一定比例的错误数据。而错误的数据不仅会带来数据库自身高额的维护费用,而且更容易导致企业由此做出错误的预测分析,对企业的长远发展方向影响深远。
因此,如何高效和准确的提取大数据中不同数据的信息,成为一个亟待解决的问题。
发明内容
本申请实施例提供一种数据处理的方法及装置,用以解决现有技术中由于错误数据的存在,导致无法高效和准确的提取数据信息的问题。
本申请实施例提供一种数据处理的方法,所述方法包括:
获取待处理数据;所述待处理数据按行排列;
识别所述待处理数据的每个数据字段的属性及位置;
按照数据字段在行内的位置,确定所述数据字段所属的列位置;
根据同一列中的各数据字段的属性,确定该列的属性;
对属性与所在列的属性不同的数据字段进行修正处理。
一种可能的实现方式,所述对属性与所在列的属性不同的数据字段进行修正处理,包括:
若所述数据字段的属性为未识别的,则将所述数据字段与相邻的数据字段合并,识别合并后的数据字段的属性,并按照列的属性确定所述合并后的数据字段在行内的位置;
若所述数据字段的属性为多个,则将所述数据字段分割为与所述多个属性中与每个属性相对的多个数据字段,并按照列的属性确定所述多个数据字段的在行内的位置。
一种可能的实现方式,所述识别合并后的数据字段的属性,包括:
将各列的属性确定为为所述待处理数据的属性集合中的属性;
从所述待处理数据的属性集合中确定所述合并后的数据字段的属性。
一种可能的实现方式,所述根据同一列中的各数据字段的属性,确定该列的属性,包括:
将同一列的各数据字段的属性占该列识别出的多个属性的比例大于第一阈值的属性,确定为该列的属性。
一种可能的实现方式,所述对属性与所在列的属性不同的数据字段进行修正处理,还包括:
将所述待处理数据中相邻行的数据中,前一行数据的最后一个数据字段与后一行的第一个数据字段为未识别属性的数据字段,则将所述相邻行的数据合并为一行数据,并将所述前一行数据的最后一个数据字段与所述后一行的第一个数据字段合并,识别合并后的数据字段的属性,并按照列的属性确定所述合并后的数据字段在行内的位置。
一种可能的实现方式,所述所述对属性与所在列的属性不同的数据字段进行修正处理之后,还包括:
对列进行重整,重整后的每列具有一个属性且按照同一属性的数据字段的数量进行列的排序;
按照所述各数据字段的属性及重整后的列,调整所述各数据字段所在的行内位置,得到调整后的所述待处理数据。
本申请实施例提供一种数据处理的装置,所述装置包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国移动通信集团陕西有限公司;中国移动通信集团公司,未经中国移动通信集团陕西有限公司;中国移动通信集团公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711489494.4/2.html,转载请声明来源钻瓜专利网。