[发明专利]数据处理方法及装置有效
| 申请号: | 201710386802.4 | 申请日: | 2017-05-26 |
| 公开(公告)号: | CN108932268B | 公开(公告)日: | 2020-09-04 |
| 发明(设计)人: | 刘洋;车文彬;张旭 | 申请(专利权)人: | 华为技术有限公司 |
| 主分类号: | G06F16/22 | 分类号: | G06F16/22;G06F16/2458 |
| 代理公司: | 北京三高永信知识产权代理有限责任公司 11138 | 代理人: | 罗振安 |
| 地址: | 518129 广东*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 数据处理 方法 装置 | ||
本申请公开了一种数据处理方法及装置,属于大数据技术领域。所述方法包括:分别获取属于样本数据表的样本列字段与属于至少一个基准数据表的n个基准列字段中的每个基准列字段的相似度集合;根据获取到的n个相似度集合以及每个相似度的预设权重,确定样本列字段对应的初始基准列字段;获取用于指示:样本列字段与初始基准列字段的对应关系的准确度的准确度标签;根据准确度标签和获取到的n个相似度集合,确定每个相似度的目标权重;根据获取到的n个相似度集合以及每个相似度的目标权重,确定样本列字段对应的目标基准列字段。本申请解决了数据处理的效率较低的问题,提高了数据处理的效率,本申请用于数据的处理。
技术领域
本申请涉及大数据技术领域,特别涉及一种数据处理方法及装置。
背景技术
随着大数据技术的发展,用户能够基于大数据技术对多个样本数据表进行分析,以制定相应的策略。但是,由于多个样本数据表的来源不同,使得多个样本数据表中相同位置的样本列字段的数据的类型不同,因此为了便于用户分析,用户通常需要通过数据处理装置确定每个样本列字段在基准数据表中对应的基准列字段,进而从多个样本数据表中获取同一基准列字段对应的样本列字段中的数据。
相关技术中,数据处理装置在确定样本列字段对应的基准列字段时,采用四种特征提取方法分别提取:样本列字段的四个第一特征集,以及基准数据表中每个基准列字段的四个第二特征集。然后,数据处理装置需要计算采用同一种特征提取算法提取得到的第一特征集与每个第二特征集的相似度,并得到样本列字段与每个基准列字段的相似度集合。最后,数据处理装置需要根据每个相似度的预设权重,确定样本列字段与每个基准列字段的融合相似度,并将与样本列字段的融合相似度最高的基准列字段确定为样本列字段对应的基准列字段。示例的,假设样本列字段的四个第一特征集分别为P1、P2、P3和P4,某一基准列字段的四个第二特征集分别为Q1、Q2、Q3和Q4,采用第一种特征提取方法得到的P1与Q1的相似度为Z1,采用第二种特征提取方法得到的P2与Q2的相似度为Z2,采用第三种特征提取方法得到的P3与Q3的相似度为Z3,采用第四种特征提取方法得到的P4与Q4的相似度为Z4,则样本列字段与该某一基准列字段的相似度集合为{Z1,Z2,Z3,Z4}。若A1、A2、A3和A4分别为相似度Z1、相似度Z2、相似度Z3和相似度Z4的预设权重,则数据处理装置将Z1*A1+Z2*A2+Z3*A3+Z4*A4的结果作为样本列字段与该某一基准列字段的融合相似度。进一步的,在数据处理装置得到样本列字段对应的基准列字段后,用户需要判断样本列字段对应的基准列字段是否准确。如果用户认为样本列字段对应的基准列字段不准确,则用户需要根据经验对数据处理装置中相似度的预设权重(A1、A2、A3和A4)进行调整,并控制数据处理装置根据调整后的权重再次确定样本列字段与每个基准列字段的融合相似度,以及再次确定样本列字段对应的基准列字段,直至用户认为数据处理装置确定的样本列字段对应的基准列字段是准确的。
由于相关技术中,在用户认为样本列字段对应的基准列字段不准确时,用户需要根据经验对数据处理装置中相似度的预设权重进行调整,因此,数据处理的步骤较繁琐,数据处理的效率较低。
发明内容
为了解决数据处理的效率较低的问题,本申请提供了一种数据处理方法及装置。所述技术方案如下:
第一方面,提供了一种数据处理方法,所述方法包括:分别获取属于样本数据表的样本列字段与属于至少一个基准数据表的n个基准列字段中的每个基准列字段的相似度集合,第i个所述相似度集合包括:所述样本列字段的特征集与所述n个基准列字段中的第i个基准列字段的特征集的相似度,n≥i≥1;根据获取到的n个相似度集合以及每个所述相似度的预设权重,确定所述样本列字段在所述n个基准列字段中对应的初始基准列字段;获取准确度标签,所述准确度标签用于指示所述样本列字段与所述初始基准列字段的对应关系的准确度;根据所述准确度标签和获取到的n个相似度集合,确定每个所述相似度的目标权重;根据获取到的n个相似度集合以及每个所述相似度的目标权重,确定所述样本列字段在所述n个基准列字段中对应的目标基准列字段。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华为技术有限公司,未经华为技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710386802.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种数据迁移方法及系统
- 下一篇:烹饪的方法、装置以及系统





