[发明专利]数据处理方法、装置、电子设备及存储介质在审
| 申请号: | 202110221031.X | 申请日: | 2021-02-26 |
| 公开(公告)号: | CN114969317A | 公开(公告)日: | 2022-08-30 |
| 发明(设计)人: | 冯宪凯 | 申请(专利权)人: | 中移(苏州)软件技术有限公司;中国移动通信集团有限公司 |
| 主分类号: | G06F16/35 | 分类号: | G06F16/35;G06K9/62 |
| 代理公司: | 北京派特恩知识产权代理有限公司 11270 | 代理人: | 张静;张颖玲 |
| 地址: | 215163 江苏省苏州*** | 国省代码: | 江苏;32 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 数据处理 方法 装置 电子设备 存储 介质 | ||
本申请提供了一种数据处理方法、装置、电子设备及存储介质,该方法包括:根据第一簇中心集合对第一数据集中的数据样本进行聚类,得到第一簇中心集合中的每一个簇中心对应的聚类簇;获取每一个簇中心与每一个簇中心对应的聚类簇中的数据样本的距离信息;根据距离信息确定第一数据集的下一个簇中心,得到第二簇中心集合,第二簇中心集合包括第一簇中心集合和下一个簇中心;在第二簇中心集合不满足预设条件时,将第一簇中心集合更新为第二簇中心集合;在第二簇中心集合满足预设条件时,根据第二簇中心集合对第一数据集中的数据样本进行聚类,得到第一数据集的聚类结果。基于本申请提供的数据处理方法,提高了聚类分析的效率和聚类结果的准确性。
技术领域
本申请涉及信息处理技术领域,具体涉及一种数据处理方法、装置、电子设备及存储介质。
背景技术
在数据存储过程中,人工的错误输入或者同一个数据样本的主关键字不同的缩写,导致数据库中存在的重复记录的多个重复数据样本,重复数据样本在数据库中的主键(primary key)不相同,主键相关属性(property)在物理世界对应同一个实体对象(object)。例如,主键“male”和“M”对应的实体对象都表示男性,表达对象“男性”在数据库中的重复数据相应的主键不同。
在相关技术中,主要基于对数据样本的聚类分析(cluster analysis)结合比较算法,对重复数据进行数据清洗。其中,聚类分析是将研究对象分为相对同质的群组(clusters)的统计分析技术。例如,k-means聚类方法,基于聚类将相似的数据样本聚集到同一类中,不同的数据样本分散到不同类中,将重复记录对应的多个数据样本聚类到同一个聚类簇,从而,有效识别重复记录对应的多个数据样本。由于聚类簇中的数据样本不完全都是重复记录,因此,需要结合比较算法对重复记录进行识别。比较算法主要包括:近邻排序算法(Sorted Neighborhood Method,SNM)、优先权队列算法、Smith-Waterman算法。
其中,近邻排序算法采用指定的关键字对数据集进行排序,对排序后的数据集移动固定大小的窗口,每次向下移动一个数据样本,将该记录与窗口内的记录逐一比较,确定是否存在重复记录。在关键字选择不当时,将影响比较结果的准确性;同时,窗口的大小难以准确控制,窗口较小时会遗漏重复记录,窗口过大时会增加比较次数。
优先权队列算法,逐个扫描所有数据样本,在确定数据样本属于已存在的优先权队列,则将数据样本聚类到该优先权队列。在确定数据样本不属于已存在的优先权队列,则将数据样本确定为代表记录形成一个优先权队列,同时,赋予代表记录最高的优先权;在优先权队列达到上限时删除最低优先权队列。于代表记录是基于主观判断得到的,因此,影响优先权队列算法的准确性。Smith-Waterman算法,采用动态规划方法,设置间隙和阈值计算两个字符串的匹配程度,通过在指定位置使用间隙,识别字符串缩写的情况,却无法解决字符串顺序颠倒的情况。
在相关技术中,在对数据样本进行聚类分析时,需要人工设定聚类簇(cluster)的个数k值,在k值过大时聚类簇较多,重复的数据样本聚类到不同的聚类簇中,不能有效识别重复记录,导致聚类分析的效率较低。在k值过小时聚类簇的个数较少,导致不重复的数据样本聚类到一起,达不到聚类分析的目的;导致聚类结果的准确性较低。因此,如何提高对聚类分析的效率和聚类结果的准确性成为亟待解决的重要问题。
发明内容
本申请提供了一种数据处理方法、装置、电子设备及存储介质,可以提高聚类分析的效率和聚类结果的准确性。
本申请提供了一种数据处理方法,包括:
根据第一簇中心集合对第一数据集中的数据样本进行聚类,得到所述第一簇中心集合中的每一个簇中心对应的聚类簇;
获取所述每一个簇中心与所述每一个簇中心对应的聚类簇中的数据样本的距离信息;
根据所述距离信息确定所述第一数据集的下一个簇中心,得到第二簇中心集合,所述第二簇中心集合包括所述第一簇中心集合和所述下一个簇中心;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中移(苏州)软件技术有限公司;中国移动通信集团有限公司,未经中移(苏州)软件技术有限公司;中国移动通信集团有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110221031.X/2.html,转载请声明来源钻瓜专利网。





