[发明专利]数据对象的处理方法、处理装置及处理系统有效
申请号: | 201710998952.0 | 申请日: | 2017-10-23 |
公开(公告)号: | CN109697452B | 公开(公告)日: | 2021-09-14 |
发明(设计)人: | 汪振华;安山;麻晓珍;陈宇 | 申请(专利权)人: | 北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 中科专利商标代理有限责任公司 11021 | 代理人: | 赵婷 |
地址: | 100195 北京市海淀区杏石口路6*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 数据 对象 处理 方法 装置 系统 | ||
本公开提供了一种数据对象的处理方法。所述方法包括:从多个第一簇的每个第一簇中抽取至少一个特征数据得到再分析数据;通过聚类将所述再分析数据重新归类为多个第二簇,并相应地将所述多个第一簇的每个第一簇的特征数据重新分配至对应的第二簇中;以及当所述重新分配后的所述多个第二簇对应的聚类纯度与所述多个第一簇对应的聚类纯度的纯度差值大于预设的偏差阈值时,以所述重新分配后的所述多个第二簇为所述多个第一簇,重复执行所述抽取、重新归类、以及重新分配操作,直到所述纯度差值小于或等于所述偏差阈值时,输出所述重新分配后的所述多个第二簇。本公开还提供了一种数据对象的处理装置、处理系统及介质。
技术领域
本公开涉及互联网技术领域,更具体地,涉及一种数据对象的处理方法、处理装置及处理系统。
背景技术
随着互联网技术和数据存储技术的快速发展,各个机构组织积累了大量的数据。从海量的数据中提取潜在的、有价值的数据信息成为一项巨大的挑战。聚类分析是数据挖掘中的一种重要的方法。聚类分析能够将海量的杂乱无章的数据根据相似性归类至不同的簇。
在实现本发明构思的过程中,发明人发现现有技术中至少存在如下问题:当需要进行聚类分析的数据规模增大时,通过聚类获得的簇的总个数很可能会很大,导致平均每个簇内的数据量逐渐减少,使得聚类纯度不够高。换言之,现有技术中通过聚类得到的多个簇中可能存在可以进一步合并的簇。对于这些簇如果不进一步合并,就会使得聚类过程中数据的相似性提取不够完整,从而影响后续的数据分析的简洁性和准确性。
发明内容
有鉴于此,本公开提供了一种能够提高聚类纯度、以及能够更完整地提取相似特征的数据对象的处理方法、处理装置、处理系统及介质。
本公开的一个方面提供了一种数据对象的处理方法。所述方法包括:从多个第一簇的每个第一簇中抽取至少一个特征数据,得到再分析数据,其中,每一个特征数据对应于一个数据对象,所述多个第一簇为将所有待聚类的数据对象的特征数据通过聚类而获得的;通过聚类将所述再分析数据重新归类为多个第二簇;根据所述多个第二簇的每个第二簇中的特征数据在所述多个第一簇中的归类,将所述多个第一簇的每个第一簇的特征数据重新分配至对应的第二簇中;以及当所述重新分配后的所述多个第二簇对应的聚类纯度与所述多个第一簇对应的聚类纯度的纯度差值大于预设的偏差阈值时,以所述重新分配后的所述多个第二簇为所述多个第一簇,重复执行所述抽取、重新归类、以及重新分配操作,直到所述纯度差值小于或等于所述偏差阈值时,输出所述重新分配后的所述多个第二簇。
根据本公开的实施例,所述数据对象包括以下中任意一项:数据文件、文档、图像、音频、或视频。
根据本公开的实施例,所述聚类纯度通过所述所有待聚类的数据对象的总个数与簇的总个数确定。
根据本公开的实施例,所述从多个第一簇的每个第一簇中抽取至少一个特征数据,包括从所述多个第一簇的每个第一簇中随机抽取一个特征数据。
根据本公开的实施例,所述方法还包括通过聚类将所述所有待聚类的数据对象的特征数据归类为多个第一簇。
根据本公开的实施例,所述方法还包括获取所述所有待聚类的数据对象中每一个数据对象对应的特征数据。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司,未经北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710998952.0/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置