[发明专利]用于将数据记录分组的设备、系统以及方法在审
| 申请号: | 201480014861.3 | 申请日: | 2014-03-14 |
| 公开(公告)号: | CN105518658A | 公开(公告)日: | 2016-04-20 |
| 发明(设计)人: | B·西马诺夫斯基;M·拉冈;L·保罗维兹 | 申请(专利权)人: | 美国结构数据有限公司 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30 |
| 代理公司: | 北京市中咨律师事务所 11247 | 代理人: | 杨晓光;于静 |
| 地址: | 美国加利*** | 国省代码: | 美国;US |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 用于 数据 记录 分组 设备 系统 以及 方法 | ||
1.一种设备,包括:
处理器,其被配置成运行存储在存储器中的一个或多个模块,其中所 述一个或多个模块被配置成:
识别针对其确定相似性值的至少一对数据记录;
至少部分地基于与所述至少一对数据记录相关联的多个属性, 确定所述至少一对数据记录的所述相似性值;以及
基于所述至少一对数据记录的所述相似性值,将所述至少一对 数据记录与一个或多个集群相关联,每个所述集群均与唯一实体相关 联。
2.根据权利要求1所述的设备,其中所述一个或多个模块进一步被配 置成基于可能由相关数据记录共享的一组预定属性,识别不需要针对其确 定相似性值的一对或多对数据记录。
3.根据权利要求2所述的设备,其中所述一个或多个模块被配置成基 于来自先前迭代的数据记录与集群的关联,调节所述一组预定属性。
4.根据权利要求1所述的设备,其中所述一个或多个模块被配置成基 于从训练数据记录得知的相似性函数,确定所述相似性值。
5.根据权利要求4所述的设备,其中所述相似性函数被设计成推断与 数据记录的特定属性相关联的特定组件的重要性,其中通过如下操作得知 所述相似性函数:
确定在与所述训练数据记录的所述特定属性相关联的组件之间的差 异,其中已知所述训练数据记录属于同一集群;以及
基于所述特定组件在所述差异中出现的次数,确定所述特定组件的重 要性。
6.根据权利要求4所述的设备,其中所述相似性函数被设计成推断将 数据记录的特定属性中的第一组件与第二组件互换的可能性,其中通过如 下操作得知所述相似性函数:
确定在与所述训练数据记录的所述特定属性相关联的组件之间的差 异,其中已知所述训练数据记录属于同一集群,以及
基于所述第一组件和所述第二组件同时在所述差异中出现的次数,确 定将所述第一组件与所述第二组件互换的可能性。
7.根据权利要求4所述的设备,其中所述相似性函数被设计成确定数 据记录的缺失属性具有特定组件的条件可能性,其中通过如下操作确定所 述条件可能性:
确定对应于特定实体的已知属性的组合;
确定缺失属性在具有所述已知属性的组合的特定实体的数据记录之 间的所有变化;以及
假定所述数据记录具有已知属性的特定组合,基于所述缺失属性的所 述变化来确定所述缺失属性具有特定组件的条件概率。
8.根据权利要求1所述的设备,其中所述一个或多个模块被配置成:
将多个数据记录表示为图中的多个节点;
将所述至少一对数据记录的所述相似性值表示为图中对应于所述至 少一对数据记录的节点之间的至少一个边;以及
基于所述图确定所述一个或多个集群。
9.根据权利要求8所述的设备,其中所述一个或多个模块被配置成基 于所述图,使用图聚类技术来确定所述一个或多个集群。
10.根据权利要求1所述的设备,其中所述一个或多个模块被配置成 接收要求所述一个或多个模块将两个数据记录与同一集群相关联的聚类 指令。
11.根据权利要求1所述的设备,其中所述一个或多个模块被配置成
使用聚类技术将所述多个数据记录中的至少一个关联到一个或多个 集群;以及
基于所述一个或多个集群中的数据记录,独立地调节针对所述一个或 多个集群中的每个集群的聚类技术的参数。
12.根据权利要求1所述的设备,其中所述一个或多个模块被配置成 通过从另一计算装置接收所述至少一对数据记录的所述相似性值,来确定 所述至少一对数据记录的所述相似性值。
13.根据权利要求1所述的设备,其中所述一个或多个模块被配置成:
从多个计算装置接收在所述多个计算装置处独立识别的多个子集群; 以及
在所述多个子集群上执行并查操作以识别所述一个或多个集群。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于美国结构数据有限公司,未经美国结构数据有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201480014861.3/1.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置





