[发明专利]基于变体标记网络的数据分群有效
申请号: | 201280067094.3 | 申请日: | 2012-11-15 |
公开(公告)号: | CN104040544B | 公开(公告)日: | 2018-06-26 |
发明(设计)人: | 阿伦·安德森 | 申请(专利权)人: | 起元科技有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 隆天知识产权代理有限公司 72003 | 代理人: | 张浴月;李玉锁 |
地址: | 美国马*** | 国省代码: | 美国;US |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 节点关联 数据记录 变体 字段 网络 标记网络 接收数据 数据分群 图形表示 字段组合 数据群 量化 记录 | ||
接收数据记录,每个都包括一个或多个字段中的一个或多个值,对所接收的数据记录进行处理以识别一个或多个数据群,该处理包括:识别(110)多个标记,所述标记中每个都包括一字段或字段组合中的至少一个值或值的片段;生成(120)表示所识别的标记的网络,所述网络的节点表示标记而所述网络的每个边表示标记之间的变体关系;以及用至少部分基于与节点关联的值区分的不同节点子组来生成所述网络的图形表示,其中与特定节点关联的值对该特定节点所表示的标记在所接收的数据记录内出现的实例数目计数加以量化。
相关申请的交叉引用
本申请要求2011年11月15日所提交美国专利申请第61/560257号和2012年6月15日所提交美国专利申请第61/660259号的优先权,二者中每个都通过引用合并于此。
背景技术
本说明书涉及基于变体标记网络的数据分群。
数据分群是这样一种方法,通过该方法将大体类似的信息用共享的标识符来标注,从而可使该信息后续在被处理时就像这些信息已经一起汇聚在同一位置那样。该信息可包括各种类型的信息,例如,诸如财务数据或医保记录等等。每个群(在多个群组成的一组中)包括已经被确定为符合一些类似性标准的多个数据单元(例如,文档、数据库记录、或其他数据对象)。一些技术属于“离线”技术,其将数据单元按批处理以生成群或添加至已有群。一些技术属于“在线”技术,其对数据单元按照接收这些数据单元的方式进行增量式处理。群可以是分级的,此时一个级别上的给定群自身在另一级别上被划分成多个群。在一些情况下,群对应于一个分区的数据单元,其中每个数据单元恰好是其中一个群,而在一些情况下,群可与属于一个以上群的其中一员的数据单元叠合。
发明内容
在一个方案中,一般而言,一种方法包括:接收数据记录,所接收的数据记录中每个都包括一个或多个字段中的一个或多个值;以及处理所接收的数据记录以识别一个或多个数据群。该处理包括:识别多个标记,所述标记中每个都包括一字段或字段组合中的至少一个值或值的片段;生成表示所识别的标记的网络,所述网络的节点表示标记而所述网络的每个边表示标记之间的变体关系;以及至少部分基于与节点关联的值来生成不同节点子组被加以区分的所述网络的图形表示,其中与特定节点关联的值对该特定节点所表示的标记在所接收的数据记录内出现的实例数目计数加以量化。
这些方案可包括以下特征的其中一个或多个。
如果两个标记之间的距离在一阈值以下则该两个标记具有变体关系。
至少一个子组包括第一节点和通过遍历与比关联于所述第一节点的值相等或更低的值相关联的节点连接的边所得到的节点。
至少一第一子组包括至少一个与一标记关联的节点,该标记是由所述第一子组中其他节点表示的标记的代表。
识别一数据群以关联于第一接收数据记录包括用所述第一接收数据记录的代表标记来取代所述第一接收数据记录中的至少一个标记。
识别至少一个节点,该至少一个节点与比所述第一组中其他节点相关联的值的平均值大过多于一预定阈值的值关联。
该方法还包括确定所识别的节点中通过一边直接彼此连接的任意两个节点。
该方法还包括接收来自用户的输入或将预先确定的规则应用于所述网络以通过在两个节点之间添加边或移除两个节点之间的边来修改所述网络。
该方法还包括在用户界面中显示所述网络的可视化表示,以及可视化地指示与所述节点关联的所述值。
该方法还包括通过所述用户界面接收所述输入。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于起元科技有限公司,未经起元科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201280067094.3/2.html,转载请声明来源钻瓜专利网。