[发明专利]基于变体标记网络的数据分群有效
申请号: | 201280067094.3 | 申请日: | 2012-11-15 |
公开(公告)号: | CN104040544B | 公开(公告)日: | 2018-06-26 |
发明(设计)人: | 阿伦·安德森 | 申请(专利权)人: | 起元科技有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 隆天知识产权代理有限公司 72003 | 代理人: | 张浴月;李玉锁 |
地址: | 美国马*** | 国省代码: | 美国;US |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 节点关联 数据记录 变体 字段 网络 标记网络 接收数据 数据分群 图形表示 字段组合 数据群 量化 记录 | ||
1.一种基于变体标记网络的数据分群方法,包括:
接收数据记录,所接收的数据记录中每个都包括一个或多个字段中的一个或多个值;以及
处理所接收的数据记录以识别一个或多个包括两个或更多个数据记录的数据群,其中所述数据群基于候选项数据记录来识别,所述候选项数据记录基于表示所识别标记的网络来识别,该处理包括:
识别多个标记,所述标记中每个都包括所述所接收数据记录的一字段或字段组合中的至少一个值或值的片段;
生成所述表示所识别标记的网络,所述网络的节点表示各标记而所述网络的每个边表示标记之间的变体关系;
对于待与数据群关联的每个所接收的数据记录,识别对应组的候选项数据记录,使得位于同一组的每个候选项数据记录都包括来自由所生成的网络中的连接节点子组表示的同一组标记的一个或多个标记;以及
对于与所接收的数据记录对应的该组候选项数据记录中的至少一个候选项数据记录,确定该所接收的数据记录是否满足该候选项数据记录所属的候选项数据群的群关联标准。
2.如权利要求1所述的方法,其中如果两个标记之间的距离在一阈值以下则该两个标记具有变体关系。
3.如权利要求2所述的方法,其中所述距离是基于共享字符的顺序来测量。
4.如权利要求1所述的方法,还包括识别至少一个节点,该至少一个节点与比所述连接节点子组中其他节点相关联的值的平均值大的值关联,并且该值与所述平均值的差大于一预定阈值。
5.如权利要求4所述的方法,还包括确定所识别的节点中通过一个边直接彼此连接的任意两个节点。
6.如权利要求1所述的方法,还包括接收来自用户的输入或将预先确定的规则应用于所述网络以通过在两个节点之间添加边或移除两个节点之间的边来修改所述网络。
7.如权利要求6所述的方法,还包括在用户界面中显示所述网络的可视化表示,以及可视化地指示与所述节点关联的所述值。
8.如权利要求7所述的方法,还包括通过所述用户界面接收所述输入。
9.如权利要求1所述的方法,其中所述处理还包括至少部分基于与节点关联的值来生成所述网络的图形表示,该图形表示中不同的节点子组被加以区别,其中与特定节点关联的值对该特定节点所表示的标记在所接收的数据记录内出现的实例数目计数加以量化。
10.如权利要求9所述的方法,其中确定该所接收的数据记录是否满足该候选项数据记录所属的候选项数据群的群关联标准包括:获取该候选项数据记录所属的候选项数据群的至少一个代表数据记录,以及将该所接收的数据记录与所述代表数据记录进行比较。
11.如权利要求10所述的方法,其中至少一第一子组包括至少一个与一标记关联的节点,该标记是由所述第一子组中其他节点表示的标记的代表。
12.如权利要求11所述的方法,其中识别数据群以关联于第一接收数据记录包括用所述第一接收数据记录的代表标记来取代所述第一接收数据记录中的至少一个标记。
13.如权利要求9所述的方法,其中至少一个子组包括第一节点和通过遍历与比关联于所述第一节点的值相等或更低的值相关联的节点连接的边所得到的节点。
14.如权利要求9所述的方法,其中与大于一阈值的值关联的节点可图形地区别于值不大于所述阈值的节点。
15.如权利要求1所述的方法,其中确定该所接收的数据记录是否满足该候选项数据记录所属的候选项数据群的群关联标准包括:获取该候选项数据记录所属的候选项数据群的至少一个代表数据记录,以及将该所接收的数据记录与所述代表数据记录进行比较。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于起元科技有限公司,未经起元科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201280067094.3/1.html,转载请声明来源钻瓜专利网。