[发明专利]大规模异构数据摄取和用户解析在审
| 申请号: | 202310190914.8 | 申请日: | 2018-01-31 |
| 公开(公告)号: | CN116205724A | 公开(公告)日: | 2023-06-02 |
| 发明(设计)人: | 阿努库尔·雷杰;普拉什安特·库马尔·萨海;默文·拉利;什里西·库马尔;圣斯卡尔·萨海 | 申请(专利权)人: | 益百利信息解决方案公司 |
| 主分类号: | G06Q40/03 | 分类号: | G06Q40/03 |
| 代理公司: | 北京京万通知识产权代理有限公司 11440 | 代理人: | 许天易 |
| 地址: | 美国加利福尼亚*** | 国省代码: | 暂无信息 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 大规模 数据 摄取 用户 解析 | ||
1.一种用于为收集的事件信息确定帐户持有者标识的计算机系统,所述计算机系统包括:
一个或多个硬件计算机处理器;以及
一个或多个存储设备,其配置为存储软件指令,所述软件指令配置为被所述一个或多个硬件计算机处理器执行以使所述计算机系统:
从多个数据源接收与相应多个事件关联的多个事件信息;
对于每个事件信息:
访问包括数据源与标识符参数之间关联的数据存储,所述标识符参数至少包括对来自相应数据源的事件信息中包括的一个或多个标识符的指示;
至少基于所述事件信息的数据源的标识符参数,确定如被访问的数据存储中指示的所述事件信息中包括的标识符;以及
至少基于相应标识符参数从所述事件信息中提取标识符,其中,所述标识符的组合包括与唯一用户关联的唯一标识,
访问多个散列函数,每个所述散列函数与标识符的组合关联;
对于每个唯一标识,通过对所述多个散列函数求值计算多个散列值;
基于唯一标识是否共享使用公共散列函数计算出的公共散列值,选择性地将唯一标识分组成与公共散列值关联的唯一标识集合;
对于每个唯一标识集合:
应用一个或多个匹配规则,所述一个或多个匹配规则包括用于在所述集合内比较唯一标识的标准;以及
将满足所述一个或多个匹配规则的唯一标识确定为唯一标识匹配集合;
通过重复从每个唯一标识匹配集合建立记录对,反转每个记录对,以及按最左边的记录进行分组的过程,其中所述最左边记录在所述记录对之间是公共的,直到所述唯一标识匹配集合被合并,其中每个合并集合与一个用户关联,从而对各自包括至少一个公共唯一标识的唯一标识匹配集合进行合并,以提供与其他合并集合不具有公共唯一标识的一个或多个合并集合;
对于每个合并集合:
确定反向个人标识符;以及
将所述反向个人标识符与所述合并集合中的唯一标识中的每一个关联,
以创建反向个人标识符映射;
对于每个唯一标识,使用所述反向个人标识符映射:
识别与关联于所述唯一标识的所述标识符的组合中的至少一个关联的事件信息;以及
将所述反向个人标识符与所述识别的事件信息关联,其中每个反向个人标识符与所述合并集合中的多个唯一标识相关联,所述合并集合与所述唯一用户相关联。
2.如权利要求1所述的计算机系统,其中,所述散列函数至少包括:
第一散列函数,其对从事件信息中提取的至少第一标识符的部分和至少第二标识符的部分的第一组合求值;以及
第二散列函数,其对从事件信息中提取的至少所述第一标识符的部分和至少第三标识符的部分的第二组合求值。
3.如权利要求2所述的计算机系统,其中,基于所述第一标识符或所述第二标识符中的一个或多个的标识符类型,选择所述第一散列函数。
4.如权利要求2所述的计算机系统,其中,所述第一标识符是所述唯一用户的社会保险号码,所述第二标识符是所述唯一用户的姓氏,并且所述第一组合是少于所述社会保险号码所有数字与少于所述唯一用户姓氏所有字符的串接。
5.如权利要求2所述的计算机系统,其中,第一事件集合包括与第一散列值关联的多个事件,第二事件集合包括各自与第二散列值关联的多个事件。
6.如权利要求1所述的计算机系统,其中,所述标识符选自:名字、姓氏、中间名首字母、中间名、出生日期、社会保险号码、纳税人ID或国家ID。
7.如权利要求1所述的计算机系统,其中,所述计算机系统生成将反向个人标识符关联到所述合并集合中的剩余唯一标识中的每一个的反向映射,并将所述映射存储在数据存储中。
8.如权利要求1所述的计算机系统,还包括:基于分配给所述剩余唯一标识的所述反向个人标识符,将所述反向个人标识符分配给包括所述剩余唯一标识的所述多个事件信息中的每一个。
9.如权利要求1所述的计算机系统,其中,所述散列函数包括位置敏感散列。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于益百利信息解决方案公司,未经益百利信息解决方案公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310190914.8/1.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置





