[发明专利]从分布式数据学习有效
| 申请号: | 201680009815.3 | 申请日: | 2016-02-12 |
| 公开(公告)号: | CN107430610B | 公开(公告)日: | 2021-08-03 |
| 发明(设计)人: | R·诺克;G·派特锐尼 | 申请(专利权)人: | 澳大利亚国家ICT有限公司 |
| 主分类号: | G06F16/27 | 分类号: | G06F16/27;G06F16/28;G06K9/62 |
| 代理公司: | 中国贸促会专利商标事务所有限公司 11038 | 代理人: | 魏小薇 |
| 地址: | 澳大利亚*** | 国省代码: | 暂无信息 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 分布式 数据 学习 | ||
本公开涉及从分布式数据学习。具体而言,涉及从多个第一数据样本确定多个第一训练样本。多个第一数据样本中的每一个包括多个第一特征值和对该第一数据样本进行分类的第一标签。处理器通过以下方式确定该多个第一训练样本中的每一个:选择该多个第一数据样本的第一子集,使得第一子集包括具有该多个第一特征值中的对应的一个或多个第一特征值的数据样本,以及基于第一子集的第一数据样本中的每一个的第一标签,组合第一子集的数据样本的第一特征值。可以将所得的训练样本与共享相同的对应特征的来自其他数据库的训练样本组合,以及实体匹配是不必要的。
对相关申请的交叉引用
本申请要求来自2015年2月13日提交的澳大利亚临时专利申请No.2015900463的优先权,该申请的内容在此通过引用并入本文。
技术领域
本公开涉及从分布式数据学习。
背景技术
通过因特网提供服务或产品的公司常常从其客户收集广泛的数据,并处理这种数据以获得对其客户的行为的聚合型洞察。
在很多情况下,与一个个体客户相关的数据可以在多个独立的数据库中发现。不过,这些数据库中的大部分不共享公共的唯一标识符,诸如社会保险号。因此,难以使用来自这两个数据库的数据进行学习。
图1例示了现有技术情境100,其包括个体102、数据聚合器104(诸如公司),第一数据库106和第二数据库108。如箭头110和112所指示的,与个体102相关的数据包含在数据库106和108两者中。
已经包括在本说明书中的文档、法令、材料、装置、物品等的任何论述不应被视为承认这些事物的任一种或全部形成现有技术基础的一部分或当其存在于本申请的每项权利要求的优先权日期之前时是本公开相关领域中的公知常识。
贯穿本说明书,词语“包括”或其变型将被理解为暗示包括所述的元件、整数或步骤、或元件、整数或步骤的组,但不排除任何其他元件、整数或步骤或元件、整数或步骤的组。
发明内容
提供了一种用于从多个第一数据样本确定多个第一训练样本的计算机实现的方法。该多个第一数据样本中的每一个包括多个第一特征值和对第一数据样本进行分类的第一标签。该方法包括:
通过以下方式确定该多个第一训练样本中的每一个:
选择该多个第一数据样本的第一子集,使得第一子集包括具有该多个第一特征值中的对应的一个或多个第一特征值的数据样本,并且
基于第一子集的第一数据样本中的每一个的第一标签,组合第一子集的数据样本的第一特征值。
由于共享对应特征的数据样本被组合,即,处在数据集的相同块中,所以可以将所得训练样本与共享相同的对应特征的来自其他数据库的训练样本组合。作为结果,实体匹配是不必要的,这意味着与从独立数据集学习的其他方法相比的更高的精确度和更低的计算复杂性。
该多个第一数据样本可以是第一数据集的数据样本,并且该多个第一特征值中的对应的一个或多个第一特征值也可以是第二数据集的多个第二数据样本的第二子集的对应特征值。
该方法还可以包括组合该多个第一训练样本中的两个或更多个第一训练样本,以由此确定组合的训练样本。
组合该多个第一训练样本中的两个或更多个第一训练样本可以包括将该多个第一训练样本中的两个或更多个第一训练样本加起来。
选择第一子集可以包括选择该多个第一数据样本中的具有该多个特征值中的对应的一个或多个特征值的全部第一数据样本。
选择该多个第一数据样本的第一子集可以包括选择该多个第一数据样本的第一子集,以使得第一子集包括具有该多个第一特征值中的对应的两个或更多个第一特征值的数据样本。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于澳大利亚国家ICT有限公司,未经澳大利亚国家ICT有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201680009815.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:针对企业环境的浏览器新标签页的生成
- 下一篇:过滤数据沿袭图
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置





