[发明专利]从分布式数据学习有效

专利信息
申请号: 201680009815.3 申请日: 2016-02-12
公开(公告)号: CN107430610B 公开(公告)日: 2021-08-03
发明(设计)人: R·诺克;G·派特锐尼 申请(专利权)人: 澳大利亚国家ICT有限公司
主分类号: G06F16/27 分类号: G06F16/27;G06F16/28;G06K9/62
代理公司: 中国贸促会专利商标事务所有限公司 11038 代理人: 魏小薇
地址: 澳大利亚*** 国省代码: 暂无信息
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 分布式 数据 学习
【说明书】:

本公开涉及从分布式数据学习。具体而言,涉及从多个第一数据样本确定多个第一训练样本。多个第一数据样本中的每一个包括多个第一特征值和对该第一数据样本进行分类的第一标签。处理器通过以下方式确定该多个第一训练样本中的每一个:选择该多个第一数据样本的第一子集,使得第一子集包括具有该多个第一特征值中的对应的一个或多个第一特征值的数据样本,以及基于第一子集的第一数据样本中的每一个的第一标签,组合第一子集的数据样本的第一特征值。可以将所得的训练样本与共享相同的对应特征的来自其他数据库的训练样本组合,以及实体匹配是不必要的。

对相关申请的交叉引用

本申请要求来自2015年2月13日提交的澳大利亚临时专利申请No.2015900463的优先权,该申请的内容在此通过引用并入本文。

技术领域

本公开涉及从分布式数据学习。

背景技术

通过因特网提供服务或产品的公司常常从其客户收集广泛的数据,并处理这种数据以获得对其客户的行为的聚合型洞察。

在很多情况下,与一个个体客户相关的数据可以在多个独立的数据库中发现。不过,这些数据库中的大部分不共享公共的唯一标识符,诸如社会保险号。因此,难以使用来自这两个数据库的数据进行学习。

图1例示了现有技术情境100,其包括个体102、数据聚合器104(诸如公司),第一数据库106和第二数据库108。如箭头110和112所指示的,与个体102相关的数据包含在数据库106和108两者中。

已经包括在本说明书中的文档、法令、材料、装置、物品等的任何论述不应被视为承认这些事物的任一种或全部形成现有技术基础的一部分或当其存在于本申请的每项权利要求的优先权日期之前时是本公开相关领域中的公知常识。

贯穿本说明书,词语“包括”或其变型将被理解为暗示包括所述的元件、整数或步骤、或元件、整数或步骤的组,但不排除任何其他元件、整数或步骤或元件、整数或步骤的组。

发明内容

提供了一种用于从多个第一数据样本确定多个第一训练样本的计算机实现的方法。该多个第一数据样本中的每一个包括多个第一特征值和对第一数据样本进行分类的第一标签。该方法包括:

通过以下方式确定该多个第一训练样本中的每一个:

选择该多个第一数据样本的第一子集,使得第一子集包括具有该多个第一特征值中的对应的一个或多个第一特征值的数据样本,并且

基于第一子集的第一数据样本中的每一个的第一标签,组合第一子集的数据样本的第一特征值。

由于共享对应特征的数据样本被组合,即,处在数据集的相同块中,所以可以将所得训练样本与共享相同的对应特征的来自其他数据库的训练样本组合。作为结果,实体匹配是不必要的,这意味着与从独立数据集学习的其他方法相比的更高的精确度和更低的计算复杂性。

该多个第一数据样本可以是第一数据集的数据样本,并且该多个第一特征值中的对应的一个或多个第一特征值也可以是第二数据集的多个第二数据样本的第二子集的对应特征值。

该方法还可以包括组合该多个第一训练样本中的两个或更多个第一训练样本,以由此确定组合的训练样本。

组合该多个第一训练样本中的两个或更多个第一训练样本可以包括将该多个第一训练样本中的两个或更多个第一训练样本加起来。

选择第一子集可以包括选择该多个第一数据样本中的具有该多个特征值中的对应的一个或多个特征值的全部第一数据样本。

选择该多个第一数据样本的第一子集可以包括选择该多个第一数据样本的第一子集,以使得第一子集包括具有该多个第一特征值中的对应的两个或更多个第一特征值的数据样本。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于澳大利亚国家ICT有限公司,未经澳大利亚国家ICT有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201680009815.3/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top