[发明专利]用于获得模型的方法和设备在审
申请号: | 201610197405.8 | 申请日: | 2016-03-31 |
公开(公告)号: | CN107292321A | 公开(公告)日: | 2017-10-24 |
发明(设计)人: | 冯璐;刘春辰;卫文娟;藤卷辽平 | 申请(专利权)人: | 日本电气株式会社 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 北京市金杜律师事务所11256 | 代理人: | 王茂华 |
地址: | 日本*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 获得 模型 方法 设备 | ||
技术领域
本公开的实施例涉及机器学习领域,并且更具体地,涉及用于获得模型的方法和设备。
背景技术
随着信息技术的飞速发展,数据规模的增长十分迅速。在这样的背景和趋势下,机器学习受到越来越广泛的关注。聚类分析是机器学习领域重要的基础性问题,它将样本点划分到不同的簇中,使得特征相似的样本点在相同的簇中。针对例如用于描述用户对电影的评分的二元数据(dyadic data)而言,二值矩阵分解(Binary Matrix Factorization,BMF)模型是一种常见的聚类分析方法。BMF模型通过寻找表示数据的组成部分的两个二值特征矩阵及表示这些组成部分之间的混合关系的一个权重矩阵来拟合原始数据。此外,可以在经典的分解渐进贝叶斯(Factorized Asymptotic Bayesian,FAB)推理方法中使用随机优化技术(Stochastic FAB,简称为sFAB)来获得BMF模型的参数,以提高计算的速度。
然而,上述的方法需要足够大的存储器来存储所有的样本数据,并且需要预先知道样本数据的总数目。这对于其中样本数据为无止尽的数据流的应用场景而言是不现实的。
发明内容
本公开的实施例提供了一种用于获得模型的方法和设备。
根据本公开的第一方面,提供了一种用于获得模型的方法。该方法包括获取模型的第一组参数,第一组参数基于数据流中的第一组数据而生成,该数据流中的数据与至少两个维度相关联,至少两 个维度与至少两组潜特征分别关联,第一组参数描述包括第一组数据在内的该数据流在至少两组潜特征上的分布。该方法还包括基于第一组参数,确定该数据流中在第一组数据之后观察到的第二组数据的与至少两组潜特征相关联的概率。该方法还包括基于第一组参数和该概率来确定模型的第二组参数,第二组参数描述包括第一组数据和第二组数据在内的该数据流在至少两组潜特征上的分布。此外,该方法还包括基于第二组参数和该概率来确定模型对该数据流的拟合度。
根据本公开的第二方面,提供了一种用于获得模型的设备。该设备包括至少一个处理单元以及至少一个存储器。至少一个存储器耦合至至少一个处理单元并且具有在其上存储的指令,该指令在由至少一个处理单元执行时使得该设备执行以下动作:获取模型的第一组参数,第一组参数基于数据流中的第一组数据而生成,该数据流中的数据与至少两个维度相关联,至少两个维度与至少两组潜特征分别关联,第一组参数描述包括第一组数据在内的该数据流在至少两组潜特征上的分布;基于第一组参数,确定该数据流中在第一组数据之后观察到的第二组数据的与至少两组潜特征相关联的概率;基于第一组参数和该概率来确定模型的第二组参数,第二组参数描述包括第一组数据和第二组数据在内的该数据流在至少两组潜特征上的分布;以及基于第二组参数和该概率来确定模型对该数据流的拟合度。
根据本公开的第三方面,提供了一种计算机可读存储介质。该计算机可读存储介质具有在其上存储的计算机可读程序指令。这些计算机可读程序指令用于执行根据以上第一方面所描述的方法的步骤。
本公开的实施例能够对流入的一组数据进行即时处理并且丢弃之前流入的数据,而无需在存储器中存储所有数据,因此适合于其中样本数据为无止尽的数据流的应用场景。此外,本公开的实施例通过模型扩展和模型收缩的机制能够很好地体现最近流入的数据中 的特征,从而提高数据处理的效率。
提供发明内容部分是为了简化的形式来介绍对概念的选择,它们在下文的具体实施方式中将被进一步描述。发明内容部分无意标识本公开的关键特征或主要特征,也无意限制本公开的范围。
附图说明
通过结合附图对本公开示例性实施例进行更详细的描述,本公开的上述以及其它目的、特征和优势将变得更加明显,其中,在本公开示例性实施例中,相同的参考标号通常代表相同部件。
图1示出了根据本公开的实施例的用于获得模型的架构100的框图;
图2示出了根据本公开的实施例的用于获得模型的方法200的流程图;
图3示出了根据本公开的实施例的用于模型扩展的方法300的流程图;
图4示出了根据本公开的实施例的用于模型扩展的方法400的流程图;
图5示出了根据本公开的实施例的用于模型收缩的方法500的流程图;以及
图6示出了可以用来实施本公开的实施例的示例设备600的示意性框图。
具体实施例
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于日本电气株式会社,未经日本电气株式会社许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201610197405.8/2.html,转载请声明来源钻瓜专利网。