[发明专利]基于期望最大确定统计模型参数的方法和装置在审
| 申请号: | 201410040503.1 | 申请日: | 2014-01-27 |
| 公开(公告)号: | CN104809098A | 公开(公告)日: | 2015-07-29 |
| 发明(设计)人: | 曾嘉;兰亮;陈嘉 | 申请(专利权)人: | 华为技术有限公司 |
| 主分类号: | G06F17/18 | 分类号: | G06F17/18 |
| 代理公司: | 北京林达刘知识产权代理事务所(普通合伙) 11277 | 代理人: | 刘新宇 |
| 地址: | 518129 广东*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 期望 最大 确定 统计 模型 参数 方法 装置 | ||
技术领域
本发明涉及数据统计领域,尤其涉及一种基于期望最大确定统计模型参数的方法和装置。
背景技术
期望最大(Expectation Maximization,EM)方法可以通过若干次迭代寻找最大后验概率。目前,EM方法广泛应用于对例如高斯混合模型(Gaussian mixture models)、隐马尔科夫模型(hidden Markov models)等统计模型的参数进行估计,可不间断地根据新的数据中估计并学习统计模型的参数。
通常,EM方法可以划分为输入、EM聚类和输出这三部分。其中,输入部分主要用于将包括N个数据点的数据集以矩阵的形式输入到EM聚类部分;EM聚类部分主要用于通过将统计模型的参数作为已知量来求各数据点属于K个聚类中心的后验概率、即E步骤,基于所求得的后验概率来更新统计模型的参数、即M步骤,并通过E步骤和M步骤的反复迭代来逐步优化统计模型的参数;以及,输出部分主要用于输出统计模型的参数。
由于在E步骤中需要计算所有数据点在所有聚类中心的后验概率矩阵,上述EM方法的迭代成本以及时间成本较高,尤其在数据集的规模较大、例如N≥1000000和/或聚类中心的数量较多、例如K≥1000时。
发明内容
有鉴于此,本发明要解决的技术问题是,如何尽量降低基于EM方法确定统计模型的参数时的迭代成本以及时间成本。
为了解决上述技术问题,第一方面,本发明提供了一种确定统计模型参数的方法,用于基于N个数据点确定统计模型的参数,其中N为大于或等于2的整数,包括:
接收包括N个数据点以及N个数据点的D个属性的数据集以组织成输入矩阵,其中D为大于或等于1的整数;
根据所述输入矩阵,设定K个聚类中心、所述参数的初始值以及后验概率矩阵μN×K(μn,k)的初始值其中,后验概率μn,k表示第n个数据点在第k个聚类中心上的后验概率,其中K为大于或等于2的整数,1≤n≤N,1≤k≤K,以及根据以及所述参数的初始值计算
基于计算得到第t次循环的所述参数,并计算所述N个数据点在所述K个聚类中心的残差其中t≥1;
基于所述N个数据点在所述K个聚类中心的残差从所述N个数据点中选出M个数据点,并从所述K个聚类中心选出L个聚类中心,其中1≤M≤N、1≤L≤K;
根据第t次循环计算得到的所述参数计算所述M个数据点在所述L个聚类中心上的后验概率
根据所计算出的所述后验概率更新所述N个数据点在所述K个聚类中心上的后验概率矩阵并基于计算出的所述后验概率更新第t+1次循环的所述参数的值;
判断第t+1次循环的所述参数是否收敛,在所述参数为收敛时,停止循环并输出所述参数。
结合第一方面,在第一种可能的实现方式中,所述基于所述N个数据点在所述K个聚类中心的残差从所述N个数据点中选出M个数据点,并从所述K个聚类中心选出L个聚类中心,包括:
计算每个所述数据点的残差并从所述N个数据点中选出残差rtn最大的M个数据点;
根据各数据点在各所述聚类中心的残差针对所述M个数据点中的每个数据点,分别从所述K个聚类中心中选出残差最大的L个聚类中心。
结合第一方面,在第二种可能的实现方式中,所述基于所述N个数据点在所述K个聚类中心的残差从所述N个数据点中选出M个数据点,并从所述K个聚类中心选出L个聚类中心,包括:
计算每个所述数据点的残差并从所述K个聚类中心中选出残差最大的L个聚类中心;
根据各数据点在各所述聚类中心的残差针对所述K个聚类中心的每个聚类中心,分别从所述N个数据点中选出残差最大的M个数据点。
结合第一方面以及第一方面的第一种可能的实现方式至第二种可能的实现方式中的任意一个,在第三种可能的实现方式中,在所述接收包括N个数据点以及N个数据点的D个属性的数据集以组织成输入矩阵之后,还包括:
设定比例因子λn和λk,其中0<λn≤0.5,0<λk≤0.5;
根据所述比例因子λn和λk计算所述M和所述L的值,其中,M=λnN,L=λkK。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华为技术有限公司,未经华为技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410040503.1/2.html,转载请声明来源钻瓜专利网。





