[发明专利]基于期望最大确定统计模型参数的方法和装置在审
| 申请号: | 201410040503.1 | 申请日: | 2014-01-27 |
| 公开(公告)号: | CN104809098A | 公开(公告)日: | 2015-07-29 |
| 发明(设计)人: | 曾嘉;兰亮;陈嘉 | 申请(专利权)人: | 华为技术有限公司 |
| 主分类号: | G06F17/18 | 分类号: | G06F17/18 |
| 代理公司: | 北京林达刘知识产权代理事务所(普通合伙) 11277 | 代理人: | 刘新宇 |
| 地址: | 518129 广东*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 期望 最大 确定 统计 模型 参数 方法 装置 | ||
1.一种确定统计模型参数的方法,用于基于N个数据点确定统计模型的参数,其中N为大于或等于2的整数,其特征在于,包括:
接收包括N个数据点以及N个数据点的D个属性的数据集以组织成输入矩阵,其中D为大于或等于1的整数;
根据所述输入矩阵,设定K个聚类中心、所述参数的初始值以及后验概率矩阵μN×K(μn,k)的初始值其中,后验概率μn,k表示第n个数据点在第k个聚类中心上的后验概率,其中K为大于或等于2的整数,1≤n≤N,1≤k≤K,以及根据以及所述参数的初始值计算
基于计算得到第t次循环的所述参数,并计算所述N个数据点在所述K个聚类中心的残差其中t≥1;
基于所述N个数据点在所述K个聚类中心的残差从所述N个数据点中选出M个数据点,并从所述K个聚类中心选出L个聚类中心,其中1≤M≤N、1≤L≤K;
根据第t次循环计算得到的所述参数计算所述M个数据点在所述L个聚类中心上的后验概率
根据所计算出的所述后验概率更新所述N个数据点在所述K个聚类中心上的后验概率矩阵并基于计算出的所述后验概率更新第t+1次循环的所述参数的值;
判断第t+1次循环的所述参数是否收敛,在所述参数为收敛时,停止循环并输出所述参数。
2.根据权利要求1所述的方法,其特征在于,所述基于所述N个数据点在所述K个聚类中心的残差从所述N个数据点中选出M个数据点,并从所述K个聚类中心选出L个聚类中心,包括:
计算每个所述数据点的残差并从所述N个数据点中选出残差rtn最大的M个数据点;
根据各数据点在各所述聚类中心的残差针对所述M个数据点中的每个数据点,分别从所述K个聚类中心中选出残差最大的L个聚类中心。
3.根据权利要求1所述的方法,其特征在于,所述基于所述N个数据点在所述K个聚类中心的残差从所述N个数据点中选出M个数据点,并从所述K个聚类中心选出L个聚类中心,包括:
计算每个所述数据点的残差并从所述K个聚类中心中选出残差最大的L个聚类中心;
根据各数据点在各所述聚类中心的残差针对所述K个聚类中心的每个聚类中心,分别从所述N个数据点中选出残差最大的M个数据点。
4.根据权利要求1-3中任一项所述的方法,其特征在于,在所述接收包括N个数据点以及N个数据点的D个属性的数据集以组织成输入矩阵之后,还包括:
设定比例因子λn和λk,其中0<λn≤0.5,0<λk≤0.5;
根据所述比例因子λn和λk计算所述M和所述L的值,其中,M=λnN,L=λkK。
5.根据权利要求1-4中任一项所述的方法,其特征在于,判断第t+1次循环的所述参数的值是否收敛,包括:
计算在第t+1次循环计算得到的所述参数与在第t次循环计算得到的所述参数之间的差;
判断所述差的绝对值是否超出预设的阈值;
若所有所述差的绝对值都小于所述预设的阈值,则确定所述第t+1次循环的所述参数收敛;
若任一所述差的绝对值不小于所述预设的阈值,则确定所述第t+1次循环的所述参数不收敛。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华为技术有限公司,未经华为技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410040503.1/1.html,转载请声明来源钻瓜专利网。





