[发明专利]一种声纹识别方法有效
申请号: | 201210295572.8 | 申请日: | 2012-08-17 |
公开(公告)号: | CN102820033A | 公开(公告)日: | 2012-12-12 |
发明(设计)人: | 申富饶;唐泽林;赵金熙;程佳 | 申请(专利权)人: | 南京大学 |
主分类号: | G10L17/00 | 分类号: | G10L17/00 |
代理公司: | 江苏圣典律师事务所 32237 | 代理人: | 胡建华 |
地址: | 210000 江苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 声纹 识别 方法 | ||
1.一种声纹识别方法,其特征在于,包括以下步骤:
步骤1,对训练语音集内每个说话人的分段语音数据预处理,形成预处理后对应每个说话人的一组样本集合,一个说话人的语音数据唯一对应一个样本集合;
步骤2,对所有样本集合中每一个样本进行提取梅尔倒谱系数;
步骤3,逐一选定一个样本集合并随机选取其中部分样本的梅尔倒谱系数,对该样本集合训练高斯混合模型,直到所有样本集合都训练得到高斯混合模型,将所有高斯混合
模型组成一个模型库;
步骤4,将步骤3中未被选取训练过的样本,与其对应样本集合的高斯混合模型逐个进行增量学习得到所有优化后的高斯混合模型,利用所有优化后的高斯混合模型优化模型库;
步骤5,输入并识别测试语音数据,利用步骤4中优化的模型库识别测试语音数据对应的样本集合的高斯混合模型,即确定对应说话人,将测试语音数据加入到该说话人对应的样本集合中。
2.根据权利要求1所述的一种声纹识别方法,其特征在于,步骤4中,对所述对应样本集合中未被选取训练过的样本,以步骤3中高斯混合模型的均值、方差和权重为增量学习高斯混合模型初始均值、方差和权重,进行高斯混合模型增量学习,将增量学习所得到的高斯混合模型的均值、方差和权重组成对应样本集合优化后的高斯混合模型。
3.根据权利要求2所述的一种声纹识别方法,其特征在于,步骤4中所述增量学习包括以下步骤:
步骤41,以步骤3中对应样本集合的当前高斯混合模型的均值、方差和权重作为初始值;
步骤42,在该集合中未被选取训练过的所有样本中选取若干样本的梅尔倒谱系数,组成增量学习样本S;
步骤43,计算增量学习样本S与对应样本集合的当前高斯混合模型I={M1,M2,...,MN}的相似度,其中M1,M2,...…,MN为高斯聚类,N的取值范围为30~60,将不与高斯混合模型I中任何高斯聚类相似的样本划分为劣势样本点,组成劣势样本点集合S1,将其余的样本点划分为优势样本点,组成优势样本点集合S2,其中S2={S-S1};
将与高斯混合模型I中单个高斯聚类所匹配的样本点个数小于增量学习样本S的样本点数1%的聚类划分为劣势聚类,组成劣势聚类集合I1={M′1,M′2,...,M′K},k≤N,高斯混合模型I中余下的聚类划分为优势聚类,组成优势聚类集合I2,其中I2=I-I1;
步骤44,根据当前高斯混合模型的均值、方差和权重,根据步骤43中优势聚类集合I2和优势样本点集合S2计算新的高斯混合模型的均值、方差和权重;
步骤45,若步骤43的劣势样本点集合S2中样本点个数与增量学习样本S中样本点个数比值大于预设值,则用K均值方法进行聚类,选取一个密度最大的聚类,若该聚类的聚类密度大于当前高斯混合模型中的最小聚类密度,则将该聚类添加到当前高斯混合模型中,将该聚类中的样本点划分为优势样本点,添加到优势样本点集合S2中,并从劣势样本点集合S1中去除;
步骤46,重复步骤43~步骤45,直到聚类均值、方差、权重和高斯聚类的个数达到迭代收敛或者迭代次数达到预设值停止,将此时的聚类均值、方差、权重和高斯聚类的个数作为当前高斯混合模型参数;
步骤47,根据步骤46中得到的当前高斯混合模型参数,重复步骤42~步骤46,直到所有样本集合中的所有样本都被选取训练完,得到优化模型库。
4.根据权利要求3所述的一种声纹识别方法,其特征在于,步骤5包括对测试语音数据的预处理、提取测试语音数据的梅尔倒谱系数,计算测试语音数据中每帧梅尔倒谱系数的帧置信度,将置信度大于预设值的帧与步骤4中所得到模型库中的高斯混合模型进行相似度匹配,相似度最大的高斯混合模型所对应的说话人即为此帧的候选说话人,将测试语音数据中出现次数最多的候选说话人作为测试结果,将测试语音数据加入到该说话人对应的样本集合中。
5.根据权利要求1或4所述的一种声纹识别方法,其特征在于,所述语音数据预处理包括:语音数据的加汉明窗分帧、计算每帧语音的短时能量和短时过零率,计算所有语音帧短时能量的算术平均值和所有帧短时过零率的算术平均值,将短时能量小于短时能量的算术平均值一半或短时过零率高于短时过零率的算术平均值的语音帧丢弃,剩下的语音数据作为预处理后的样本集合。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京大学,未经南京大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210295572.8/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种防止弹丸嵌入钢板的抛丸机
- 下一篇:一种UC轴承外球面测量装置