[发明专利]基于混合t模型的说话人识别方法无效

专利信息
申请号: 200810162449.2 申请日: 2008-11-25
公开(公告)号: CN101419799A 公开(公告)日: 2009-04-29
发明(设计)人: 吴朝晖;杨莹春;单振宇 申请(专利权)人: 浙江大学
主分类号: G10L17/00 分类号: G10L17/00
代理公司: 杭州天勤知识产权代理有限公司 代理人: 胡红娟
地址: 310027浙*** 国省代码: 浙江;33
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 混合 模型 说话 识别 方法
【说明书】:

技术领域

发明涉及信号处理和模式识别,主要是一种基于混合t模型的说话人识别方法。

背景技术

说话人识别技术是指利用信号处理和模式识别方法,根据说话人的语音识别其身份的技术。说话人识别包括两个步骤,包括模型训练和测试。其中,模型训练是指对说话人的语音特征建模的过程。如果要取得良好的识别性能,需要考虑建模的模型类型和模型参数的训练两个方面。模型类型的选择方法和语音数据的分布有关,目前常用的说话人模型类型有混合高斯模型(Douglas A.Reynolds,Richard C.Rose,“Robust Text-IndependentSpeaker Identification Using Gaussian Mixture Speaker Models”,IEEETRANSACTIONS ON SPEECH AND AUDIO PROCESSING,VOL.3,no.1,pp.72-83,JANUARY 1995.)和码本模型。

由于语音数据有较大的边缘分布,高斯混合模型不能很好的对边缘数据建模。

发明内容

本发明提出了一种基于混合t模型的说话人识别方法。该方法采用混合t模型为说话人的语音特征空间建模,是一种新的说话人模型,t分布又可称为学生分布,混合t分布是有限数量的t分布的线性组合。

一种基于混合t模型的说话人识别方法,包括如下步骤:

1)、特征提取:采集待识别的语音信号,对音频信号预处理,预处理分为采样量化,去零漂,预加重和加窗4个步骤。

对预处理后的语音信号进行特征提取,本方法可以采用的特征提取方法为基于美尔系数的特征提取方法、基于美尔倒谱系数(MFCC)的特征提取方法、基于线性预测倒谱系数的特征提取方法(LPCC)中的一种或多种。

关于预处理中的4个步骤、基于美尔系数、基于美尔倒谱系数(MFCC)的特征提取方法以及基于线性预测倒谱系数的特征提取方法均可参见JOSEPH P.CAMPBELL,JR.的“Speaker Recognition:A Tutorial”,《PROCEEDINGS OF THE IEEE》(VOL.85,NO.9,pp.1437-1462,SEPTEMBER 1997)。

采用不同的提取方法,可分别得到语音信号的美尔特征、美尔倒谱特征或线性预测倒谱特征。每帧特征可用xj表示,是一个p维的向量。

2)、说话人建模:采用混合t模型对语音特征建模,根据说话人的语音训练出其混合t模型的参数;

混合t模型是M个t分布的线性组合,可以表示为:

p(x)=Σi=1Mwiti(x)]]>

其中,x是一个p维的向量,即向量的维数为p(整数);

wi表示每个t分布的混合权重,必须满足Σi=1Mwi=1.]]>

ti(x)为t分布,表示为:

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大学,未经浙江大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/200810162449.2/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top