[发明专利]基于长时特征和短时特征的重叠语音与单人语音区分方法有效

专利信息
申请号: 201210442113.8 申请日: 2012-11-07
公开(公告)号: CN102968986A 公开(公告)日: 2013-03-13
发明(设计)人: 李艳雄;陈祝允;贺前华;李广隆;杜佳媛;吴伟;王梓里 申请(专利权)人: 华南理工大学
主分类号: G10L15/02 分类号: G10L15/02;G10L15/06;G10L25/03
代理公司: 广州市华学知识产权代理有限公司 44245 代理人: 蔡茂略
地址: 510640 广东省广*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 特征 重叠 语音 单人 区分 方法
【说明书】:

技术领域

发明涉及语音信号处理和模式识别技术,尤其涉及一种基于长时特征和短时特征的重叠语音与单人语音区分方法。

背景技术

重叠语音(Overlapped Speech,OS)是指多人同时说话时所产生的语音。在多人会话语音中重叠语音频繁出现,例如在ICSI会议语音数据库中,6~14%的语音存在重叠。由于重叠语音与单人语音(一个发音人所产生的语音)的声学特性不同,因此重叠语音的出现将导致目前处理单人语音的语音识别系统、说话人分割聚类系统的性能急剧下降。将重叠语音与单人语音区分开,对于提高多说话人语音识别的性能、说话人分割聚类性能、语音处理系统的实用性都具有非常重要的意义。

目前,文献报道的重叠语音与单人语音的区分方法所采用的特征都是短时特征(Short-term Features,SF),即从短时语音帧(20~40毫秒)中提取的特征。这些短时特征也被应用于语音识别、说话人识别中。例如,梅尔频率倒谱系数(Mel-Frequency Cepstral Coefficients,MFCCs)、短时能量(Short Time Energy,STE)、过零率(Zero-Crossing Rate,ZCR)等。尽管短时帧层的特征参数能够较好地刻画重叠语音与单人语音的某些差异,但它们却不能刻画上述两种语音在统计意义的差异,例如特征的均值差异、最大值差异、最小值差异、中值差异、均方差的差异等。也就是说,短时特征参数不能有效表征重叠语音与单人语音的统计特性差异。

发明内容

本发明的目的在于解决现有技术所存在的不足,提供一种基于长时特征和短时特征的重叠语音与单人语音区分方法:

一种基于长时特征和短时特征的重叠语音与单人语音区分方法,包括如下步骤:

S1读入语音:读入记录有重叠语音或单人语音的语音文件;

S2语音预处理:对读入的语音文件进行预加重、分帧、加窗;

S3提取短时特征:从经过预处理的语音帧中提取短时特征,所述短时特征包括梅尔频率倒谱系数及其一阶差分、短时能量、过零率,将提取的短时特征拼接得到短时特征矩阵;

S4提取长时特征:计算短时特征矩阵的统计特征,所述统计特征包括均值、最大值、最小值、中值、均方差,得到长时特征矩阵;

S5训练高斯混合模型:采用EM算法训练四个高斯混合模型,包括单人语音的短时特征模型、单人语音的长时特征模型、重叠语音的短时特征模型、重叠语音的长时特征模型;

S6模型融合判决:将短时特征矩阵和长时特征矩阵分别输入短时特征模型和 长时特征模型,所述短时特征模型包括单人语音的短时特征模型和重叠语音的短时特征模型,长时特征模型包括单人语音的长时特征模型和重叠语音的长时特征模型,并将这两种模型的输出概率进行加权得到总的概率输出值,根据总的概率输出值将测试语音判为重叠语音或单人语音,实现重叠语音与单人语音的区分。

所述S2中对读入的语音文件进行预加重、分帧、加窗,具体步骤为:

S2.1预加重,具体为:设置数字滤波器的Z传递函数为H(z)=1-αz-1,其中α取值为:0.9≤α≤1,读入的语音通过数字滤波器后实现预加重;

S2.2分帧、加窗,具体步骤为:

S2.2.1设置语音帧的帧长为40毫秒、帧移为20毫秒,帧长和帧移所对应的采样点个数分别为N=0.04×fs和S=0.02×fs,其中fs为语音采样频率,将输入语音分割成T个语音帧x′t(n),且每个语音帧包含N个采样点;

S2.2.2计算汉明窗函数ω(n):

S2.2.3对每一个语音帧x′t(n)加汉明窗,得到xt(n):

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华南理工大学,未经华南理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201210442113.8/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top