[发明专利]一种连续语音流中的叠音检测方法有效

专利信息
申请号: 201510885336.5 申请日: 2015-12-04
公开(公告)号: CN106847267B 公开(公告)日: 2020-04-14
发明(设计)人: 胡琦;张鹏远;潘接林;颜永红 申请(专利权)人: 中国科学院声学研究所;北京中科信利技术有限公司
主分类号: G10L15/14 分类号: G10L15/14;G10L15/20;G10L25/03;G10L25/54
代理公司: 北京方安思达知识产权代理有限公司 11472 代理人: 王宇杨;陈琳琳
地址: 100190 *** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 连续 语音 中的 检测 方法
【权利要求书】:

1.一种连续语音流中的叠音检测方法,所述方法包含:

步骤101)通过对语音进行多尺度表示进而得到一种综合特征,再将得到的综合特征输入HMM检测器进行初次判决;

步骤102)采用非负矩阵分解对初次判决结果进行二次判决,进而剔除受噪声干扰而导致误判的非叠音段;

所述步骤101)进一步包含:

步骤101-1)对语音流进行端点检测,去除静音段;

步骤101-2)获取语音流的综合特征,所述综合特征包括四种尺度下的语谱图参数表示,以及它们的一阶和二阶差分;

步骤101-3)对综合特征包含的特征向量的每一维进行均值和方差归一化处理;

步骤101-4)再将步骤101-3)的处理结果输入HMM检测器进行初次判决;

所述步骤101-2)进一步包含:

步骤101-2-1)计算语音流在四种尺度下的特征参数进而得到52维特征值,并将四种尺度下的特征参数分别记为:MLpR1,MLpR2,MLpR3和MLpR4;

步骤101-2-2)将以上52维特征分成5组,具体分组结构如下:将第1~12维作为MLpR1的DCT系数、将第13~24维作为MLpR2的DCT系数、将第25~36维作为MLpR3的DCT系数、将第37~48维作为MLpR4的DCT系数、将第49~52维作为四种尺度下的LPCR系数;

步骤101-2-3)利用Group LASSO强制组间稀疏,选取最具区分能力的特征组作为综合特征;

所述步骤102)进一步包含:

步骤102-1)用非负矩阵分解在训练集上迭代学习,获得一个用以表示不同说话人语音的字典;

步骤102-2)用语音字典对初步判决得到的叠音段进行重建;

步骤102-3)根据重建误差进行决策,得到最终判决结果。

2.根据权利要求1所述的连续语音流中的叠音检测方法,其特征在于,所述步骤101-2-1)进一步包含:

首先,计算短时傅立叶分析,且短时傅里叶变换各参量的取值为:帧长为20ms,帧移为10ms且FFT采用1024点;

然后,计算得到的短时傅立叶频谱的64个子带的美尔对数谱;

接着,

采用离散余弦变换压缩得到的能量谱,并取第2至13维系数作为MLpR1;此外,计算该尺度下对数美尔频谱的12阶线性预测残差,将12阶线性预测残差作为MLpR1的一维;

MLpR4的分析窗长为200ms,窗移为10ms且FFT采用2048点;MLpR4也由第2至13维DCT系数及12阶LPCR构成;

MLpR2和MLpR3通过采用不同尺度的二维高斯窗平滑MLpR1的美尔对数谱,并提取相应的DCT及LPCR获得;所述二维高斯窗分别为5*5和11*11。

3.根据权利要求1所述的连续语音流中的叠音检测方法,其特征在于,所述步骤102-1)具体为:

计算训练样本的短时傅立叶变换,得到幅度谱Vit,其中短时傅里叶变换的窗长为20ms,帧移为10ms且FFT点数为1024;其中,i=1,…,G,t=1,…,T;i表示当前被分析样本所属说话人的编号;G表示说话人总数量;T表示被分析样本的总帧数;

将说话人i的所有幅度谱Vi=[Vit]作为一组,进行分解,得到对应该说话人的语音基Wi,所述的分解通过最小化如下代价函数完成:

其中,Wi和Hi分别表示第i个说话人的基和权重,并在优化时保持它们非负;i=1,…,G;Vit,t=1,…,T,D(X||Y)表示库尔巴克散度:

其中,Xmn表示矩阵X的第m行第n列元素,Ymn表示矩阵Y的第m行第n列元素。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院声学研究所;北京中科信利技术有限公司,未经中国科学院声学研究所;北京中科信利技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201510885336.5/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top